Desarrollo Análisis Exploratorio de Datos (EDA)
Desarrollo Análisis Exploratorio de Datos (EDA)
El AED consiste en aplicar un conjunto de técnicas
estadísticas dirigidas a explorar, describir y resumir la naturaleza de los
datos, de tal forma que podamos garantizar su objetividad e interoperabilidad.
Gracias a ello se pueden identificar posibles errores,
revelar la presencia de valores atípicos, comprobar la relación entre variables
(correlaciones) y su posible redundancia, así como realizar un análisis
descriptivo de los datos mediante representaciones gráficas y resúmenes de los
aspectos más significativos.
En muchas ocasiones, esta exploración de los datos se
descuida y no se lleva a cabo de manera correcta. Por este motivo, desde
datos.gob.es hemos elaborado una guía introductoria que recoge una serie de
tareas mínimas para realizar un correcto Análisis Exploratorios de Datos, paso
previo y necesario antes de llevar a cabo cualquier tipo de análisis
estadístico o predictivo ligado a las técnicas de machine learning.
La guía explica de forma sencilla cuáles son los pasos a
seguir para garantizar unos datos consistentes y veraces. Para su elaboración
se ha tomado como referencia el análisis exploratorio de datos descrito en el
libro R for Data Science de Wickman y Grolemund (2017) disponible de forma
gratuita. Estos pasos son:
El Análisis Exploratorio de Datos (EDA) es crucial en cualquier proyecto de análisis
1. Importar bibliotecas : Utilice bibliotecas como Pandas, NumPy y Matplotlib para cargar y manipular datos.
- Ejemplo:
2. Cargar datos : Importa t
- Ejemplo:
3. Explorar datos básicos : Examina las primeras filas para entender la estructura
- Ejemplo:
4. Estadísticas descriptivas : Calcula estadísticas resumidas.
- Ejemplo:
5. Tratar valores nulos : Identifica y maneja valores faltantes.
- Ejemplo:
6. Visualizaciones : Crea gráficos para
- Ejemplo:
7. Correlaciones : Analiza relaciones e
- Ejemplo:
Make | Model | Year | Engine Fuel Type | Engine HP | Engine Cylinders | Transmission Type | Driven_Wheels | Number of Doors | Market Category | Vehicle Size | Vehicle Style | highway MPG | city mpg | Popularity | MSRP | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | BMW | 1 Series M | 2011 | premium unleaded (required) | 335.0 | 6.0 | MANUAL | rear wheel drive | 2.0 | Factory Tuner,Luxury,High-Performance | Compact | Coupe | 26 | 19 | 3916 | 46135 |
1 | BMW | 1 Series | 2011 | premium unleaded (required) | 300.0 | 6.0 | MANUAL | rear wheel drive | 2.0 | Luxury,Performance | Compact | Convertible | 28 | 19 | 3916 | 40650 |
2 | BMW | 1 Series | 2011 | premium unleaded (required) | 300.0 | 6.0 | MANUAL | rear wheel drive | 2.0 | Luxury,High-Performance | Compact | Coupe | 28 | 20 | 3916 | 36350 |
3 | BMW | 1 Series | 2011 | premium unleaded (required) | 230.0 | 6.0 | MANUAL | rear wheel drive | 2.0 | Luxury,Performance | Compact | Coupe | 28 | 18 | 3916 | 29450 |
4 | BMW | 1 Series | 2011 | premium unleaded (required) | 230.0 | 6.0 | MANUAL | rear wheel drive | 2.0 | Luxury | Compact | Convertible | 28 | 18 | 3916 | 34500 |
1. Identificar la calidad y la integridad de los datos:
Durante el EDA, podemos identificar cualquier problema de calidad de datos,
como datos faltantes, valores atípicos o errores. Estas conclusiones nos
ayudarán a tomar decisiones informadas sobre cómo manejar los datos durante el
análisis.
2. Caracterización de los datos: El EDA permite comprender
la estructura y la naturaleza de los datos. Podemos identificar la distribución
de las variables, la presencia de correlaciones entre ellas y cualquier patrón
o tendencia notable. Estas conclusiones nos ayudarán a seleccionar las técnicas
analíticas adecuadas para el conjunto de datos.
3. Identificación de variables relevantes: Al examinar los
datos en detalle, podemos determinar qué variables tienen una mayor influencia
o contribución en la respuesta o el resultado que estamos buscando. Esto nos
permite tomar decisiones informadas sobre qué variables incluir en nuestros
modelos posteriores.
4. Detección de relaciones y patrones: El EDA nos permite
identificar relaciones o patrones interesantes entre las variables. Esto puede
ayudarnos a descubrir información oculta o realizar inferencias sobre el
conjunto de datos que podrían ser útiles en la toma de decisiones.
5. Validación de suposiciones: Al realizar un EDA, podemos
validar o refutar suposiciones previas sobre los datos. Por ejemplo, podemos
confirmar si los datos siguen una distribución particular o cumplen ciertas
hipótesis estadísticas. Esto nos permite tener confianza en los resultados
futuros del análisis.
Comentarios
Publicar un comentario