Desarrollo Análisis Exploratorio de Datos (EDA)

Desarrollo Análisis Exploratorio de Datos (EDA)

El AED consiste en aplicar un conjunto de técnicas estadísticas dirigidas a explorar, describir y resumir la naturaleza de los datos, de tal forma que podamos garantizar su objetividad e interoperabilidad.

Gracias a ello se pueden identificar posibles errores, revelar la presencia de valores atípicos, comprobar la relación entre variables (correlaciones) y su posible redundancia, así como realizar un análisis descriptivo de los datos mediante representaciones gráficas y resúmenes de los aspectos más significativos.

En muchas ocasiones, esta exploración de los datos se descuida y no se lleva a cabo de manera correcta. Por este motivo, desde datos.gob.es hemos elaborado una guía introductoria que recoge una serie de tareas mínimas para realizar un correcto Análisis Exploratorios de Datos, paso previo y necesario antes de llevar a cabo cualquier tipo de análisis estadístico o predictivo ligado a las técnicas de machine learning.

La guía explica de forma sencilla cuáles son los pasos a seguir para garantizar unos datos consistentes y veraces. Para su elaboración se ha tomado como referencia el análisis exploratorio de datos descrito en el libro R for Data Science de Wickman y Grolemund (2017) disponible de forma gratuita. Estos pasos son:

El Análisis Exploratorio de Datos (EDA) es crucial en cualquier proyecto de análisis

1. Importar bibliotecas : Utilice bibliotecas como Pandas, NumPy y Matplotlib para cargar y manipular datos.

Ejemplo:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

2. Cargar datos : Importa t

Ejemplo:

df = pd.read_csv('nombre_del_archivo.csv')

3. Explorar datos básicos : Examina las primeras filas para entender la estructura

Ejemplo:

print(df.head())

4. Estadísticas descriptivas : Calcula estadísticas resumidas.

Ejemplo:

print(df.describe())

5. Tratar valores nulos : Identifica y maneja valores faltantes.

Ejemplo:

print(df.isnull().sum())

6. Visualizaciones : Crea gráficos para

Ejemplo:

df['columna'].hist()
plt.show()

7. Correlaciones : Analiza relaciones e

Ejemplo:

print(df.corr())

df = pd.read_csv("../input/cardataset/data.csv")
# To display the top 5 rows 
df.head(5)

Make	Model	Year	Engine Fuel Type	Engine HP	Engine Cylinders	Transmission Type	Driven_Wheels	Number of Doors	Market Category	Vehicle Size	Vehicle Style	highway MPG	city mpg	Popularity	MSRP
0	BMW	1 Series M	2011	premium unleaded (required)	335.0	6.0	MANUAL	rear wheel drive	2.0	Factory Tuner,Luxury,High-Performance	Compact	Coupe	26	19	3916	46135
1	BMW	1 Series	2011	premium unleaded (required)	300.0	6.0	MANUAL	rear wheel drive	2.0	Luxury,Performance	Compact	Convertible	28	19	3916	40650
2	BMW	1 Series	2011	premium unleaded (required)	300.0	6.0	MANUAL	rear wheel drive	2.0	Luxury,High-Performance	Compact	Coupe	28	20	3916	36350
3	BMW	1 Series	2011	premium unleaded (required)	230.0	6.0	MANUAL	rear wheel drive	2.0	Luxury,Performance	Compact	Coupe	28	18	3916	29450
4	BMW	1 Series	2011	premium unleaded (required)	230.0	6.0	MANUAL	rear wheel drive	2.0	Luxury	Compact	Convertible	28	18	3916	34500

8. Conclusiones :

1. Identificar la calidad y la integridad de los datos: Durante el EDA, podemos identificar cualquier problema de calidad de datos, como datos faltantes, valores atípicos o errores. Estas conclusiones nos ayudarán a tomar decisiones informadas sobre cómo manejar los datos durante el análisis.

2. Caracterización de los datos: El EDA permite comprender la estructura y la naturaleza de los datos. Podemos identificar la distribución de las variables, la presencia de correlaciones entre ellas y cualquier patrón o tendencia notable. Estas conclusiones nos ayudarán a seleccionar las técnicas analíticas adecuadas para el conjunto de datos.

3. Identificación de variables relevantes: Al examinar los datos en detalle, podemos determinar qué variables tienen una mayor influencia o contribución en la respuesta o el resultado que estamos buscando. Esto nos permite tomar decisiones informadas sobre qué variables incluir en nuestros modelos posteriores.

4. Detección de relaciones y patrones: El EDA nos permite identificar relaciones o patrones interesantes entre las variables. Esto puede ayudarnos a descubrir información oculta o realizar inferencias sobre el conjunto de datos que podrían ser útiles en la toma de decisiones.

5. Validación de suposiciones: Al realizar un EDA, podemos validar o refutar suposiciones previas sobre los datos. Por ejemplo, podemos confirmar si los datos siguen una distribución particular o cumplen ciertas hipótesis estadísticas. Esto nos permite tener confianza en los resultados futuros del análisis.

Buscar este blog

Thinking in Python

Desarrollo Análisis Exploratorio de Datos (EDA)

Comentarios

Publicar un comentario

Entradas populares de este blog

Estudio de Caso 2 - Revitalizacion Rio Cheonggyecheon en Seúl, Corea del Sur

Aprendizaje Automático con Python y Asistentes Inteligentes