Desarrollo Análisis Exploratorio de Datos (EDA)

 Desarrollo  Análisis Exploratorio de Datos (EDA)

El AED consiste en aplicar un conjunto de técnicas estadísticas dirigidas a explorar, describir y resumir la naturaleza de los datos, de tal forma que podamos garantizar su objetividad e interoperabilidad.

Gracias a ello se pueden identificar posibles errores, revelar la presencia de valores atípicos, comprobar la relación entre variables (correlaciones) y su posible redundancia, así como realizar un análisis descriptivo de los datos mediante representaciones gráficas y resúmenes de los aspectos más significativos.

En muchas ocasiones, esta exploración de los datos se descuida y no se lleva a cabo de manera correcta. Por este motivo, desde datos.gob.es hemos elaborado una guía introductoria que recoge una serie de tareas mínimas para realizar un correcto Análisis Exploratorios de Datos, paso previo y necesario antes de llevar a cabo cualquier tipo de análisis estadístico o predictivo ligado a las técnicas de machine learning. 

La guía explica de forma sencilla cuáles son los pasos a seguir para garantizar unos datos consistentes y veraces. Para su elaboración se ha tomado como referencia el análisis exploratorio de datos descrito en el libro R for Data Science de Wickman y Grolemund (2017) disponible de forma gratuita. Estos pasos son:

El Análisis Exploratorio de Datos (EDA) es crucial en cualquier proyecto de análisis

  1. 1. Importar bibliotecas : Utilice bibliotecas como Pandas, NumPy y Matplotlib para cargar y manipular datos.

    • Ejemplo:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

2. Cargar datos : Importa t

  • Ejemplo:
df = pd.read_csv('nombre_del_archivo.csv')

3. Explorar datos básicos : Examina las primeras filas para entender la estructura

  • Ejemplo:
print(df.head())

4. Estadísticas descriptivas : Calcula estadísticas resumidas.

  • Ejemplo:
print(df.describe())

5. Tratar valores nulos : Identifica y maneja valores faltantes.

  • Ejemplo:
print(df.isnull().sum())

6. Visualizaciones : Crea gráficos para

  • Ejemplo:
df['columna'].hist()
plt.show()

7. Correlaciones : Analiza relaciones e

  • Ejemplo:
print(df.corr())

df = pd.read_csv("../input/cardataset/data.csv")
# To display the top 5 rows 
df.head(5)   

MakeModelYearEngine Fuel TypeEngine HPEngine CylindersTransmission TypeDriven_WheelsNumber of DoorsMarket CategoryVehicle SizeVehicle Stylehighway MPGcity mpgPopularityMSRP
0BMW1 Series M2011premium unleaded (required)335.06.0MANUALrear wheel drive2.0Factory Tuner,Luxury,High-PerformanceCompactCoupe2619391646135
1BMW1 Series2011premium unleaded (required)300.06.0MANUALrear wheel drive2.0Luxury,PerformanceCompactConvertible2819391640650
2BMW1 Series2011premium unleaded (required)300.06.0MANUALrear wheel drive2.0Luxury,High-PerformanceCompactCoupe2820391636350
3BMW1 Series2011premium unleaded (required)230.06.0MANUALrear wheel drive2.0Luxury,PerformanceCompactCoupe2818391629450
4BMW1 Series2011premium unleaded (required)230.06.0MANUALrear wheel drive2.0LuxuryCompactConvertible2818391634500
8. Conclusiones :

1. Identificar la calidad y la integridad de los datos: Durante el EDA, podemos identificar cualquier problema de calidad de datos, como datos faltantes, valores atípicos o errores. Estas conclusiones nos ayudarán a tomar decisiones informadas sobre cómo manejar los datos durante el análisis.

2. Caracterización de los datos: El EDA permite comprender la estructura y la naturaleza de los datos. Podemos identificar la distribución de las variables, la presencia de correlaciones entre ellas y cualquier patrón o tendencia notable. Estas conclusiones nos ayudarán a seleccionar las técnicas analíticas adecuadas para el conjunto de datos.

3. Identificación de variables relevantes: Al examinar los datos en detalle, podemos determinar qué variables tienen una mayor influencia o contribución en la respuesta o el resultado que estamos buscando. Esto nos permite tomar decisiones informadas sobre qué variables incluir en nuestros modelos posteriores.

4. Detección de relaciones y patrones: El EDA nos permite identificar relaciones o patrones interesantes entre las variables. Esto puede ayudarnos a descubrir información oculta o realizar inferencias sobre el conjunto de datos que podrían ser útiles en la toma de decisiones.

5. Validación de suposiciones: Al realizar un EDA, podemos validar o refutar suposiciones previas sobre los datos. Por ejemplo, podemos confirmar si los datos siguen una distribución particular o cumplen ciertas hipótesis estadísticas. Esto nos permite tener confianza en los resultados futuros del análisis.

 


Comentarios

Entradas populares de este blog

Colección de Scripts en Python

Estudio de Caso 2 - Revitalizacion Rio Cheonggyecheon en Seúl, Corea del Sur

Estudio de Caso 1