Este repositorio incluye los ejercicios de Pair Programming de Laura Madrid y Maitane Portilla del Sprint 1 del Módulo 3 (primera evaluación del módulo 3) de la promo D del bootcamp de Data Analytics de Adalab.
La documentación se ha organizado en las siguientes carpetas:
- regresion-lineal: Recoge los ejercicios de regresión lineal. Incluye los siguientes archivos y carpetas:
- datos: contiene los archivos .csv y .jpeg utilizados/generados en los ejercicios.
- reg-lin-01-machine-learning-intro.ipynb: contiene los ejercicios de la lección 1 de regresión lineal (EDA del dataset).
- reg-lin-02-tests-estadisticos.ipynb: contiene los ejercicios de la lección 2 de regresión lineal (tests estadísticos).
- reg-lin-03-correlacion-covarianza.ipynb: contiene los ejercicios de la lección 3 de regresión lineal (correlación y covarianza).
- reg-lin-04-asunciones.ipynb: contiene los ejercicios de la lección 4 de regresión lineal (asunciones de la regresión lineal).
- reg-lin-05-normalizacion.ipynb: contiene los ejercicios de la lección 5 de regresión lineal (normalización de la VR).
- reg-lin-06-estandarizacion.ipynb: contiene los ejercicios de la lección 6 de regresión lineal (estandarizaciíon de las VP).
- reg-lin-07-ANOVA.ipynb: contiene los ejercicios de la lección 7 de regresión lineal (ANOVA).
- reg-lin-08-encoding.ipynb: contiene los ejercicios de la lección 8 de regresión lineal (encoding).
- reg-lin-09.intro-regresion-lineal.ipynb: contiene los ejercicios de la lección 9 de regresión lineal (Regresión Lineal).
- reg-lin-10-metricas.ipynb: contiene los ejercicios de la lección 10 de regresión lineal (métricas).
- reg-lin-11-decision-tree.ipynb: contiene los ejercicios de la lección 11 de regresión lineal (Decision Tree).
- reg-lin-12-random-forest.ipynb: contiene los ejercicios de la lección 12 de regresión lineal (Random Forest).
- reg-lin-12-random-forest-con-arboles.ipynb: contiene los ejercicios de la lección 12 de regresión logística (Random Forest), incluyendo los árboles del bosque ploteados (no permite visualización en github por tamaño del archivo pero sí permite la descarga).
- regresion-logistica: recoge los ejercicios de regresión logística. Incluye los siguientes archivos y carpetas:
- datos: contiene los archivos .csv y .pkl utilizados/generados en los ejercicios.
- reg-log-1-eda.ipynb: contiene los ejercicios de la lección 1 de regresión logística (EDA del dataset).
- reg-log-2-procesado.ipynb: contiene los ejercicios de la lección 2 de regresión logística (procesado de los datos).
- reg-log-3-ajuste.ipynb: contiene los ejercicios de la lección 3 de regresión logística (ajuste del modelo y matriz de confusión).
- reg-log-4-metricas.ipynb: contiene los ejercicios de la lección 4 de regresión logística (métricas).
- reg-log-5-decision-tree.ipynb: contiene los ejercicios de la lección 5 de regresión logística (Decision Tree).
- reg-log-6-random-forest.ipynb: contiene los ejercicios de la lección 6 de regresión logística (Random Forest).
- reg-log-6-random-forest-con-arboles.ipynb: contiene los ejercicios de la lección 6 de regresión logística (Random Forest), incluyendo los árboles del bosque ploteados (no permite visualización en github por tamaño del archivo pero sí permite la descarga).
- src: Incluye los siguientes archivos para facilitar la lectura de los notebooks:
- soporte_funciones.py: archivo .py con las funciones utilizadas en los notebooks.
- soporte_variables.py: archivo .py con las variables de gran tamaño utilizadas en los notebooks.
A continuación se incluye un listado de las librerías utilizadas:
- pandas
- numpy
- warnings
- sys
- matplotlib
- seaborn
- sklearn
- scipy
- statsmodels
- researchpy
- itertools
- math
- imblearn
- collections
- tqdm
1. REGRESIÓN LINEAL:
1.1 EXPLORACIÓN:
En primer lugar hemos procedido a realizar la exploración del dataset tanto de forma analítica como numérica. Entre las actividades más importantes destacan:
- Selección de la variable respuesta
- Selección inicial de variables relevantes
- Renombrado de columnas
- Exploración general de los datos
- Cambio de tipo de datos y desdoblado de las columnas
- Gestión de valores nulos
- Análisis de las variables categóricas y numéricas en relación a la variable respuesta
- Correlación entre las variables numéricas, eliminación de columnas redundantes
- Gestión de outliers
- Guardado del dataset modificado
1.2. ANÁLISIS DETALLADO DE LAS VARIABLES
- Tests estadísticos para la variable respuesta: asimetría, curtosis, normalidad.
- Covarianza y correlación entre variables numéricas
- Asunciones: normalidad de la variable respuesta, independencia y homocedasticidad de las variables predictoras
- ANOVA
1.3. PROCESADO:
- Normalización de la variable respuesta
- Estandarización de variables numéricas
- Encoding de variables categóricas
- Balanceo y codificación de la variable respuesta
1.4. MODELO DE REGRESIÓN LINEAL
- Separado de los datos en X e y, train y test
- Entrenamiento y ajuste del modelo
- Matriz de confusión
- Cross Validation
- Métricas
- Comparación con otros modelos
1.5. MODELO DE DECISION TREE
- Separado de los datos en X e y, train y test
- Entrenamiento y ajuste del modelo
- Estimación del mejor modelo
- Matriz de confusión
- Métricas
- Importancia de las variables predictoras
- Comparación con otros modelos
1.6. MODELO DE RANDOM FOREST
- Separado de los datos en X e y, train y test
- Entrenamiento y ajuste del modelo
- Estimación del mejor modelo
- Matriz de confusión
- Métricas
- Importancia de las variables predictoras
- Comparación con otros modelos
2. REGRESIÓN LOGÍSTICA:
2.1 EXPLORACIÓN:
En primer lugar hemos procedido a realizar la exploración del dataset tanto de forma analítica como numérica. Entre las actividades más importantes destacan:
- Selección de la variable respuesta
- Renombrado de columnas
- Exploración general de los datos
- Cambio de tipo de datos de las columnas
- Análisis de las variables categóricas y numéricas en relación a la variable respuesta
- Correlación entre las variables numéricas, eliminación de columnas redundantes
- Gestión de outliers
- Guardado del dataset modificado
2.2. PROCESADO:
- Estandarización de variables numéricas
- Encoding de variables categóricas
- Balanceo y codificación de la variable respuesta
2.3. MODELO DE REGRESIÓN LOGÍSTICA
- Separado de los datos en X e y, train y test
- Entrenamiento y ajuste del modelo
- Matriz de confusión
- Métricas
- Comparación con otros modelos
2.4. MODELO DE DECISION TREE
- Separado de los datos en X e y, train y test
- Entrenamiento y ajuste del modelo
- Estimación del mejor modelo
- Matriz de confusión
- Métricas
- Importancia de las variables predictoras
- Comparación con otros modelos
2.5. MODELO DE RANDOM FOREST
- Separado de los datos en X e y, train y test
- Entrenamiento y ajuste del modelo
- Estimación del mejor modelo
- Matriz de confusión
- Métricas
- Importancia de las variables predictoras
- Comparación con otros modelos