promo-d-da-modulo3-sprint1-laura-maitane

Este repositorio incluye los ejercicios de Pair Programming de Laura Madrid y Maitane Portilla del Sprint 1 del Módulo 3 (primera evaluación del módulo 3) de la promo D del bootcamp de Data Analytics de Adalab.

La documentación se ha organizado en las siguientes carpetas:

regresion-lineal: Recoge los ejercicios de regresión lineal. Incluye los siguientes archivos y carpetas:
- datos: contiene los archivos .csv y .jpeg utilizados/generados en los ejercicios.
- reg-lin-01-machine-learning-intro.ipynb: contiene los ejercicios de la lección 1 de regresión lineal (EDA del dataset).
- reg-lin-02-tests-estadisticos.ipynb: contiene los ejercicios de la lección 2 de regresión lineal (tests estadísticos).
- reg-lin-03-correlacion-covarianza.ipynb: contiene los ejercicios de la lección 3 de regresión lineal (correlación y covarianza).
- reg-lin-04-asunciones.ipynb: contiene los ejercicios de la lección 4 de regresión lineal (asunciones de la regresión lineal).
- reg-lin-05-normalizacion.ipynb: contiene los ejercicios de la lección 5 de regresión lineal (normalización de la VR).
- reg-lin-06-estandarizacion.ipynb: contiene los ejercicios de la lección 6 de regresión lineal (estandarizaciíon de las VP).
- reg-lin-07-ANOVA.ipynb: contiene los ejercicios de la lección 7 de regresión lineal (ANOVA).
- reg-lin-08-encoding.ipynb: contiene los ejercicios de la lección 8 de regresión lineal (encoding).
- reg-lin-09.intro-regresion-lineal.ipynb: contiene los ejercicios de la lección 9 de regresión lineal (Regresión Lineal).
- reg-lin-10-metricas.ipynb: contiene los ejercicios de la lección 10 de regresión lineal (métricas).
- reg-lin-11-decision-tree.ipynb: contiene los ejercicios de la lección 11 de regresión lineal (Decision Tree).
- reg-lin-12-random-forest.ipynb: contiene los ejercicios de la lección 12 de regresión lineal (Random Forest).
- reg-lin-12-random-forest-con-arboles.ipynb: contiene los ejercicios de la lección 12 de regresión logística (Random Forest), incluyendo los árboles del bosque ploteados (no permite visualización en github por tamaño del archivo pero sí permite la descarga).
regresion-logistica: recoge los ejercicios de regresión logística. Incluye los siguientes archivos y carpetas:
- datos: contiene los archivos .csv y .pkl utilizados/generados en los ejercicios.
- reg-log-1-eda.ipynb: contiene los ejercicios de la lección 1 de regresión logística (EDA del dataset).
- reg-log-2-procesado.ipynb: contiene los ejercicios de la lección 2 de regresión logística (procesado de los datos).
- reg-log-3-ajuste.ipynb: contiene los ejercicios de la lección 3 de regresión logística (ajuste del modelo y matriz de confusión).
- reg-log-4-metricas.ipynb: contiene los ejercicios de la lección 4 de regresión logística (métricas).
- reg-log-5-decision-tree.ipynb: contiene los ejercicios de la lección 5 de regresión logística (Decision Tree).
- reg-log-6-random-forest.ipynb: contiene los ejercicios de la lección 6 de regresión logística (Random Forest).
- reg-log-6-random-forest-con-arboles.ipynb: contiene los ejercicios de la lección 6 de regresión logística (Random Forest), incluyendo los árboles del bosque ploteados (no permite visualización en github por tamaño del archivo pero sí permite la descarga).
src: Incluye los siguientes archivos para facilitar la lectura de los notebooks:
- soporte_funciones.py: archivo .py con las funciones utilizadas en los notebooks.
- soporte_variables.py: archivo .py con las variables de gran tamaño utilizadas en los notebooks.

A continuación se incluye un listado de las librerías utilizadas:

DESCRIPCIÓN DEL PROCESO:

1. REGRESIÓN LINEAL:

1.1 EXPLORACIÓN:

En primer lugar hemos procedido a realizar la exploración del dataset tanto de forma analítica como numérica. Entre las actividades más importantes destacan:

Selección de la variable respuesta
Selección inicial de variables relevantes
Renombrado de columnas
Exploración general de los datos
Cambio de tipo de datos y desdoblado de las columnas
Gestión de valores nulos
Análisis de las variables categóricas y numéricas en relación a la variable respuesta
Correlación entre las variables numéricas, eliminación de columnas redundantes
Gestión de outliers
Guardado del dataset modificado

1.2. ANÁLISIS DETALLADO DE LAS VARIABLES

Tests estadísticos para la variable respuesta: asimetría, curtosis, normalidad.
Covarianza y correlación entre variables numéricas
Asunciones: normalidad de la variable respuesta, independencia y homocedasticidad de las variables predictoras
ANOVA

1.3. PROCESADO:

Normalización de la variable respuesta
Estandarización de variables numéricas
Encoding de variables categóricas
Balanceo y codificación de la variable respuesta

1.4. MODELO DE REGRESIÓN LINEAL

Separado de los datos en X e y, train y test
Entrenamiento y ajuste del modelo
Matriz de confusión
Cross Validation
Métricas
Comparación con otros modelos

1.5. MODELO DE DECISION TREE

Separado de los datos en X e y, train y test
Entrenamiento y ajuste del modelo
Estimación del mejor modelo
Matriz de confusión
Métricas
Importancia de las variables predictoras
Comparación con otros modelos

1.6. MODELO DE RANDOM FOREST

Separado de los datos en X e y, train y test
Entrenamiento y ajuste del modelo
Estimación del mejor modelo
Matriz de confusión
Métricas
Importancia de las variables predictoras
Comparación con otros modelos

2. REGRESIÓN LOGÍSTICA:

2.1 EXPLORACIÓN:
En primer lugar hemos procedido a realizar la exploración del dataset tanto de forma analítica como numérica. Entre las actividades más importantes destacan:

Selección de la variable respuesta
Renombrado de columnas
Exploración general de los datos
Cambio de tipo de datos de las columnas
Análisis de las variables categóricas y numéricas en relación a la variable respuesta
Correlación entre las variables numéricas, eliminación de columnas redundantes
Gestión de outliers
Guardado del dataset modificado

2.2. PROCESADO:

Estandarización de variables numéricas
Encoding de variables categóricas
Balanceo y codificación de la variable respuesta

2.3. MODELO DE REGRESIÓN LOGÍSTICA

Separado de los datos en X e y, train y test
Entrenamiento y ajuste del modelo
Matriz de confusión
Métricas
Comparación con otros modelos

2.4. MODELO DE DECISION TREE

Separado de los datos en X e y, train y test
Entrenamiento y ajuste del modelo
Estimación del mejor modelo
Matriz de confusión
Métricas
Importancia de las variables predictoras
Comparación con otros modelos

2.5. MODELO DE RANDOM FOREST

Separado de los datos en X e y, train y test
Entrenamiento y ajuste del modelo
Estimación del mejor modelo
Matriz de confusión
Métricas
Importancia de las variables predictoras
Comparación con otros modelos

maitanep / adalab-da-evaluacion-modulo3-sprint1-pair-programming-machine-learning Goto Github PK

adalab-da-evaluacion-modulo3-sprint1-pair-programming-machine-learning's Introduction

promo-d-da-modulo3-sprint1-laura-maitane

DESCRIPCIÓN DEL PROCESO:

adalab-da-evaluacion-modulo3-sprint1-pair-programming-machine-learning's People

Contributors

Stargazers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent