Code Monkey home page Code Monkey logo

proyecto3's Introduction

project-da-promo-D-module-3-team-1

Este repositorio incluye el proyecto del equipo 1 del Módulo 3 de la promo D del bootcamp de Data Analytics de Adalab. El nombre del equipo es Reading the Future y las integrantes son Estibaliz Gallego, Iris Herrero, Cristina Bernabeu y Maitane Portilla.

OBJETIVO:

Desarrollo de un modelo de machine learning para una empresa de alquiler de bicicletas, considerando ususarios registrados y casuales.

DESARROLLO:

1.1 EXPLORACIÓN:
En primer lugar hemos procedido a realizar la exploración del dataset tanto de forma analítica como numérica. Entre las actividades más importantes destacan:

  • Selección de la variable respuesta
  • Renombrado de columnas
  • Cambio de tipo de datos
  • Análisis de las variables categóricas y numéricas en relación a la variable respuesta
  • Correlación entre las variables numéricas, eliminación de columnas redundantes
  • Gestión de outliers
  • Guardado del dataset modificado

1.2. PROCESADO:

  • Intento de normalización de la variable respuesta -> descartamos el algoritmo de regresión lineal
  • Estandarización de variables numéricas
  • Encoding de variables categóricas

1.3. MODELOS DE DECISION TREE

  • Separado de los datos en X e y, train y test
  • Entrenamiento y ajuste del modelo
  • Estimación del mejor modelo
  • Matriz de confusión
  • Métricas
  • Importancia de las variables predictoras
  • Comparación con otros modelos

1.4. MODELOS DE RANDOM FOREST

  • Separado de los datos en X e y, train y test
  • Entrenamiento y ajuste del modelo
  • Estimación del mejor modelo
  • Matriz de confusión
  • Métricas
  • Importancia de las variables predictoras
  • Comparación con otros modelos

RESULTADOS: Modelo Casual: R2: 0,784; RMSE: +- 322 Modelo Registered: R2: 0,865; RMSE: +- 541

Tras la diversas pruebas realizadas nos quedamos para ambos casos (casuales y registrados) con modelos predictores basados en 6 variables, conseguimos métricas mejores y aportamos simplicidad y explicabilidad.

Siendo los usuarios registrados totales muy superiores a los casuales es coherente que su margen de error en términos absolutos sea mayor. Si analizamos este error en porcentaje encontramos que el de registrados es de solo un 7,81%, mientras que el de casuales es de 9,45%.

PRESENTACIÓN: Aquí el enlace a la presentación de canva.

ORGANIZACIÓN DEL REPOSITORIO: La documentación se ha organizado en las siguientes carpetas y archivos:

LIBRERÍAS:

A continuación se incluye un listado de las librerías utilizadas:

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.