Code Monkey home page Code Monkey logo

sharks's Introduction

W2 Project - Data cleaning "Sharks Attacks"

Objetivo: Limpieza de un conjunto de datos relativos a ataques de tiburones y pequeño análisis de los mismos.

Check-list:

1. Importar librerías necesarias para la limpieza y el análisis.

2. Importar el dataset y hacer una copia sobre la que trabajar.

3. Cumplir la condición de que tenga al menos 2500 filas y 23 columnas.

4. Exploración de los datos y las columnas:

  • Case number: Indice de los casos.
  • Case Number.1 y Case Number.2: Copias del índice (Case Number)
  • Date: Fecha en la que se produce el ataque.
  • Year: Año en el que se produce el ataque.
  • Type: Situación en que se produce.
  • Country: País en el que sucede.
  • Area: Región en la que sucede.
  • Location: Lugar concreto del ataque.
  • Activity: Actividad que estaba realizando la víctima.
  • Name: Nombre de la persona atacada.
  • Sex: Indica el sexo de la persona atacada.
  • Age: Indica la edad de la persona atacada.
  • Injury: Descripción de las lesiones causadas.
  • Fatal (Y/N): Indica Y si el ataque fue mortal y N si no.
  • Time: Indica la hora a la que se produjo el ataque.
  • Species: Indica la especie del tiburón.
  • Investigator or Source: Persona o instituación responsable de la investigación del ataque.
  • pdf: Nombre del pdf asociado al accidente.
  • href formula y href: Link al pdf del accidente.
  • original order: Orden original de los casos.

5. Exploración de los valores nulos:

  • Se eliminan las columnas donde todos los valores son nulos (Unnamed: 22 y Unnamed: 23).
  • Se eliminan las filas donde más del 75% de los datos son nulos.
  • Se exploran los nulos columna a columna, rellenando en algunos casos por el valor correcto y, en otros, por 'Unknown'.

6. Eliminación de duplicados.

7. Limpieza por columnas:

  • 'Year' y 'original order': pasamos a enteros. En 'Year' además se rellenan los valores = 0 con el año que aparece en la columna 'Date'.
  • 'Time': se extraen todos los datos posibles y se categorizan por franjas horarias: morning, afternoon, evening y night.
  • 'Species': se transforman los nulos a 'Unknown'.
  • 'Age': se extraen todos los valores posibles y se pasan a enteros. Los nulos se transforman en la moda para no interferir demasiado en la descripción estadística posterior.
  • 'Sex': se unifican en M: hombres y F: mujeres.
  • 'Fatal (Y/N)': se unifican en Y: ataque mortal, N: ataque no mortal y 'UNKNOWN'.
  • 'Type': se unifican en 'Boating', 'Unprovoked', 'Invalid', 'Provoked', 'Questionable', 'Sea Disaster'.
  • 'Name': se transforman en 'Unknown' aquellos que contenían female o male.
  • 'Country': se unifican los repetidos, se eliminan espacios
  • 'Date': se elimina ya que esa información se contiene en otras columnas.

8. Creación de nuevas columnas:

  • 'Month': se extrae esta información de la columna 'Case Number'.
  • 'Continent': se crea un diccionario con los países para clasificarlos por continente.

9. Análisis de datos:

  • Se analizan atendiendo a las columnas Month, Year, Time, Continent, Sex, Age y Fatal (Y/N).

10. Visualización de los datos.

11. Conclusiones.

sharks's People

Contributors

noeroson avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.