Code Monkey home page Code Monkey logo

dataset-cleanup-project's Introduction

Global Shark Attack Incidents

jaws

Intro

El objetivo de este proyecto es tomar decisiones sobre como limpiar los datos de Global Shark Attack Incidents, un dataset alojado en la web de kaggle con registros sobre ataques de tiburones.

Hipótesis

¿Son los ataques de tiburones más usuales en hombres que en mujeres?
Como ya hemos comentado en la Intro, el objetivo del proyecto se basa en la limpieza de datos, sin embargo vamos a marcar un objetivo para poder tomar decisiones enfocadas a una misma dirección.

Métodos

Los metodos que he utilizado para la limpieza de datos son:

  • Lectura de ficheros y creación de DataFrames (Pandas).
  • Visual de los datos en crudo con df.columns, df.describe() y df.dtypes.
  • Mapeado de datos nulos:
cols = df.columns[:]
colours = ['#000099', '#ffff00'] # amarillo == valores nulos // azul == valores no nulos
sns.heatmap(df[cols].isnull(), cmap=sns.color_palette(colours))
  • Transformación de columnas a través de funciones.
  • Dropeo de columnas.
  • Regex.
  • Plots con matplotlib.
  • Volcado de datos en csv.

Conclusiones

Existe todo un universo de posibilidades en cuanto a limpieza de datos se refiere, y muchas librerias que pueden hacernos la vida muy facil, sin embargo destacaría Pandas por encima del resto.

En cuanto al trato de resultados nulos, no existen parametros fijos sobre como debemos manipular dichos datos. La forma mas eficiente es hacer una valoración en función del objetivo que queramos alcanzar.

dataset-cleanup-project's People

Contributors

hector-lovi avatar

Watchers

James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.