The bigdata from miguelmontcerv

BigData

Puede llegar a ser difícil llegar a describir que es el Big Data, pero podemos partir de una frase muy interesante

“Si le hubiera preguntado a la gente qué quería, me hubieran dicho que un caballo más rápido” –Hery Ford

Esta frase ejemplifica perfectamente la diferencia entre las cosas que queremos y aquellas que necesitamos, pero ¿Cómo se lo que la gente necesita?

Es fascinante como el ser humano suele realizar ciertas acciones sin darse cuenta, y considerando que gracias a las tecnologías actuales la mayoría de lo que hacemos queda registrado, puede llegar a ser fácil identificar patrones inconscientes que seguimos un cierto grupo de personas; Áreas como la Ciencia de Datos se encarga precisamente de analizar este tipo de tendencias, para darle exactamente a las personas lo que necesitan y no lo que quieren, y de esta manera, ganamos todos.

Entonces, la Ciencia de Datos la podemos definir como una disciplina que se encarga de analizar información proveniente de diversos medios, para facilitar la vida de las personas o incrementar los ingresos de alguna industria; más de una vez seguramente has buscado algún producto en el buscador de tu preferencia, cuando poco tiempo después, automáticamente te empiezan a aparecer comerciales y propaganda de ese mismo producto o alguno similar de la competencia, esa es a grandes rasgos la función principal de la ciencia de datos, y es justamente donde inicio una regla clave en la actualidad: entre más datos tenga de mi usuario, más sabré de él.

Fue en ese preciso momento en el que la mayoría de las empresas actuales comenzaron a registrar todo lo que hacen sus usuarios, desde cuanto tiempo pasan utilizando su aplicación en el teléfono, que comparten en sus redes sociales, que productos buscan, que series les interesan, gustos musicales, y otros miles de datos más, todos provenientes de diversos dispositivos, como el teléfono celular, la computadora de escritorio o dispositivos inteligentes.

Posteriormente, después de que las empresas empezaran a registrar todo surgió un gran problema, cada vez era más difícil realizar los cálculos para recomendar productos, porque los registros eran gigantescos, también, las empresas pagaban cantidades exorbitantes para poder procesar esos registros, ya que, al ser mucho, simplemente necesitas computadoras con los mejores procesadores para poder analizar la información, además, todo el tiempo se iban creando más registros y los datos se iban haciendo cada vez más grandes, fue entonces cuando surgió naturalmente una pregunta, ¿Cómo puedo procesar grandes volúmenes de información?

En ese momento nace el Big Data, que como su nombre lo dice, es la rama del cómputo que se encarga de procesar grandes volúmenes de información, y tomando en cuenta el mundo en el que vivimos actualmente, datos tenemos de sobra; Otra pregunta que nos podemos realizar y es completamente valida (por la misma ambigüedad de la definición) es ¿Cuánto es ‘grandes volúmenes de información’? En este momento es cuando muchos expertos del área difieren entre ellos, para algunos “Mucha información” son apenas MegaBytes de información, mientras que otros lo consideran a partir de PetaBytes, una diferencia bastante notoria tomando en cuenta que un PetaByte equivale a 1,000,000,000 MegaBytes; Propongo tomar como base para esta definición el punto de vista que tienen los expertos de Microsoft, ellos consideran que se está hablando de Big Data a partir de 4 TeraBytes de datos, es decir más de 500,000 MegaBytes.

Ahora que hemos dado un recuento en general sobre cómo surge la necesidad de manejar grandes volúmenes de datos, veremos en los siguientes capítulos las tecnologías que están dentro de esta rama de la computación abarcando los siguientes módulos:

Introducción al Big Data y al ambiente Apache

Introducción a Apache Hadoop

YARN y Sistema de Ficheros HDFS en Hadoop

Operaciones básicas de archivos de línea de comandos de HDFS

Introducción a Apache Spark

Uso de componentes de Spark

Análisis de Big Data con Spark

Introducción a NoSQL: Apache Cassandra

Espero este resumen les pueda ser de gran ayuda y siempre recuerden Los datos nunca mienten.