Este es el repositorio personal de la materia "Data Mining" de la Maestría en Explotación de datos y Descubrimiento del conocimiento (UBA), dictado de manera virtual durante el primer cuatrimestre 2020.
La materia constó de 2 trabajos practicos (TPs) y un examen final.
Aquí estan subidas las consignas y los trabajos práticos con parte del código utilizado.
Tanto para el TP1, como el TP2, fue provista una base de datos compuestas de "tweets" de la red social "Twitter". Se utilizó la GUI "Robo 3T" para generar las collections/vistas para el posterior análisis de los datos. Estos de realizaron utilizando el lenguaje R, empleando Rstudio como entorno de desarrollo.
Los análisis se centraron en la exploración de datos (EDA) y el empleo de técnicas de limpieza, integración y preparación de datos. Entre las que se pueden destacar: detección de "outliers", datos faltantes, reducción de dimensionalidad, transfomación y creación de nuevas variables ("Feature engeneering"), etc.
Em el tp2, además de lo mencionado se empleo "arules", un algoritmo Apriori para la identificación de itemsets frecuentes y la creación de reglas de asociación que permitieron resolver las consignas panteadas.