Au cours de ma formation de Full Stack à JEDHA Bootcamp, j’ai appris les langages de programmation (Python et SQL) et réalisé plusieurs projets (individuels et en Binôme) en data Science sur des sujets variés notamment en : Data Visualization, Machine Learning, Deep Learning (Image Processing et Natural Language Processing) avec l’utilisation de différentes librairies (Scikit-learn, Pandas, Numpy, Matplotlib, Seaborn, TensorFlow, Spacy).
Dans ce projet, notre objectif principal était de comprendre chacune des variables présentes dans le dataset à l’aide d’une visualisation et d'exploration de données. Nous avons donc fait une analyse descriptive des principaux facteurs qui influencent le fait d'obtenir un deuxième rendez-vous lors Speed Dating.
Le Taux de Conversion web est un indicateur clé de performance permettant de mesurer la performance marketing d’un site web ou l’efficacité d’une campagne de web marketing. Optimiser des taux de conversion est une des tâches les plus importantes d'un Data Scientist. Dans ce projet, on nous demandait d'utiliser nos connaissances en Machine Learning Supervisé pour construire le meilleur modèle qui permettra de prédire le taux de conversion des clients sur un site web et faire des recommandations à l’équipe marketing afin d'augmenter ces revenus.
Le but de ce projet était de construire un modèle qui permet de prédire la probabilité de transactions frauduleuses sur un site E-commerce. Nous avons utilisé un dataset provenant d'une entreprise anonyme qui vend des vêtements en ligne. Nous proposons plusieurs modèles afin de trouver la meilleure prédiction des transactions frauduleuses. Ce travail a été structuré de la manière suivante :
• L'exploration et la préparation des données, • La visualisation des données, • La corrélation des variables, • Les modèles de Machine Learning
Le but de ce projet était d'optimiser les points stratégiques des chauffeurs Uber dans la ville de New York en utilisant les techniques de clustering en Machine Learning. Pour ce faire, nous avons essayé de répondre aux questions suivantes
• Trouver le nombre de clusters optimum qui permet aux chauffeurs UBER de maximiser leurs chances de trouver des courses en fonction des périodes de la journée
• Localiser ces clusters sur une map
• Regarder la différence entre KMeans et DBSCAN
La détection d'objets dans une image est un des grands sujets d'application du Deep Learning. Le principe est simple : en plus d'entrainer un algorithme à détecter et dire ce qu'il y a sur une image, il va être entrainé à dire où l'objet se trouve dans l'image. Compte tenu des difficultés à mettre en place tout le processus d'entrainement de l'algorithme, nous avons appris à l'utiliser grâce à ce dépôt GitHub : Implémenter YoloV3 Notre but était donc de Cloner ce dépôt sur notre dossier en local et de l'utiliser pour de la détection d'images.
Twitter est devenu un canal de communication important en cas d'urgence. L'omniprésence des smartphones permet aux gens d'annoncer une urgence qu'ils observent en temps réel. C'est pourquoi de plus en plus d'agences (Organisations de secours en cas de catastrophe, Agences de presse, etc.) s'intéressent à la surveillance programmatique de Twitter. Mais il n'est pas toujours évident de savoir si les Tweets d'une personne annoncent réellement une catastrophe. Ici, notre objectif éait de prédire si un Tweet annonce une vraie catastrophe ou pas.
Dans ce projet, nous avons créer une application via le microframework (FLASK) qui permet à l'utilisateur d'entrer un SMS dans un formulaire. Ensuite, notre application devait être capable de lire ce message et de prédire si ce texte est un SPAM ou non.
Projet 8 -- Projet fin de formation (Predicting Primary School Achievement with School-Related and Socioeconomic Factors)
L'ojectif de ce travail est de prédire la réussite scolaire de l'élève compte tenu des caractéristiques socioéconomique de son milieu. Au passage, un accent est mis sur la distance qui sépare le domicile de l'élève et son école en prenant en compte les moyens d'accès à lécole. Mots clés: Data Exploration & Visualisation, Correlation Matrix, Machine Learning non-suprvisé (KMeans Clustering, DBSCAN), Machine Learning Supervisé (Random Forest, Grandient Boosting, AdaBoost, XGBoost)