linogaliana / python-datascientist Goto Github PK

View Code? Open in Web Editor NEW

99.0 3.0 46.0 772 MB

Dépôt associé au cours Python pour data scientists (ENSAE 2e année)

Home Page: https://pythonds.linogaliana.fr/

License: Other

Python 64.57% Shell 3.30% TeX 11.86% Lua 16.11% EJS 3.34% Dockerfile 0.83%

python data-science teaching machine-learning jupyter jupyter-notebook opendata

python-datascientist's Introduction

Python pour la data science

Ce dépôt Github stocke les fichiers sources ayant permis de construire le site https://pythonds.linogaliana.fr/.

Il s'agit de l'ensemble du cours Python pour la data science que je donne en deuxième année (Master 1) de l'ENSAE.

Syllabus

Le syllabus est disponible sur le site de l'ENSAE et sur le site web du cours.

Globalement, il propose un contenu très complet pouvant autant satisfaire des débutants en data science que des personnes à la recherche de contenu plus avancé :

Manipulation de données : manipulation de données standards (Pandas), données géographiques (Geopandas), récupération de données (webscraping, API)...
Visualisation de données : visualisations classiques (Matplotlib, Seaborn), cartographie, visualisations réactives (Plotly, Folium)
Modélisation : machine learning (Scikit), économétrie
Traitement de données textuelles (NLP): découverte de la tokenisation avec NLTK et SpaCy, modélisation...
Introduction à la data science moderne : cloud computing, ElasticSearch, intégration continue...

L'ensemble du contenu de ce site s'appuie sur des données ouvertes, qu'il s'agisse de données françaises (principalement issues de la plateforme centralisatrice data.gouv ou du site web de l'Insee) ou de données américaines.

Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac (@avouacr) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets data science : https://ensae-reproductibilite.github.io/website/

Tester les codes Python

Il est possible d'utiliser une installation personnelle de Python ou des serveurs partagés. Sur le site web, une série de boutons sont mis à disposition pour faciliter les tests des exemples sur des notebooks Jupyter dans la configuration qui vous sied le mieux.

Voici, par exemple, ces boutons pour le tutoriel numpy

Utilisation de l'image Docker

[![Docker Pulls](https://img.shields.io/docker/pulls/linogaliana/python-datascientist)](https://hub.docker.com/repository/docker/linogaliana/python-datascientist/general)

Pour améliorer la reproductibilité des exemples, une image Docker est automatiquement construite et mise à disposition depuis DockerHub.

Construction du site web

Le site est construit de manière automatique grâce à Quarto à partir d'un environnement conteneurisé Docker La reproductibilité des exemples et des exercices est testée avec Github Actions (). Les notebooks sont générés de manière à être cohérente avec le site web et sont maintenant stockés sur un dépôt à part.

L'environnement Conda nécessaire pour faire tourner l'ensemble du cours est disponible dans un fichier environment.yml. Il est recommandé d'utiliser la conda-forge afin de bénéficier de versions récentes des packages.

python-datascientist's People

Contributors

Stargazers

Watchers

Forkers

mathispuissant rturquier diagnemag ethelced medsaf f909 gwatkinson anhnguyendepocen khaledlarbi vincianedesbois nanock1910 atop19 zerara romanegajdos imanefa raphaeleadjerad gil97-tech antuki ds-anne maxurb krysyna expressso sirinelouati hbonneauxchloup konkinit jblaval nah09 usteinalex antoine-palazz tttienthinh knsamati alehd hypeandmysterious juleschpn daniel-odc luuumine thomasfaria tomseimandi lbaudin kkhurana007 safwane-b jrmp259 samcil antoinegilsongh fa5fou5 jpramil

python-datascientist's Issues

Plan partie visualisation

Le parti-pris est d'utiliser les données de compteur de vélo

Graphiques traditionnels:

matplotlib
seaborn
plotly

Cartographie:

geoplot
contextily

Quel package pour la carto dynamique ?

Ressources

https://r4ds.had.co.nz/data-visualisation.html#introduction-1
http://vita.had.co.nz/papers/layered-grammar.pdf
https://jakevdp.github.io/PythonDataScienceHandbook/04.00-introduction-to-matplotlib.html
https://linogaliana.gitlab.io/documentationR/faire-des-graphiques-avec-ggplot2.html

Table des matières flottante pour mieux se répérer

Idée: partir de ce post

Donner un exemple d'intégration continue pour tester la reproductibilité des notebooks

L'idée est de proposer un exemple de pipeline CI (via travis?) pour tester des notebooks

Choix des bases de données d'exemple

Essai de lister les pros/cons des différentes sources de données

openfoodfacts

Données ici

openfood = pd.read_csv("C:/Users/W3CRK9/Downloads/en.openfoodfacts.org.products.csv",
                       nrows = 1000, sep = "\t")
openfood.head()

Pros	Cons
Données de nature différente	Données pas très propre
Sympa pour le NLP	Volumineux pour une découverte de pandas

velib

Données ici: pour la partie API ?

Données ici pour la partie carto ?

Réseau cyclable

Données du réseau cyclable

Données ademe

Il y a ces données qui ont une structure pas mal (url datagouv et site ademe)

url de requête: https://data.ademe.fr/datasets/igt-pouvoir-de-rechauffement-global

Compteurs de vélo

https://opendata.paris.fr/explore/dataset/comptage-velo-donnees-compteurs/map/?disjunctive.id_compteur&disjunctive.nom_compteur&disjunctive.id&disjunctive.name&basemap=jawg.dark&location=14,48.85493,2.35223
Exemple d'exo: refaire ça

Retirer tous les warnings et messages

Tous les warnings et messages gênent la lecture du site web

Fiche dimensionality reduction à ajouter

C'est le seul gros champ de scikit où rien n'est présent dans le site.

A faire pour une version ultérieure du site

Voies d'amélioration du cours

Quelques remarques des élèves:

parfois des temps morts en classe: trouver une manière d'éviter d'être bloqué (cf. #137)
proposer des exercices complémentaires pour s'entraîner
passer moins de temps sur les parties 1 et 2 pour passer plus de temps sur les parties 3 et 4

Pas de sortie graphique à la fin du TD 01_tp_numpy.ipynb

Tutoriel NLP

issue consacrée au dernier tuto (NLP)

Librairies

NLTK
SpaCy
Gensim

Sources :

https://www.stat4decision.com/fr/traitement-langage-naturel-francais-tal-nlp/

Partie analyse de sentiments:
https://larevueia.fr/nlp-avec-python-analyse-de-sentiments-sur-twitter/

url des données communales Insee

Remplacer blob/pandas_intro par raw/master

Remplacer np.is_nan par np.isnan

📁 manipulation

La coquille est à corriger dans :

.Rmd
.md
.ipynb

Un onglet permettant un accès rapide aux TPs

Faire un onglet permettant d'accéder plus rapidement aux TPs

Licence

Chantier prioritaire: licence. Creative commons ?

No module named rasterio.io found

Problème quand on utilise contextily avec Rmarkdown

Ce problème n'apparaît pas avec jupyter

Introduire un système de tag

ça serait sympa d'avoir des recherches par tag possibles pour les exercices et exemples

Remove R cells magics in jupytext generated files

When generating notebooks, two types of blocks should be filtered:

R cells
Python configuration cells, e.g.

import os
...

Évolution du programme du cours

Voici un plan un peu enrichi pour la future version 2 du cours

Manipulation

Numpy puis Pandas
Geopandas
Données plus volumineuses: postgre, dask, spark
Import de données à la structure plus complexe : webscraping, API

Visualisation et communication

C'est la partie qui mérite le plus d'enrichissement

Matplotlib et seaborn
Cartographie
Sites web : Django etc.
Jupyterbook et R Markdown

modélisation

Ajouter un peu de deep learning à la partie déjà faite
Evoquer fasttext

Mettre le lien vers data.csv sur le site web

Les données sont déposées sous pour faciliter le travail mais ce n'est pas indiqué. C'est à corriger

Image docker

Il va falloir songer à préparer une image docker car il va y avoir beaucoup de dépendances dans ce cours

Référencer le cours sur mon site perso

Référencer le cours (site web et github) devrait faciliter l'accès à l'url

Gitlab pipeline failure

Shell script fails in pipeline. Trying this solution

cat generated-bash-script | /bin/bash

Référencer les projets d'élèves sur le site web

Créer une page pour lister les projets des élèves sur le site web

Marges autour des Figures

Suite à #68 , le problème des marges est assez gênant. Il faut trouver un moyen de les réduire

Mettre à jour le README

Plusieurs modifs à envisager:

Mieux expliquer la structure du cours et du dépôt
Mieux expliquer la manière dont on peut contribuer

Ajout Github Actions pour aussi tester les codes

Ca fait toujours un test de reproductibilité en plus

Display des DataFrames jupyter

Trouver une méthode pour le display des notebooks jupyter, notamment avec Rmd.

cf. ce débat ?

Mettre un onglet NLP dans la page d'accueil

Il manque l'onglet de la partie NLP sur la page d'accueil

Images join ne s'affichent pas dans la partie cours pandas

Problème de chemin pour

l'image du join
La cheatsheet sur reshape

Correction des formules mathématiques mal rendues

Quelques formules math passent mal:

Intégration des figures matplotlib dans le site

En local, la compilation en .md me permet de voir l'output des chunks utilisant matplotlib. Mais sur le site construit par hugo, via netlify, ce n'est pas le cas. C'est parce que Rmarkdown stocke les figures dans un dossier _files que je ne git pas.

Comment gérer cette affaire ?

Mise en forme des TPs 4

Les TP 4 ont été intégrés de manière un peu sauvage. Il faut les mettre en forme un peu

Mise en forme plus propre de la partie Git

La partie Git est un peu longue, il faudrait revoir la mise en forme

test.sh ne fonctionne pas bien avec la nouvelle arborescence

La regex ls fonctionne pas bien, à mettre à jour

Remettre à plat l'arborescence des url

La nouvelle arborescence du contenu (#52) a mis à jour les url cassant les cross references.

Tutoriel git

Une partie spécifique à git avec l'explication du principe et les commandes de base à faire

Le plus naturel est de le mettre dans un onglet à part

Expliquer comment installer des packages derrière un proxy

Cas classique: comment installer un package derrière un proxy

pip: pip install --proxy
conda: modifier le .condarc avec proxy_servers

Régler le problème de contextily

Pas de problème avec contextily sur jupyter mais des difficultés avec R Markdown

Tutoriel SQL

Il faut préparer un tutoriel minimal SQL: select, join, etc.

Mettre de l'ordre dans l'arborescence du site

L'arborescence du site est un peu chaotique, faut voir comment la simplifier

Ajout d'une section sur l'installation des dépendances geospatiales

Il faut parler des dépendances des librairies géospatiales. Notamment:

geopandas: conda install ou pip install
rtree
descartes
contextily

Idées pour la partie dataviz

Idée: reproduire ces visualisations pour les graphiques

et quelques cartes fixes et dynamiques

Modifier les url onyxia pour datalab

Ce n'est plus spyrales.sspcloud mais datalab.sspcloud

Include CC html block in footer

Include the license block in the footer

Probably needs to modify hugo theme

Test automatique des liens pour détecter les erreurs 404

💡 Tester, avec un script python, les liens donnés pour vérifier qu'ils ne soient pas morts (erreur 404). Utiliser de beautiful soup possible.

Pas prioritaire car compliqué à mettre en place:

screen tous les .md pour extraire les liens (structure ![]())
check que la page propose un contenu (d'abord data (ex: csv), ensuite html)

Des box plus esthétiques

Les box du thème techdoc ne sont pas très belles. Il faudrait les faire ressembler plutôt aux box des jupyterbook, plus esthétiques

Filtre pour les headers des notebooks

Il va falloir filtrer les headers YAML lors de la conversion en notebook jupyter

Utilisation du css pour les .ipynb

#58 a permis de créer des box très esthétiques pour le site web, à la manière de jupyterbook. Il faudrait pouvoir utiliser les mêmes éléments css dans les .ipynb

Plan partie modélisation

Après le premier SVM et les premières régression (linéaire, logistique)

I - Suite Machine Learning standard:

Réduction dimension
- ACP
- Lasso
Clustering
- kmeans

II - NLP

III - Intro au deep learning

OLD

Les plans qu'on peut trouver sur internet

Des jeux de données intéressants:
https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
https://elitedatascience.com/datasets
Prédiction: https://medium.com/@nicholasutikal/predict-football-results-with-random-forest-c3e6f6e2ee58

Cours Andrew Ng

https://www.coursera.org/learn/machine-learning

Cours edX by IBM

https://www.edx.org/course/machine-learning-with-python-a-practical-introduct

Module 1 - Introduction to Machine Learning
Applications of Machine Learning
Supervised vs Unsupervised Learning
Python libraries suitable for Machine Learning

Module 2 - Regression
Linear Regression
Non-linear Regression
Model evaluation methods

Module 3 - Classification
K-Nearest Neighbour
Decision Trees
Logistic Regression
Support Vector Machines
Model Evaluation

Module 4 - Unsupervised Learning
K-Means Clustering
Hierarchical Clustering
Density-Based Clustering

Module 5 - Recommender Systems
Content-based recommender systems
Collaborative Filtering

Livre Machine Learning avec Python

Dépôt Github: https://github.com/amueller/introduction_to_ml_with_python

Découverte de git

Découverte de git via le principe du cadavre excquis, cf. https://linogaliana.gitlab.io/collaboratif/git.html

Liens morts sur la page "Travaux dirigés"

Liens à corriger 🙈