Code Monkey home page Code Monkey logo

mapa's Introduction

mapa

Réalisations pour le projet MAPA

Voir https://mapa-project.eu/ pour plus d'informations sur ce projet européen d'anonymisation multilingue (27 langues officielles de l'Union Européenne) dans les domaines cliniques et juridiques.

Objectifs

Réintroduction de données nominatives (noms, prénoms, adresses) dans deux corpus en français, afin de permettre l'entraînement de réseaux de neurones pour une désidentification multilingue (ici pour le français) :

Cette réintroduction se fait en tenant compte des propriétés des documents traités : pour les cas cliniques, certaines mentions ("Le patient", "La patiente") sont remplacées par des noms et prénoms ; pour la jurisprudence, les passages avec des initiates sont remplacés par des noms et prénoms reprenant les initiales d'origine (sauf s'il s'agit du X d'anonymat générique).

Scripts

Deux scripts de réintroduction de données nominatives dans les corpus :

  • perl clinique_introduit-donnees.pl entree/ sortie/

  • perl juris_modifie-donnees.pl entree/ sortie/

Les scripts de préparation et de nettoyage des listes sont dans le répertoire data/sirene/

Ressources

Les listes de noms et prénoms (féminins et masculins) utilisées ont été constituées à partir des listes de sociétés de la base Sirène de l'INSEE. Les requêtes effectuées sur la base Sirène reposent sur le type de société (ETI, GE, PME) et sur différentes périodes :

  • etablissements-crea-18010101-591231.csv

  • etablissements-crea-600101-801231.csv

  • etablissements-crea-810101-821231.csv

  • etablissements-crea-830101-841231.csv

  • etablissements-ETI-creation010101.csv

  • etablissements-GE-creation010101.csv

  • etablissements-PME-080105-080131.csv

  • etablissements-PME-080201-081231.csv

  • etablissements-PME-090101-091231.csv

  • etablissements-PME-100101-111231.csv

  • etablissements-PME-120101-120630.csv

  • etablissements-PME-120701-121231.csv

  • etablissements-PME-130101-131231.csv

  • etablissements-PME-140101-141231.csv

  • etablissements-PME-150101-150630.csv

  • etablissements-PME-150701-151231.csv

  • etablissements-PME-201101-201130.csv

  • etablissements-PME-201201-201231.csv

  • etablissements-PME-210101-210131.csv

  • etablissements-PME-210201-210221.csv

  • etablissements-PME-210301-210331.csv

  • etablissements-PME-210401-210430.csv

  • etablissements-PME-210501-210520.csv

Listes de noms et prénoms

Les trois listes produites et utilisables sont (voir data/sirene/lanceur.sh) :

  • liste-noms.csv (72204 patronymes)

  • liste-prenoms-fem.csv (2728 prénoms féminins)

  • liste-prenoms-masc.csv (1528 prénoms masculins)

Ces fichiers se composent de 4 colonnes : fréquence d'utilisation, nom ou prénom, sexe F/M, origine culturelle (tentative). Pour les besoins du projet, seules les deux premières colonnes ont été utilisées.

Les anciennes listes (dans le répertoire data/) proviennent de https://www.data.gouv.fr/fr/datasets/liste-de-prenoms-et-patronymes/ mais sont abandonnées (erreurs, intégralement en majuscules sans accent).

Liste d'identités

Ces listes ont ensuite servi à produire une liste de 10000 identités fictives uniques (prénoms et noms, 50% femmes, 50% hommes), utilisées pour les besoin du projet comme ressource pour entraîner les modèles à reconnaître des données identifiantes. Ces identités ont été produites avec le script produit-combi-nom-pre.pl

  • liste-10000.txt

La liste se compose de prénoms simples (majorité), composés (3,3% : Marie-Madeleine) et multiples (1,01% : José Manuel), et de noms simples (majorité), composés (0,39% : Faivre-Rampant) et multiples ou à particules (2,6% : Marraud Des Grottes ; De Oliveira Fernandes). La cohérence culturelle entre prénom et nom n'a pas été recherchée (e.g., Brigitte Zhang ; Marie Aude Ben Abdeljelil), mais si elle se produit (e.g., José Manuel Gonzalez ; Ahmed Assouline), c'est sous l'effet du hasard. Enfin, la distribution des noms et prénoms semble cohérente (non vérifiée) avec celle de la population française (noms les plus présents dans la liste : Martin, Bernard, Moreau, Michel, Durant, Dupont ; prénoms les plus présents dans la liste : Pierre, Michel, Philippe, Nathalie, Catherine, Isabelle, Alain, Jacques, etc.). La phonétique produite par l'enchaînement de certains prénoms et noms étant disgracieuse, certaines combinaisons ont peut de chances d'exister réellement (Rose-Marie Marrec ; Sarah Barat ; Serge Séreni ; Sybille Sibi).

Il est possible qu'une de ces identités soit réellement portée par une personne, difficile voire impossible à vérifier.

mapa's People

Contributors

grouin avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.