Dans le contexte d'études statistiques, il est souvent nécessaire de recouper des données issues de sources diverses. Cependant, trop souvent, deux tables de données ne possèdent pas de clé en commun et les données qui permettraient une jointure ne sont pas exprimées de façon identique (fautes d'ortographe, abbréviations, etc.), ce qui rend difficile l'exploitation des données. Le nettoyage manuel est très chronophage voire impossible dans certains cas...
Concrètement: Comment apparier automatiquement ?
Nom officiel | Adresse | Ville | avec | NOM | RUE | VILLE | ||
---|---|---|---|---|---|---|---|---|
Société Française de Ramonage | 2 rue du Beffroy | Orsay | ... | s.f. rammonage | rue du beffroy, 2 | orsay |
L'objectif de ce projet est de créer une API ainsi qu'une interface web permettant d'apparier automatiquement des données csv sales à un réferentiel propre. Le service devra aussi pouvoir être installé et tourner localement (pour les utilisateurs ayant des données confidentielles). Nous projettons de proposer plusieurs sous-services:
- Détection (et remplacement) de valeurs représentant des valeurs manquantes (remplacer "no value" par "")
- Identification du type sémantique des colonnes (adresse, nom de personne, nom d'entreprise, téléphone, etc.)
- Nettoyage et standardisation approprié au type détecté
- (Suggestion de correspondances entre les colonnes de la source sale et du référentiel)
- Appariement de la source sale et du référentiel
Vous pouvez trouver la définition officielle de l'objectif du projet (onglet Ministère de la recherche).
Le projet est encore en développement... Vous pouvez faire des remarques (laisser des issues) ici.
Ce projet est développé de Janvier à Novembre 2017 dans le cadre du programme d'entrepreneur d'intérêt général au sein du département outils d'aide à la décision du Ministere de l'éducation nationale, de l'enseignement supérieur et de la recherche.