logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
Menu
mobile logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
15 février 2018
A la Une, DAP, Data cities, Dossiers thématiques

De plus en plus de données disponibles mais de quelle qualité ?

⏱ 4 min

[vc_row][vc_column][vc_column_text]Au-delà du problème déjà évoqué d’ouverture des données des collectivités locales, c’est un problème de qualité qui se pose. Une qualité indispensable dans une logique d’interopérabilité, de fraicheur, de granularité, etc., condition sine qua non à des usages ultérieurs variés.

 « Les villes françaises disposent de données de qualité, du point de vue intrinsèque, affirme Jean-Marie Bourgogne, délégué général d’OpenDataFrance, l’association publique qui accompagne les collectivités dans l’opendata. En revanche, elles sont, en général, sous des formats très variés, même quand elles sont mutualisées dans des portails communs en txt ou csv, ce qui permet de programmer des requêtes automatisées. Le problème est qu’elles sont stockées telles que les collectivités les ont, ce qui empêche de les croiser. A l’heure actuelle, à cause de ce manque d’homogénéisation, les données des villes ne sont pas du tout interopérables. » Certaines ne sont pas datées, des champs sont mal remplis voire vides ou tout simplement renseignés différemment : par exemple la date est sous la forme jour/mois/année ou l’inverse, le mois défini sous forme de nombre ou en toutes lettres, l’année signalée comme 2018 ou 18 ; des chiffres sont séparés de virgule ou de point ; des villes sont décrites sous plusieurs noms, etc. Sans parler des données qui sont  disponibles sous forme pdf, impossibles à traiter de façon automatisée.

OpenDataFrance a défini un ensemble de bonnes pratiques et une normalisation des jeux de données, selon des standards précis (voir 1er article du dossier). Un Observatoire de l’opendata des territoires (voir carte ci-dessous), en cours de finalisation, sera, par ailleurs, lancé en mars prochain pour collecter et cartographier automatiquement toutes les données disponibles sur un territoire, publiques ou privées, savoir qui les publie, dans quel format, avec quel contenu, quel accès.

[/vc_column_text][vc_empty_space][vc_single_image image= »12521″ img_size= »800 x 400″ alignment= »center »][vc_column_text]

© OpenDataFrance 

Figure sur cette carte l’ensemble des collectivités locales françaises déjà engagées dans une démarche d’ouverture et de partage de données publiques.

[/vc_column_text][vc_column_text]

Bientôt un outil pour tester la qualité

« Harmoniser toutes ces données n’est pas forcément compliqué contrairement à ce que veulent faire croire certains, explique Jean-Marc Lazard, d’OpenDataSoft, éditeur de portails de données. Certes, le champ des données est un gros bazar mais il existe des outils pour corriger cela en partie comme notre plateforme. » Et les éditeurs de progiciels qu’utilisent les collectivités vont devoir se mettre au diapason. « Quand les 5 éditeurs pour les marchés publics incluront un format d’export de données au standard national que nous avons défini, 90 % des collectivités locales seront conformes, confirme Jean-Marie Bourgogne. Ce sera le cas dès cette année puisque cela va devenir contractuel. » Les appels d’offre des villes exigeront, à terme, de mettre à disposition les données brutes et dans des formats bien définis. C’est un mouvement de fond.

Et des outils tels que la plateforme Qualidata devraient y contribuer d’ici à 2019 : ce projet d’OpenDataFrance, financé par le dernier Plan investissements d’avenir, devrait permettre de tester si la qualité des données est en conformité avec le référentiel national avant de l’injecter dans une base de données pour tel ou tel usage, public ou privé. « Les premiers tests concerneront les sept jeux de données essentielles pour lesquels les standards ont été définis, ceux sur l’état civil, les marchés publics, les subventions, les équipements publics…  poursuit Jean-Marie Bourgogne.  Nous ajouterons d’autres jeux de données au fur et à mesure de nos capacités à qualifier leur description. » Ailleurs, comme aux Etats-Unis où l’open data est la règle, la publication des données est encouragée quelle que soit leur qualité. Mais seuls les geek et les experts sont capables de les valoriser. C’est une autre façon de faire.

Adapter la qualité au contexte d’utilisation

Cela dit, la qualité de la donnée dépend avant tout du contexte dans lequel on veut la réutiliser, fait remarquer Jean-Marc Lazard : de quelle exhaustivité, justesse, fraicheur, granularité a-t-on besoin ? : «  Le principal problème pour exploiter les données en l’état, ce n’est pas leur format mais leur diversité et leur hétérogénéité vu la variété de capteurs dont elles proviennent. » Il cite l’exemple d’une donnée sur la qualité de l’air qui peut nécessiter plusieurs mesures successives et un traitement algorithmique avant de devenir interprétable. Autre notion importante à définir selon l’usage : la granularité de la donnée, c’est-à-dire son degré de précision, que ce soit dans l’espace ou dans le temps (a-t-on besoin d’une mesure au mètre, à l’heure, au mois… ?). « Attention néanmoins à ne pas faire de la surqualité, pointe-t-il, comme de chercher à avoir des données en temps réel si l’on n’en a pas besoin. C’est l’usage de la donnée qui compte et doit orienter les améliorations. » Autrement dit, une donnée métier peut être de qualité suffisante pour un usage précis mais pas pour être réutilisée dans un autre contexte.[/vc_column_text][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_cta h2= » »]

Le casse-tête des adresses

Certaines données, réutilisées fréquemment, comme les adresses, doivent être de grande qualité. La Base adresse nationale  (BAN) est un des neuf jeux de données de référence prévu par La loi pour une République numérique avec le plan cadastral, la base Sirene des entreprises ou le répertoire national des associations. Elle doit répertorier toutes les adresses du territoire français. Et contrairement à ce que l’on pourrait supposer, c’est compliqué. Il y a de multiples bases adresses en France (le cadastre, les bases de données de l’IGN, de l’Insee, de La Poste ou des entreprises comme GRDF, Enedis ou Orange) mais aucune n’est de qualité, relève Christian Quest, coordinateur de la BAN chez Etalab et président d’OpenStreetMap France de 2014 à 2017. D’ailleurs, rien n’impose l’adressage aujourd’hui : selon La Poste, 40 %  des points d’arrêts postaux, où le facteur livre le courrier, n’ont pas de numéro ; les maires n’ont pas l’obligation de dénommer les voies ni de les numéroter. Autrement dit, souvent la donnée n’existe pas. Et celles qui existent, souvent en opendata, n’étaient pas localisées géographiquement (géocodées) sans faire appel à des multinationales étrangères comme Google. Grâce à un partenariat entre l’IGN, La Poste et OpenStreetMap, Etalab a croisé et agrégé ces différentes bases de données pour dénombrer toutes les adresses. Pour des raisons d’incompatibilité de licences, ils ont abouti à deux bases de référence toutes les deux géocodées : la base d’OpenStreetMap et la BAN avec des données de l’IGN, La Poste, de collectivités, de partenaires, de pompiers. Mais la qualité n’est pas encore suffisante. L’Insee, par exemple, continue de gérer sa propre base d’adresses. Et les pompiers continuent de faire leur propre mise à jour. Car la fraîcheur des données est, dans certains cas, presque plus importante que le critère certifié ou la qualité de la donnée, fait remarquer Christian Quest.[/vc_cta][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]

Isabelle Bellin
Pour aller plus loin :

Présentation publique de l’observatoire open data des territoires le 21 mars 2018

[/vc_column_text][/vc_column][/vc_row]

Termes liés :
  • Données
  • Normalisation
Retrouver les autres articles du dossier “Data cities” :
  • Les villes françaises à l'ère de l'open data ?
  • De l'open data city à la smart city
  • Edge Computing : une des clés du traitement des données de la smart city
Share:
Posts you'd might like
L’apprentissage profond permet de lire dans notre cerveau… ce qu’il voit
Cette IA hybride apprend à jouer au sudoku…
et à concevoir des protéines
Canicules, orages violents : l’IA apprend à prévoir les épisodes météo extrêmes
Des réseaux de neurones “informés par la physique”, pour modéliser et simuler des systèmes complexes
Faut-il créer un GIEC de l’intelligence artificielle ?
Entretien avec Raja Chatila
ChatGPT a-t-il accouché d’une souris ?
Entretien avec Jean-Gabriel Ganascia
DAP, la newsletter du Data Analytics Post Recevez chaque semaine un éclairage sur les data science

Peut-on laisser un algorithme apprendre tout seul ?

A la différence de l’apprentissage supervisé, le contexte non supervisé est celui où l’algorithme doit opérer à partir d’exemples non annotés.

En savoir plus

ARTICLES RÉCENTS
  • L’apprentissage profond permet de lire dans notre cerveau… ce qu’il voit
  • Cette IA hybride apprend à jouer au sudoku…
    et à concevoir des protéines
  • Canicules, orages violents : l’IA apprend à prévoir les épisodes météo extrêmes
  • Des réseaux de neurones “informés par la physique”, pour modéliser et simuler des systèmes complexes
  • Faut-il créer un GIEC de l’intelligence artificielle ?
    Entretien avec Raja Chatila

Tout savoir sur…

Le DAP

Comité Éditorial

Partenaires

Équipe


Copyright © Data Analytics Post. Tous droits réservés.

Mentions légales & CGU