Valorisation des données : une véritable chasse au trésor
⏱ 3 minCe n’est ni l’étape la plus facile, ni la plus valorisante. Mais elle est incontournable. Il faut faire avec les données qu’on a, « mettre les mains dans le cambouis » comme disent les data scientists, façon de préciser que les données peuvent être « sales ».
Le diable est dans le détail en informatique et dans le monde des données comme ailleurs ! « Tant qu’on n’est pas allés voir les données, on ne sait pas de quoi on parle, ni si cela vaut vraiment le coup de travailler dessus, prévient Cyril Véron, consultant au cabinet Wavestone. Il faut être capable d’accéder à des données stockées et enregistrées dans divers systèmes informatiques, de les lire, les manipuler, lancer des requêtes parfois sur un nombre de tables considérables que plus personne ne maitrise. On fait souvent face à un empilement de codages successifs qui reflète l’évolution historique de l’organisation et des métiers de l’entreprise. »
Un enfer !
« Récupérer les données est un enfer, confirme Jérôme Lacaille, responsable de l’équipe Algorithmes chez Safran, fabricant de moteurs d’avions. Elles sont stockées sur différentes bases métiers, souvent épouvantables, avec des interfaces d’accès spécifiques et dans des formats improbables. Il faut les classer dans des bases plus modernes. » Il faut souvent mettre en œuvre des méthodes inédites, parfois le logiciel ne se vend plus, le prestataire n’a pas de solution… Tous s’accordent à dire que le ticket d’entrée est élevé, que l’accès aux données est toujours un problème, d’autant plus quand l’entreprise est de grande taille et ancienne : « Elles sont là mais les faire remonter et les stocker est un vrai défi, ajoute Francis Bach, chercheur à Inria et ENS Ulm. Concrètement, les algorithmes d’apprentissage que nous développons ne sont que quelques lignes de code parmi les milliers voire millions qui servent à récupérer les données ! »
» Il faut se servir de ses bases de données, les extraire, les manipuler… cela doit devenir naturel. Un système d’informations ne s’use que quand on ne s’en sert pas. » Cyril Véron (Wavestone)
« La collecte et la préparation des données représente 80 % du travail, renchérit Sonia Pelloux, data scientist à la direction Innovation et recherche de la SNCF. C’est la phase la plus chronophage. C’est très fastidieux et il faut l’anticiper. Dans une entreprise comme la SNCF, les bases de données sont gigantesques, réparties entre les différents métiers du groupe (transporteurs comme TGV, TER, Transilien, Intercités, maintenance du réseau) auxquelles s’ajoutent les données issues de capteurs comme l’énergie consommée, renseignée toutes les 5 mn sur les rames… On peut difficilement capitaliser : chaque problématique est spécifique. »
On peut néanmoins recenser et centraliser les données dans un datalake. C’est une des taches à laquelle s’attèle la SNCF. Cela ne doit néanmoins pas se transformer en une cartographie systématique, qui serait au détriment de la valorisation. C’est dans tous les cas un projet à long terme, dont les retombées peuvent être d’envergure. Beaucoup d’entreprises y pensent.
Trouver une aiguille dans une botte de foin…
Chez Safran, c’est rien de moins qu’une surveillance globale, constante et automatique des moteurs d’avions qui est dans le viseur ! « Nous avons énormément de données enregistrées sur nos moteurs, confirme Jérôme Lacaille (Safran) : celles qui proviennent des avions en vol, des usines qui fabriquent les composants, des bancs d’essais qui les testent… Notre ambition est d’automatiser la lecture systématique de toutes ces données pour détecter les signaux faibles, révélateur de quelque chose d’anormal, et d’en avertir l’expert concerné. Nous y travaillons depuis 5 ans… cela avance très lentement. »
Il liste quelques travaux en cours dans ce sens, notamment sur les données issues des milliers de capteurs qui suivent de près les vibrations des moteurs testés avant livraison aux clients : indexation des données pour identifier celles qui sont atypiques, identification de défauts, surveillance du banc d’essai, etc. Beaucoup de données sont également issues des vols, par exemple dans le but de détecter des situations anormales ou d’identifier les phases transitoires, là où les risques sont accrus.
Cyril Véron compare cette chasse au trésor à l’exploration d’une maison (l’entreprise) dans laquelle les données auraient été reléguées petit à petit au grenier, jusqu’à ce qu’on en perde même parfois la clé. Les données sont l’or des entreprises mais c’est une matière compliquée à exploiter qui pose des problèmes d’accès, de sens, d’exactitude : un terrible écheveau à démêler. « Mais il faut faire avec, y compris avec des données « sales », recommande-t-il. Il ne faut pas agiter cela comme un épouvantail ni attendre de faire le ménage : il faut aller chercher la valeur dans ce que l’on a. » Jusqu’à l’industrialisation… Nous verrons la semaine prochaine les surprises que réserve cette ultime étape.