Valorisation des données : en pratique
⏱ 5 minMachine learning, big data… Ce sont en fait bien souvent des solutions algorithmiques plus simples, pas forcément big data, qui sont mises en œuvre et industrialisées. Notamment parce que l’entreprise doit se les approprier.
Chacun sent qu’il faut y aller ! Mais, à l’exception des pépites du numérique, tombées dedans quand elles étaient petites ou des sociétés de marketing ou de publicité, la plupart des entreprises sont assez démunies pour exploiter leurs données. Certaines ont néanmoins déjà acquis une culture scientifique du numérique et cherchent leurs cas d’usage. Ce qui n’empêche pas que, d’un service à l’autre, la maturité en matière de valorisation des données soit très différente.
Exemple avec la SNCF où la communauté de statisticiens et data scientists compte environ 80 personnes. De plus en plus d’activités du groupe, désormais séparé en 3 EPIC * (SNCF, Réseau et Mobilités qui réunit les différents transporteurs – TGV, TER, Transilien, Intercités) ont des entités data. Mais les projets de recherche amont sont menés à la direction Innovation et recherche (DIR) dont l’équipe de data scientists, mise en place depuis une dizaine d’années, compte 6 personnes aujourd’hui : « Un bon tiers de nos projets concerne des demandes émanant des EPIC, nos clients internes, précise Sonia Pelloux. Les deux autres tiers sont des propositions issues de notre équipe ou des recherches exploratoires que nous menons pour défricher des sujets, parfois avec des réseaux de neurones. »
« Nous commençons par bien formaliser la problématique pour être sûr de répondre au besoin, poursuit Sonia Pelloux. Notre rôle est de montrer la faisabilité des algorithmes que nous proposons, jusqu’à la preuve de concept (Proof Of Concept ou POC). Ensuite, si l’industrialisation est envisagée, nous assistons les clients avec les directions des systèmes d’information et les « fabs », nos centres de compétences qui accompagnent nos projets digitaux. »
Cyril Véron, qui anime l’équipe de consultants en intelligence artificielle du cabinet Wavestone, reprend : « c’est là que le voyage commence ! Exploiter au quotidien un succès potentiel est un défi en soi. Cela suppose de transformer les pratiques, faire évoluer des gestes métier, etc. » Cela passe souvent par une phase transitoire sur un périmètre restreint. « Puis on se rend compte qu’un premier cas d’usage en suggère un autre et ainsi de suite. C’est là que cela devient vraiment intéressant ! » poursuit-il.
Comprendre le résultat…
Mais la mise en œuvre est, à elle seule, une gageure. « Ce qui compte, c’est que nos clients s’approprient nos algos, alors qu’ils ne sont ni statisticien ni data scientist, confirme Sonia Pelloux. Ils doivent être autonomes. Or ils veulent pouvoir interpréter les résultats, comprendre leurs évolutions… Même si nous nous tenons informés des nouveaux algorithmes, dans la pratique, ceux qui sont industrialisés ne sont pas des modèles optimisés à base de machine learning, mais des modèles plus simples, plus faciles à prendre en main… même si on perd un peu en performance. » Et la SNCF n’est pas un cas à part. Le machine learning est sur toutes les lèvres, mais il est encore très peu mis en œuvre. Il est très utile quand l’ensemble de règles n’est pas clair ou suit des évolutions complexes. Mais pour des problèmes plus simples, il suffit souvent de s’en remettre aux méthodes statistiques traditionnelles.
« Les algorithmes doivent être interprétables. Ceux qui les utilisent veulent en maitriser la mécanique pour expliquer les évolutions. Ils ne veulent pas d’une boîte noire. » Sonia Pelloux (SNCF)
La data scientist de la SNCF détaille l’exemple de la lutte contre la fraude tarifaire, sujet de recherche important pour le groupe, avec de sérieuses conséquences économiques. « Du point de vue mathématique, cette estimation de risque pose un problème d’extrapolation du phénomène observé sur un échantillon, ici de trains. Le phénomène n’étant pas homogène, nous avons mis en place un principe de stratification. Notre solution optimale était basée sur une analyse factorielle et des arbres de décisions conçus sur un échantillon d’apprentissage avec des paramètres à mettre à jour régulièrement… Difficile à maintenir. Nous avons finalement opté pour un regroupement des trains selon une combinaison de critères assez logiques (heures de départ, direction, jour de la semaine). Cette simplification est acceptée car elle a du sens pour le personnel du groupe. »
Ces travaux se sont traduits par une interface qui optimise les actions de lutte antifraude sur les TGV, bientôt sur les trains sans réservation obligatoire. Pour ces mêmes raisons, l’équipe mise beaucoup sur les modèles non paramétriques, comme les k plus proches voisins, dont le principal avantage est qu’ils ne nécessitent pas une mise à jour régulière des paramètres et sont donc, en phase d’industrialisation, beaucoup plus simples à maintenir.
« Beaucoup d’utilisateurs sont prêts à avoir de moins bonnes prédictions mais avec une explication. C’est la raison du succès des arbres de décision auprès des médecins même si ce ne sont pas les meilleurs prédicteurs. » Francis Bach (Inria)
Même son de cloche chez Safran qui dispose aujourd’hui d’une équipe d’une douzaine de data scientists chevronnés capables de répondre aux sollicitations des chercheurs, ingénieurs ou clients concernant les moteurs d’avions du groupe. « Même si cela fait déjà une dizaine d’années que nous développons des algorithmes pour surveiller les moteurs en vol, leurs dérives, anticiper les pannes, en analyser les causes, améliorer leur conception… il reste beaucoup de pédagogie à faire, reconnait Jérôme Lacaille, responsable de l’équipe Algorithmes. Nous avions développé un modèle basé sur les forêts aléatoires pour identifier les messages les plus importants parmi le millier envoyé chaque jour par un avion en vol. La performance de cette classification était de 98 % mais les ingénieurs ont préféré un modèle bayésien, performant à 78 % mais dont ils comprenaient les résultats. »
… ou faire confiance à l’algo
Beaucoup reprochent aux réseaux de neurones cet aspect « boite noire ». « L’explication de la prédiction des méthodes est un sujet de recherche en soi, reprend Francis Bach, chercheur à Inria et ENS Ulm. C’est un grand enjeu pour les applications en médecine, en droit ou en défense. Comment un médecin peut-il convaincre son patient que le diagnostic de sa tumeur provient d’un algorithme qui a comparé les images de son scanner à celles de millions de publications ? Cette présélection automatique devrait néanmoins aider, à terme, toutes les professions qui ont des quantités gigantesques de textes à analyser (médecins, avocats, etc.). Mais il faut pouvoir certifier les prédictions, comme on certifie les médicaments avec des essais cliniques. »
La règle est loin d’être généralisable, tout dépend des applications et les ingénieurs font parfois confiance à des solutions peu courantes comme l’explique Jérôme Lacaille. Il cite les méthodes de Boltzmann, un type de réseau de neurones pour l’apprentissage non supervisé, une méthode sophistiquée encore inhabituelle dans l’industrie. « Il faut évidemment prendre le temps de faire accepter la méthode aux bureaux d’études », concède le spécialiste de détection d’anomalie.
Avec son équipe, il développe également des méthodes inédites, utilisées ensuite en routine. C’est le cas de l’algorithme Papillon qui combine une étape déterministe (on peut démontrer la prédiction) et une optimisation stochastique sous contrainte par « recuit simulé » : l’opérateur le lance pour déterminer comment placer, de façon optimale, la centaine de petites aubes que comportent les turbines des nouveaux moteurs Leap (qui équiperont 80 % de la flotte mondiale), selon leur caractéristiques. Un placement spécifique pour chaque turbine afin d’assurer l’équilibrage des poids au gramme près. Sans quoi, aux vitesses de rotation des moteurs, ce problème de « small data » peut avoir de gros impacts…
Et qu’en est-il du deep learning auquel on attribue toutes les vertus depuis quelques années ? Que peut-on en attendre dans l’industrie ? À suivre
Isabelle BELLIN
*Établissement public industriel et commercial