Data Challenge : Au défi des vraies données
⏱ 7 minEn quelques années, les challenges autour des données réelles (data challenge) ont fait leurs preuves. Ces compétitions d’un nouveau genre ont révélé de multiples avantages tant pour la communauté des chercheurs qu’en matière d’enseignement ou d’innovation ouverte voire de stratégies d’entreprises. Elles ont quelques travers aussi.
Prévoir la consommation électrique, la production pétrolière, la fréquentation des gares ou encore l’intérêt pour tel ou tel produit, anticiper l’augmentation des maladies chroniques, la pollinisation ou les effets d’El Niño, reconnaître des célébrités dans des images ou des oiseaux à partir de leur chant, comprendre le sommeil, les interactions entre protéines ou la croissance des villes, etc. Toutes ces recherches nécessitent de donner du sens à des quantités faramineuses de données. C’est ce que proposent les challenges de données.
L’idée de mettre ses forces en commun pour comparer les approches sous la forme d’une compétition est née en 2006 dans l’esprit de quelques visionnaires de Netflix (plateforme de VOD). Leur but était d’améliorer leur algorithme de recommandation de films de 10 %. Au lieu de faire ce travail en interne, ils ont ainsi mobilisé la crème des statisticiens et analystes de données du monde entier. À la clé : un million de dollars. Le défi a été relevé près de 3 ans plus tard et a permis de mettre en évidence l’intérêt des problématiques statistiques pour l’estimation de matrices et de tenseurs. Cela a aussi donné lieu à de nouvelles questions fondamentales en statistique et en optimisation. Depuis, ce modèle en a inspiré de nombreux autres à commencer par le concours ImageNet ou la plateforme Kaggle, tous deux lancés en 2010. Kaggle compte plusieurs dizaines de milliers de data scientists. Les entreprises proposent un problème et offrent un prix aux meilleurs. La première plateforme francophone, Datascience.net a été créé fin 2013. Objectif affiché : créer des liens entre entreprises, data scientists et acteurs institutionnels.
Un échange gagnant-gagnant
» La mise à disposition de ces grandes bases de données a considérablement accéléré les recherches en sciences des données et contribué à rapprocher les industriels des chercheurs, confirme Stéphane Mallat, professeur à l’ENS, cofondateur de la plateforme Challenge data en 2014 avec Gilles Wainrib et Mathieu Andreux. Nous avons créé cette plateforme de challenges pour les besoins de l’enseignement en machine learning, afin que des professeurs puissent proposer à leurs élèves de travailler sur les données réelles, industrielles ou scientifiques. La théorie est une chose mais rien ne remplace l’expérience en traitement de données. Dans le cadre de ces projets, les élèves obtiennent parfois des résultats remarquables. Les rapports qu’ils produisent, pour présenter leurs algorithmes, sont mis à disposition de la communauté scientifique à la fin de la saison. Les élèves peuvent entrer en contact avec les entreprises. Certains décrochent un stage, parfois un emploi. » Ces challenges sont une forme d’évaluation par émulation, formatrice et très stimulante. Créativité et méthodologie sont récompensées. Il n’y a pas d’argent en jeu, éventuellement des cadeaux dans ces challenges destinés à la formation (à partir de la licence). Ils sont très simples à utiliser pour les enseignants et sont au programme d’une trentaine de cours, partout en France (soit environ 2 000 participants). » Nous évaluons de plus en plus nos étudiants en intégrant ces outils. En quelques années, c’est devenu essentiel « , confirme Gérard Biau, professeur à l’UPMC.
» Le secret de la réussite à ces challenges est de tester des algorithmes sans mettre trop de paramètres (overfitting ou surapprentissage), en étant capable d’analyser le résultat à chaque étape. » Stéphane Mallat, professeur à l’ENS Paris-Saclay
L’organisation de ces compétitions demande un gros travail pour définir le problème et préparer les données. Un jeu de données d’entraînement est mis à disposition, avec les réponses (les labels attribués aux données). Les participants utilisent ces informations pour entraîner leur algorithme (leur règle de décision) qui servira ensuite pour la prédiction. L’évaluation des algorithmes est faite par le site web sur des données de test, que les participants ne connaissent pas. Un score est attribué en fonction de la performance prédictive moyenne constatée sur ces données. » Nous aidons les porteurs de challenge à préparer leurs données et la métrique de l’évaluation, précise Stéphane Mallat. Cela les oblige aussi à se poser les bonnes questions, à percevoir la valeur de leurs données brutes. »
Un des travers de Kaggle est que les méthodes ne sont pas comparées entre elles : la plateforme génère automatiquement l’évaluation et le classement sans évaluer les algorithmes, le code sous-jacent. » Ces compétitions sont même un peu stériles. On a les données et une boîte à outils : celui qui dort le moins a les meilleurs résultats… » caricature Éric Moulines, professeur à l’X.
Évaluer l’entraînement du système
» On s’est néanmoins rendus compte que les data scientists portaient un intérêt limité à ces compétitions et qu’on avait du mal à créer de l’interdisciplinarité « , fait remarquer Balázs Kégl, informaticien dans un laboratoire de physique des particules du CNRS. Cela vient notamment du fait que ce travail n’est pas reconnu dans leur évaluation de chercheur, basée sur leurs publications. Pour y pallier, il a cofondé le Center for Data Science (CDS) qui propose des outils innovants de collaboration entre data scientists et producteurs de données scientifiques (physique, chimie, biologie…).
Ainsi, il y a un an, avec Alex Gramfort et Djalel Benbouzid, Balázs Kégl a lancé une plateforme unique au monde : RAMP (Rapid Analytics and Model Prototyping). » Le principe est le même que Kaggle sauf que c’est le processus d’entrainement du système qui est évalué par la plateforme, explique le chercheur. Cela a trois intérêts : on n’est pas forcé de fournir toutes les données aux challengeurs (certaines peuvent rester confidentielles) ; à la fin du challenge, le prototype peut être délivré ; surtout, chacun peut voir ce que font les autres, c’est de l’innovation ouverte au sens propre, chacun peut télécharger le code des meilleurs et les novices peuvent apprendre des pros. » Résultat inattendu : les scores des challenges sont améliorés beaucoup plus vite que sur Kaggle. Et les résultats scientifiques nettement améliorés en quelques jours 1. Mais, dans le cas de challenges proposés par des entreprises, comment éviter qu’en ayant accès au code, elles ne profitent pas gratuitement du travail des étudiants en data science ? Un problème encore non résolu.
Pourtant Kaggle a vite compris l’intérêt de la méthode et tente de s’en inspirer. Mais le processus d’évaluation est beaucoup plus long et lourd puisque le code doit être exécuté sur la plateforme (RAMP utilise pour cela le cloud du CERN, l’organisation européenne pour la recherche nucléaire). Une quinzaine de RAMPs sont en cours ainsi que des hackathons d’une journée. » Vu l’intérêt pour la formation, nous organisons aussi des datacamp sur 15 jours, réservés aux étudiants de master ou en formation continue, ajoute le chercheur. Après une première phase d’évaluation individuelle sans voir le code des autres, la compétition est faite de façon collaborative. »
Le challenge devient la règle
Autre compétition internationale en vogue, entre écoles cette fois : le Data science game organisée en France par une équipe de data scientists bénévoles. En septembre dernier, l’équipe de l’UPMC est arrivée 4e sur 143 équipes de plus de 50 universités et écoles de 28 pays. La troisième édition est en cours.
La plupart des formations en sciences des données ont désormais recours aux challenges, soit en les préparant en direct avec les entreprises (des ingénieurs encadrent le challenge) soit sur ces différentes plateformes. Tous se terminent par un pitch des étudiants. Les datacamp sont intégrés aux formations de Polytechnique (parcours M2 Data Science, MSc Big data for business, voir l’article « Formations en data science : l’embarras du choix ! »). » Cette compétition en équipe est très importante pour les étudiants qui souhaitent rejoindre une entreprise dès la fin de leur cursus « , explique Éric Moulines.
Les entreprises en sont d’ailleurs de plus en plus friandes : » Elles sont nombreuses à vouloir proposer leurs jeux de données à nos étudiants « , reconnaît Nicolas Vayatis, responsable du master MVA de l’ENS Paris-Saclay. Il y avait surtout des startups au début, maintenant, ce sont aussi de grandes entreprises. Parmi elles, la SNCF a été un des précurseurs : » Nous sommes engagés dans l’open data depuis 2012, raconte Maguelonne Chandesris, responsable de ces sujets à l’innovation et la recherche. Nos données sont disponibles et, depuis 2014, nous initions des concours et hackathons en sciences des données. » Cela permet de détecter de nouvelles idées. C’est aussi un élément fort de pédagogie en interne. Maguelonne Chandesris ajoute toutefois que poser le problème et préparer les données n’est pas une mince affaire.
» Notre objectif n’est pas de récupérer des modèles réutilisables, plutôt de montrer que nos problématiques et nos données sont intéressantes, nos équipes compétentes, et bien sûr de recruter. » Maguelonne Chandesris, SNCF
Ce genre de compétition soude aussi les étudiants. En atteste le challenge organisé l’an dernier à l’ENSAI par la SNCF autour d’équipes d’étudiants de 1e, 2e, 3e année et d’anciens, en mode startup, sur une journée. Un tel succès que le principe est désormais inscrit dans le cursus. » Nous voulons aussi montrer que nous avons besoin de Bac+2 ou 3, ajoute Maguelonne Chandesris. Le 18 mai dernier, nous avons ainsi organisé la première manche du concours Dataviz (de visualisation de données) des IUT STID (Statistique et informatique décisionnelle) sur une journée, sur place avec 10 IUT. » Objectif : mettre en scène l’histoire de la SNCF grâce aux évolutions de temps de parcours depuis un siècle.
Les entreprises ont aussi accès à l’état de l’art de cette façon. Certaines affichent d’ailleurs clairement un objectif de développement de nouvelles approches. C’est le cas de RTE qui gère le réseau public français de transport d’électricité haute tension et souhaite mieux tenir compte, dans sa prévision de consommation d’électricité, des incertitudes dues aux énergies renouvelables, à l’autoconsommation, etc. » Nous lançons ce premier challenge mi-mai (seconde manche cet hiver), entre autres pour comparer les méthodes que nous proposent des startups et ouvrir nos données aux chercheurs, reconnait Laurence Maillard-Teyssier, data scientist à la R&D de RTE. Les trois meilleurs recevront un prix et ils nous révéleront quelques éléments pour que l’on puisse évaluer la pertinence de leur méthode. Ce challenge nous permet aussi de montrer l’intérêt de nos sujets. » Et même si ce n’est pas promis, il n’est pas exclu que RTE donne suite. Pour éviter les biais, le challenge est en temps réel, du jour pour le lendemain (sur 10 jours choisis par RTE). Pour autant, beaucoup d’entreprises ne sont pas encore prêtes à explorer ces valorisations de leurs données souvent parce qu’elles ne sont pas accessibles ou pas organisées.
Isabelle Bellin
1 La partie « analyse des données » de cette publication scientifique en machine learning pour des recherches sur le cancer est le fruit d’un challenge qui a réuni près de 300 data scientists pendant 5 jours sur un RAMP : https://arxiv.org/abs/1705.07099
Info de dernière minute
Therapixel vient de remporter le Digital Mammography Challenge
Cette startup issue d’Inria, spécialisée dans l’imagerie médicale, a obtenu des résultats très proches de ceux des meilleurs radiologues au cours de cette compétition mondiale qui a réuni plus de 1200 participants dans le but d’améliorer la performance du dépistage du cancer du sein en exploitant les algorithmes d’intelligence artificielle .
Communiqué de presse
Ailleurs sur le web
The Rapid Analytics and Model Prototyping (RAMP) platform (Balázs Kégl)
« Data Scientists » : le guide des métiers de la science des données