AutoML : quand l’apprentissage automatique… s’automatise
⏱ 4 minPour que l’apprentissage automatique « sorte des labos » et soit utilisé massivement, il faut qu’il puisse être mis en œuvre par des non-spécialistes. L’AutoML vise précisément à simplifier son usage, notamment le choix des algorithmes et leur paramétrage.
Les succès de l’apprentissage automatique ont suscité une forte demande dans de nombreux secteurs industriels. On s’arrache les spécialistes du domaine, encore trop rares. Ce qui explique l’émergence de ce nouveau paradigme : l’apprentissage automatique automatisé, ou AutoML. Objectif : mettre l’apprentissage automatique à la portée du non-spécialiste.
« Les algorithmes de machine learning ne sont pas vraiment automatiques, explique Isabelle Guyon, chercheuse Inria et professeure à l’université Paris-Saclay, membre de l’équipe AO/TAU (Apprentissage et Optimisation / TAckling the Underspecified) au sein du LRI (Laboratoire de recherche en informatique) d’Orsay. Les modèles sont souvent définis par un grand nombre d’hyperparamètres, qu’il faut fixer en fonction du domaine d’application ou de certains aspects spécifiques du jeu de données utilisé pour l’apprentissage. Ce qui requiert l’expertise d’ingénieurs en science des données. De plus, savoir formuler le problème à résoudre sous forme d’un « problème de machine learning” n’est pas chose aisée. Définir une tâche sous forme d’un objectif mathématique est difficile même pour un ingénieur en sciences des données, et demande souvent en plus l’expertise d’une personne de terrain. »
Simplifier les outils de machine learning
« Voilà pourquoi une nouvelle discipline que l’on nomme AutoML est née, poursuit Isabelle Guyon. L’objectif est de réduire le nombre d’hyperparamètres et/ou de les ajuster automatiquement, de simplifier les outils pour qu’ils puissent être utilisés sans être expert en machine learning. Et de faire en sorte que les outils accumulent de l’expertise au fur et à mesure qu’ils sont exposés à des tâches variées : c’est ce que l’on appelle le méta-apprentissage, ou meta-learning. »
« Le premier rôle de l’AutoML est de déterminer quel algorithme d’apprentissage automatique va donner les meilleurs résultats pour votre problème, précise Michèle Sebag, directrice de recherche CNRS et responsable de l’équipe AO/TAU du LRI. Au départ, vous avez un nuage de points et vous cherchez un modèle. Est-ce qu’une droite fera l’affaire ? Ou une parabole ? Si on dispose de beaucoup de données, alors on peut entraîner les modèles candidats sur l’essentiel du jeu de données, puis les mettre à l’épreuve, les confronter au reste des données. Les choses deviennent plus difficiles quand on ne dispose que de peu de données. On doit alors faire des hypothèses et faire appel à des recettes issues de l’expérience. Ici, la pratique est en avance sur la théorie. » Le jeu consiste alors à « mettre en boîte » ces « trucs » dans des outils AutoML.
Méthodes d’optimisation bayésiennes
La panoplie AutoML ne cesse de s’enrichir. L’un des outils open source les plus reconnus aujourd’hui est Auto-Sklearn, qui exploite la bibliothèque ouverte d’algorithmes d’apprentissage automatique Scikit-learn, et repose sur des méthodes d’optimisation bayésiennes. À partir d’un jeu de données, cet outil détermine le meilleur algorithme d’apprentissage automatique adapté au problème et le configure, en optimisant ses hyperparamètres. D’autres approches sont explorées, comme par exemple les méthodes de recherche arborescente Monte-Carlo, ou encore les « algorithmes de bandits » (référence au « bandit manchot », la machine à sous des casinos).
Bien entendu, les ténors du cloud sont dans la course, Google en tête. On voit fleurir les offres d’outils génériques mais aussi spécialisés dans le développement de certains types d’applications. « Dans la période récente, signale Michèle Sebag, du fait que tout le monde ne jure que par l’apprentissage profond, l’AutoML migre vers l’AutoDL (Auto-Deep Learning). »
Les algorithmes de “black-box-optimization”
Isabelle Guyon organise depuis 2003 des « challenges » en intelligence artificielle. Elle a fondé en 2011 l’association ChaLearn, qui organise des compétitions en apprentissage automatique, notamment depuis 2015 sur l’AutoML. Elle est donc aux premières loges pour suivre l’évolution du sujet. « Il y a eu de grandes avancées dans le domaine de la sélection d’hyperparamètres, mais c’est l’un des aspects les plus “faciles”. Les méthodes d’optimisation dites “bayésiennes” ont connu une grande popularité, et ont remporté le premier challenge AutoML (2015-2016). Toutefois, elles vont peut-être se faire supplanter pas d’autres algorithmes dits de “black-box optimization” qui les talonnent dans la dernière compétition NeurIPS BayesOpt. »
« Une tendance semble se dégager : le meta-learning va jouer un rôle déterminant, indique Isabelle Guyon. Il y a des avancées importantes faites dans ce domaine, mais il est encore trop tôt pour dire si une technique particulière va dominer. Pour l’instant, il est surtout fait usage de réseaux de neurones pré-entrainés sur de très grandes bases de données. En vision par ordinateur en particulier, la grosse base de données ImageNet permet d’obtenir des réseaux dont les représentations internes sont réutilisables. Avec peu de nouveaux exemples on peut alors apprendre une nouvelle tâche (par exemple, classer les photos de ses proches). »
Une banalisation de l’apprentissage automatique
Jusqu’où l’apprentissage automatique peut-il se banaliser ? « On constate une accélération de la mise en œuvre de l’apprentissage automatique dans les applications, estime Isabelle Guyon. On voit aussi son enseignement se déplacer vers les premières années d’université. Donc il y a beaucoup de progrès. Mais on est encore loin de permettre aux utilisateurs sans aucune formation en informatique de pouvoir l’utiliser. C’est un but à atteindre et je pense qu’on l’atteindra d’ici quatre ou cinq ans, peut-être moins, pour des applications “types” comme les problèmes de classification. Mais pour ce qui est de l’apprentissage automatique complètement automatique… quel que soit le problème, on en est encore loin. Les problèmes seront résolus, un par un … et d’autres problèmes apparaîtront ! »