Francis Bach :
« Pour tenir les promesses de l’IA, il faut des modèles plus robustes… et comprendre ce qui s’y passe »
⏱ 6 minFrancis Bach est un spécialiste mondialement reconnu de l’apprentissage statistique. Il dirige l’équipe Sierra (Inria, ENS, CNRS) qui s’intéresse à des aspects théoriques de l’apprentissage automatique, notamment la parcimonie et l’optimisation des algorithmes, tout en gardant un œil sur ses applications. Francis Bach a été élu à l’Académie des sciences en 2020.
Data Analytics Post : Le mot « sparse » revient souvent dans les titres de vos publications…
Francis Bach : En effet. En anglais on parle de « sparsity », en français de « parcimonie ». C’est en fait un peu différent, mais j’utilise les deux mots d’une manière assez équivalente. Le point de départ, c’est ce que l’on appelle une matrice « creuse ». Quand, dans un tableau de valeurs, la plupart des valeurs sont égales à zéro, on parle de matrice « creuse », en anglais « sparse ». Il y a beaucoup de données qui prennent la forme de matrices creuses. C’est assez pratique, parce que si une valeur est égale à zéro, on n’a pas vraiment besoin de s’y intéresser et, du coup, les calculs sur ce type de matrices peuvent être optimisés. Quand des matrices représentent par exemple des interactions dans un espace en 2D ou 3D, généralement chaque élément interagit uniquement avec ses plus proches voisins, et les valeurs représentant l’interaction avec des éléments lointains sont égales à zéro, donc ça fait des matrices vraiment très creuses. On retrouve souvent ce type de matrices en analyse numérique.
Dans notre domaine, on utilise la parcimonie d’une manière différente. Si je m’intéresse par exemple au caractère prédictif de certains gènes pour des pathologies, je vais manipuler des matrices qui mesurent des relations statistiques entre l’expression de nombreux gènes et ces pathologies. L’idée, c’est de pouvoir identifier les gènes qui permettent de détecter une propension au diabète, par exemple. L’hypothèse, c’est qu’ils sont peu nombreux. Donc, la parcimonie, ici, vise à trouver parmi dix mille gènes, par exemple, les quarante ou cinquante qui sont pertinents pour la prédiction. Quand on a beaucoup de variables d’entrée, cela permet de faire de la prédiction correctement. Donc, on sélectionne les variables pertinentes. Les méthodes dites parcimonieuses visent à trouver algorithmiquement, de manière efficace, en termes de prédiction statistique, ces variables.
DAP : Et cette efficacité permet la frugalité…
Francis Bach : Oui. C’est un objectif important. D’ailleurs, tout le monde essaie de réduire les coûts de fonctionnement des modèles, que ce soit à des fins économiques ou environnementales. On conçoit des algorithmes plus rapides, on travaille sur la réduction de la taille des modèles, on cherche à réduire le coût des calculs en réduisant la précision des données… On fait tout cela depuis quelques années. Les raisons sont multiples. Pour déployer un algorithme de Machine Learning (ML) sur un téléphone portable, par exemple, il faut vraiment faire des efforts d’efficacité énergétique. Bien sûr, cela devient de plus en plus dur…
Maintenant il faut bien voir que si on réduit l’empreinte énergétique d’un algorithme d’un facteur deux, souvent, on va l’utiliser deux fois plus. C’est un fréquent effet rebond. Du coup, on ne va pas sauver la planète en divisant par deux la consommation de cet algorithme. Notre rôle, c’est de proposer des solutions pour obtenir des résultats intéressants de la manière la plus efficace énergétiquement. Après, les usages, ce n’est plus seulement de la science. C’est une discussion beaucoup plus générale, intéressante, mais qui dépasse un peu les scientifiques. Toutefois, il faut garder à l’esprit que pour l’instant l’apprentissage des modèles d’IA représente une part infime de la consommation totale du numérique.
Notre but est, par exemple, de s’assurer qu’un hôpital utilise un modèle qui va permettre de mieux soigner les gens, sans avoir à dépenser un million de dollars. Mais il y a aussi parfois des effets de seuil. Si, par exemple, il faut acheter cent ordinateurs pour entraîner un certain modèle et que je n’ai pas les moyens d’acheter ces ordinateurs, je ne le fais pas. Alors que si, grâce à de nouveaux algorithmes plus efficaces, il suffit d’acheter dix ordinateurs, peut-être que je peux le faire. Là il y a un effet déclencheur. En améliorant l’efficacité d’un algorithme, on permet à des hôpitaux d’utiliser un nouvel outil, qui coûte de la puissance de calcul et consomme de l’énergie, mais qui sauve des vies ! Je caricature un peu… mais il faut se rappeler que si le numérique consomme, il peut avoir un impact positif. Par exemple en termes de santé, d’espérance de vie, de bien-être.
DAP : Un souci souvent évoqué : les biais. Que peut-on faire ?
Francis Bach : Le Machine Learning reproduit les liens entre des « entrées » et des « sorties », donc si on entre des bêtises dans nos modèles, il ressort des bêtises. On en a vu des exemples caricaturaux. C’est un sujet scientifique actuel. On cherche à mesurer les biais et à s’assurer qu’il n’y en a pas. Il y a pas mal de travaux là-dessus. Par ailleurs, il faut éduquer les ingénieurs sur les biais dans les données. Ils doivent savoir que les données sont biaisées, et comment on peut s’assurer que les biais ne sont pas trop répercutés dans les modèles. Il y a des enjeux à la fois scientifiques et pédagogiques pour les gens qui utilisent les méthodes de Machine Learning. Pour éviter qu’elles soient utilisées de manière un peu aveugle. Cela dit, il y aura toujours des gens malintentionnés pour appliquer les modèles de manière malveillante, mais c’est notre rôle de s’assurer que nos formations incluent un aspect éthique. C’est un sujet important, parce qu’on nous attend au tournant. Pour une application non éthique de l’IA, toutes les autres se retrouvent souvent mises au ban.
DAP : Votre équipe publie surtout sur des sujets théoriques, mais s’intéresse aussi aux applications. C’est important à vos yeux ?
Francis Bach : Oui, c’est important… et de plus en plus difficile. C’est important d’essayer de ne pas laisser diverger les aspects méthodologiques des aspects appliqués. Il y a toujours eu un fossé entre la théorie et la pratique, mais j’ai l’impression que ce fossé s’agrandit et que cela appauvrit tout le monde. Cela appauvrit les gens qui font de la théorie, un peu comme nous, parce qu’on fait de la théorie un peu dans le vide, loin de ce qui se passe en pratique. Et à l’inverse, pour les gens qui appliquent ces méthodes, et qui les font marcher, il y a parfois un manque d’intuition, de capacité à comprendre ce qui se passe quand ça marche moins bien que prévu.
Il y a dix ans, à l’époque des modèles linéaires classiques, on pouvait passer d’un théorème à une mise en œuvre algorithmique sur des données du monde réel tout à fait raisonnable assez facilement. Aujourd’hui, il y a plein de manières différentes de faire du Deep Learning, il y a plein d’architectures, les données sont de plus en plus volumineuses, il faut de plus en plus de compétences particulières pour les traiter… Quand j’ai commencé à m’intéresser au Machine Learning en 2000, les conférences étaient de taille modeste, donc on pouvait, sinon comprendre, du moins apprécier la plupart des articles. Depuis, le domaine du ML est devenu beaucoup plus complexe et se subdivise en sous-domaines. Les contributions sont de plus en plus spécifiques, on ne peut plus être expert en tout. Avoir une connaissance de l’état de l’art à la fois du côté théorique et du côté pratique devient toujours plus difficile.
DAP : Quel est l’enjeu le plus important aujourd’hui pour l’IA ?
Francis Bach : Je pense qu’il est temps de répondre aux promesses. Les promesses de voiture autonome, les promesses de médecine personnalisée… Pour tenir ces promesses, il faut tout d’abord s’intéresser aux problèmes de robustesse… Je pense qu’essayer de rendre plus robuste tout ce que l’on fait, c’est nécessaire, important… Il y a ensuite l’enjeu de la réduction de la taille des modèles. Une petite musique nous dit qu’il faut absolument avoir un million de GPU pour pouvoir faire tourner un modèle formidable. Je pense que rien n’indique que ce soit toujours nécessaire. Il faut faire de l’apprentissage plus frugal, c’est un axe de recherche important, et en plus intéressant.
Il faut aussi que nous sachions expliquer un tout petit peu… ce qui se passe dans nos modèles. Les mécanismes globaux d’apprentissage sont connus, le gradient stochastique, on sait ce que c’est. Cela fait cinquante ans qu’il existe, on le comprend… On sait que ça généralise bien, parfait. Mais dans le détail, c’est vrai qu’il y a des mécanismes que l’on ne sait pas expliquer. On invente et on utilise des modèles complexes de réseaux de neurones que l’on ne comprend pas vraiment. Comprendre ce qui s’y passe permettrait d’avancer.
Aujourd’hui, des milliers de personnes essaient toutes sortes de modèles. Certains fonctionnent mieux que d’autres, mais on a du mal à en déterminer les raisons… Pour l’instant, le principe est souvent d’essayer plein de choses et de regarder ce qui marche… Bien sûr, on a généralement des intuitions, mais souvent sans réelle compréhension. Moi, je suis plus dans l’analyse mathématique des algorithmes, et moins dans la mise en œuvre. Les deux sont importants, bien sûr, il n’y a pas de jugement de valeur là-dessus. Nos travaux de recherche consistent à essayer de comprendre vraiment pourquoi un modèle fonctionne.
Et il y a un dernier point intéressant, c’est le lien entre apprentissage et contrôle. Quand on fait de l’apprentissage supervisé, on prédit, par exemple des étiquettes, et puis après, nos prédictions n’ont pas d’influence sur le futur. On prédit, et après on s’en va, alors qu’en apprentissage par renforcement, ou en contrôle, on interagit avec l’environnement, et nos prédictions induisent des actions qui vont avoir une influence sur l’environnement. Et cela, c’est classique en théorie du contrôle, mais commence à arriver en Machine Learning, avec l’apprentissage par renforcement… C’est un sujet ouvert, la rencontre entre ces deux mondes qui sont très différents, mais dont le but est assez similaire.
DAP : En conclusion ?
Francis Bach : Je crois qu’il faut rester humble sur ce que l’on sait faire et pas faire. Ne pas oublier que l’apprentissage machine n’est pas l’apanage des grands groupes technologiques, et qu’il est utile pour tout le monde, en particulier pour les sciences. Il n’est pas fait uniquement par eux et surtout pas uniquement pour eux. Le Machine Learning et l’IA ont vocation à aider toutes les sciences, toutes les activités humaines, et pas uniquement à faire la fortune de deux ou trois acteurs.
Propos recueillis par Pierre Vandeginste
Image de une : Francis Bach.