Cette IA hybride apprend à jouer au sudoku…
et à concevoir des protéines
⏱ 3 minPour compenser les lacunes des réseaux de neurones, qui sont notamment fâchés avec la logique, on cherche à les hybrider avec des outils relevant de l’IA symbolique. Une équipe toulousaine vient de présenter une telle IA hybride, qui apprend à jouer sans faille au sudoku, mais aussi à concevoir des protéines.
Les prouesses récentes de l’apprentissage profond ne peuvent cacher les limites et inconvénients de l’approche connexionniste. Entre autres, ces “boîtes noires” que sont les réseaux de neurones ne sont guère transparentes et ne favorisent pas l’explicabilité, leur entraînement exige de grandes masses de données, et elles ignorent superbement la logique. C’est pourquoi la communauté cherche des solutions pour hybrider cette IA connexionniste avec “l’autre IA”, l’IA symbolique, qui repose sur le traitement de connaissances et le raisonnement.
C’est l’objectif que s’est fixé par exemple à l’Institut Interdisciplinaire d’Intelligence Artificielle (3IA) de Toulouse, Aniti (Artificial and Natural Intelligence Toulouse Institute), la chaire Design with Intuition and Logic. Son titulaire, Thomas Schiex, est par ailleurs directeur de recherche à l’Inrae (Institut national de recherche pour l’agriculture, l’alimentation et l’environnement), au sein de l’Unité de Mathématiques et Informatique Appliquées de Toulouse (MIAT). Ses travaux de recherche visent notamment à développer des intelligences artificielles hybrides, combinant « intuition et logique », autrement dit des informations apprises avec des connaissances, notamment applicables à des problématiques biologiques.
Au dernier congrès IJCAI (International Joint Conference on Artificial Intelligence), qui s’est tenu à Macao en août dernier, au cours d’une session consacrée aux “Méthodes neuro-symboliques”, une communication[i] intitulée “Scalable Coupling of Deep Learning with Logical Reasoning” était présentée par son premier auteur, Marianne Defresne, doctorante au sein de l’équipe de Thomas Schiex. Elle exposait une approche hybride qui s’est avérée capable de s’attaquer à des problèmes aussi différents que l’apprentissage du jeu de sudoku et la conception de protéines.
Découvrir les règles du sudoku… et gagner à tous les coups
Le modèle développé par Thomas Schiex et son équipe associe un réseau de neurones avec un “prouveur” symbolique, lui-même précédemment conçu au MIAT, donc à Toulouse, mais qui résulte d’une collaboration internationale, notamment avec une équipe barcelonaise, d’où son nom : toulbar2. Il s’agit d’un solveur (disponible en open source) de problèmes d’optimisation combinatoire exprimés sous forme de réseaux de fonctions de coût.
Les chercheurs ont testé leur approche sur le jeu de sudoku. Le joueur y est confronté à une grille de neuf lignes et neuf colonnes, qu’il s’agit de remplir avec des chiffres de un à neuf, de manière à ce que chaque chiffre n’apparaisse qu’une fois dans chaque ligne, dans chaque colonne et dans chacun des neuf petits carrés de trois lignes sur trois colonnes (donc neuf cases) qui le composent. Les grilles proposées sont partiellement préremplies : les plus difficiles comportent initialement un chiffre dans 17 cases seulement, le minimum pour assurer l’unicité de la solution. D’autres, plus faciles, en comportent jusqu’à 34.
L’équipe de Thomas Schiex a montré que leur modèle était capable d’apprendre ce jeu uniquement à partir d’exemples. Dans la phase d’apprentissage, elle a nourri son réseau de neurones d’une série de 200 grilles de départ de difficulté variable (entre 17 et 34 cases préremplies), associées à leur grille résultat. Le réseau de neurones a appris les règles du sudoku et a produit des descriptions symboliques des contraintes traduisant les règles du sudoku. Dans la phase d’inférence, mille nouvelles grilles (avec seulement 17 cases préremplies) étaient traduites par le réseau de neurones en de telles représentations des contraintes, qui étaient soumises au prouveur toulbar2, lequel pouvait en déduire la seule grille résultat possible. Au final, l’outil s’est montré capable de résoudre 100% des grilles qui lui étaient soumises.
De la structure 3D à la séquence des protéines
« Dans une publication de 2018, une autre équipe, faisant appel à un réseau de neurones seul, avait utilisé 180 000 grilles résolues pour l’apprentissage et obtenu un taux de réussite de seulement 96,6%, assure Thomas Schiex. En 2020, notre équipe avait publié une solution permettant d’obtenir un taux de réussite de 100% mais après un entraînement sur 9 000 grilles. Aujourd’hui, avec notre approche hybride nous obtenons 100% de réussite après entraînement sur seulement 200 grilles. »
Bien sûr, si le sudoku est un problème intéressant pour tester une hypothèse, cette équipe a d’autres applications en tête. Elle s’intéresse notamment à la conception de protéines. « Nous cherchons à déterminer la séquence d’acides aminés qui, en se repliant, résultera en une protéine ayant une certaine conformation tridimensionnelle, précise Thomas Schiex. C’est le problème inverse de celui que résout AlphaFold2 de DeepMind. » Lequel “replie” les séquences d’acides aminé et détermine ainsi leur structure spatiale.
Curieusement, ce problème est assez similaire au jeu de sudoku, assure le chercheur. Au lieu de remplir des cases avec des chiffres de un à neuf, il s’agit cette fois de déterminer, dans chaque position d’une séquence d’acides aminés, lequel, dans le répertoire des vingt constituants les protéines, répondra le mieux aux contraintes (les forces interatomiques) résultant de la structure tridimensionnelle imposée. Et l’approche hybride conçue par les chercheurs toulousains s’est avérée très efficace. En faisant appel à un jeu d’essai de protéines de la littérature (17 000 pour l’entraînement), ils ont obtenu de meilleurs résultats que ceux déjà publiés.
Pierre Vandeginste
i. Marianne Defresne, Sophie Barbe, Thomas Schiex. Scalable Coupling of Deep Learning with Logical Reasoning. IJCAI’2023. doi.org