
Le méta-apprentissage fait ses premiers pas en traitement automatique du langage
⏱ 4 minLe méta-apprentissage propose de construire des modèles capables… d’apprendre à apprendre. Enfin, d’apprendre mieux, plus vite, dans un certain domaine. L’idée a d’abord séduit en vision artificielle, elle fait ses premiers pas en traitement automatique du langage.
Des modèles capables d’apprendre à apprendre : au pied de la lettre, c’est ce que promet le « méta-apprentissage » ou meta-learning. Une promesse qui peut sembler extravagante si on l’entend dans le sens : « apprendre à apprendre… tout et n’importe quoi ». Dans le monde réel, des équipes publient depuis quelques années des approches permettant à des modèles d’apprendre à apprendre… dans un domaine limité. Et c’est déjà tout à fait… prometteur.
Curiosité intellectuelle il y a vingt ans, le méta-apprentissage est devenu un sujet après le décollage de l’apprentissage profond, et les publications sur le « deep meta-learning » se multiplient depuis environ cinq ans. En particulier, un article paru en 2017, avec pour premier signataire Chelsea Finn, alors doctorante à l’université de Californie, à Berkeley (elle est aujourd’hui assistant professor à l’université de Stanford), a été très remarqué. Elle y proposait un certain MAML¹ (pour Model-Agnostic Meta-Learning), dont on parle beaucoup depuis.
Une moisson d’algorithmes de méta-apprentissage profond
En substance, MAML fournit à l’issue de sa phase de méta-apprentissage un modèle dont les poids initiaux ont été optimisés pour un apprentissage rapide. Leurs valeurs ont été apprises au prix d’un grand nombre d’apprentissages sur une « distribution » de tâches différentes. Depuis, les propositions se sont multipliées, les unes améliorant MAML, d’autres empruntant des chemins différents. S’est notamment fait remarquer un certain Reptile², proposé par une équipe de l’entreprise OpenAI. Attention, clin d’œil : MAML se prononce comme « mammal » (mammifère). Bien d’autres ont suivi, notamment LEO³, LLAMA⁴, Platipus⁵ (également signé Chelsea Finn), ou encore MetaOptNet⁶.
Toutes ces propositions ont été rapidement accueillies avec intérêt dans le milieu de la vision artificielle. Ce n’est que plus récemment qu’elles ont été testées dans d’autres secteurs d’application. Ainsi, le meta-learning est depuis peu pris au sérieux par des chercheurs en traitement automatique du langage (TAL). C’est, par exemple, le cas de Gaël Guibon, chercheur en post-doc, conjointement au Laboratoire Traitement et Communication de l’Information (LTCI) de Télécom Paris, et à la direction Innovation & Recherche de la SNCF⁷.
Des travaux sur la détection d’émotion dans des textes
« Après la publication de Chelsea Finn, en 2017, indique Gaël Guibon, le meta-learning a vite été testé par des équipes dans le contexte de la vision artificielle, où il rencontre un certain succès. Toutefois il semblait difficile de transposer les solutions proposées dans d’autres catégories d’applications et notamment en traitement du langage. Dans ce domaine, un élément déclencheur a été la publication⁸ de travaux d’une équipe du MIT, avec pour premier signataire Yujia Bao. Leur stratégie de meta-learning produit un modèle capable de s’adapter rapidement à une nouvelle tâche de classification de textes. »
« Je m’intéresse à la détection d’émotions dans des textes, notamment dans des « chats » permettant aux clients de se renseigner sur les sites de la SNCF, précise le chercheur. C’est un cas de figure dans lequel il n’existe pas de jeu de données annotées conséquent, permettant de travailler classiquement par apprentissage supervisé. En revanche, il reste possible de fabriquer un petit jeu de données en annotant à la main quelques textes. Le principe du meta-learning permet d’imaginer qu’un méta-modèle, après avoir appris à apprendre efficacement à détecter des émotions dans d’autres types de textes, puisse apprendre à les détecter dans ces chats, par entraînement sur un petit jeu de données. »
Objectif : apprendre vite, sur un petit jeu de données
« Notre approche du meta-learning, précise Gaël Guibon, s’appuie sur les « Prototypical Networks » (réseaux prototypiques) de Jake Snell⁹. Et nous l’appliquons sur plusieurs modèles, dont un réseau convolutif (CNN) et un transformer. Nous utilisons pour le méta-entraînement le jeu de données GoEmotions, un corpus de 58 000 commentaires issus du site communautaire Reddit, annotés finement, selon 27 catégories d’émotions. Pour l’évaluation, nous faisons appel au jeu de données DailyDialog qui est constitué de plus de 13 000 conversations de tous les jours, étiquetées selon les six émotions de la classification classique proposée par Paul Ekman en 1972 (tristesse, joie, colère, peur, dégoût, surprise). »
« Après méta-apprentissage sur le gros jeu de données GoEmotions, nous avons évalué le modèle obtenu sur des petits jeux de données issues de DailyDialog, qui sont de nature différente, explique le chercheur. Nos résultats sont encourageants, particulièrement avec le transformer. Sans surprise, ils restent pour le moment inférieurs à ceux obtenus directement, de manière traditionnelle, par apprentissage supervisé. Mais notre démarche vise précisément à mettre au point une approche permettant de travailler en l’absence d’un vaste jeu de données étiquetées. Nous présentons nos travaux à la conférence TALN-Récital 2021 organisée par l’Association pour le Traitement Automatique des Langues (ATALA), et nous avons un papier accepté au workshop Meta Learning and Its Applications to Natural Language Processing de la conférence ACL-IJCNLP 2021 (Association for Computational Linguistics & International Joint Conference on Natural Language Processing). »
Pierre Vandeginste
1. Chelsea Finn et al., “Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks”, ICML, 2017. arxiv.org
2. Alex Nichol et al., “On First-Order Meta-Learning Algorithms”, 2018. arxiv.org
3. Andrei Rusu et al., “Meta-Learning with Latent Embedding Optimization”, ICLR, 2018. arxiv.org
4. Grant et al., “Recasting Gradient Based Meta-Learning as Hierarchical Bayes”, ICLR, 2018. arxiv.org
5. Chelsea Finn et al., “Probabilistic Model-Agnostic Meta-Learning”, NeurIPS, 2018. papers.nips.cc
6. Kwonjoon Lee et al., “Meta-Learning with Differentiable Convex Optimization”, CVPR, 2019. arxiv.org
7. La SNCF est partenaire du Data Analytics Post.
8. Yujia Bao et al., “Few-shot Text Classification with Distributional Signatures”, ICLR, 2020. iclr.cc/virtual_2020
9. Jake Snell et al., “Prototypical Networks for Few-shot Learning”, NeurIPS, 2017. arxiv.org