Les avancées prometteuses de l’apprentissage auto-supervisé
⏱ 3 minLes données étiquetées coûtent cher. De multiples voies de recherche sont explorées pour les économiser ou même s’en passer. L’apprentissage auto-supervisé est aujourd’hui perçu comme une approche particulièrement prometteuse.
« Apprentissage auto-supervisé : la matière noire de l’intelligence » (« Self-Supervised Learning: The Dark Matter of Intelligence ») : c’était en mars dernier le titre d’un texte signé Yann Le Cun, vice-président et « Chief AI Scientist » de Facebook, annonçant la publication¹ d’un nouveau modèle de vision artificielle très prometteur, comportant 1,3 milliard de paramètres, entraîné sur 1 milliard d’images glanées sur le web, et affichant une fiabilité record de 84,2 %. Au-delà de l’exubérance de la formule, Yann Le Cun exprimait un enthousiasme qui semble assez partagé dans la communauté pour les progrès récents de l’apprentissage auto-supervisé, ou Self-Supervised Learning (SSL).
Une forme d’apprentissage supervisé
« L’apprentissage auto-supervisé est une forme d’apprentissage supervisé, assure Nicolas Thome, professeur au CNAM et chercheur au sein de l’équipe Vertigo du laboratoire Cédric (Centre d’études et de recherche en informatique et communications). Ce qui le caractérise, c’est qu’au lieu d’entraîner les modèles à l’aide de données étiquetées à la main, on les fabrique automatiquement. Or, dans notre domaine, le nerf de la guerre, ce sont les données étiquetées. » Car elles sont rares et chères, puisqu’elles supposent du travail humain.
L’idée est donc de remplacer le travail fastidieux que représente l’étiquetage manuel d’un gros volume de données par celui consistant à concevoir et mettre en place un mécanisme d’étiquetage automatique. « Le tout est de trouver une manière efficace de produire ces données étiquetées, explique Nicolas Thome. Dans le cas du NLP (Natural Language Processing, NDLR), par exemple, on entraîne des modèles à prédire un mot que l’on a enlevé dans une phrase, de manière aléatoire. » Il existe toutes sortes de bases de données de textes accessibles à tous, et alimenter un modèle avec des phrases à trou ne coûte rien… D’où le succès de l’apprentissage auto-supervisé en traitement automatique du langage naturel.
Le modèle doit prédire le mot caché
« En NLP, assure Nicolas Thome, cette technique consistant à cacher un mot s’est avérée très efficace et productive. Elle a permis le développement notamment de modèles performants comme Bert et toute sa descendance. Mais il est moins facile de décliner cela dans d’autres domaines, cela reste une question ouverte. En vision, on modifie les images utilisées pour l’entraînement, par exemple en les masquant partiellement. Il est facile de fabriquer automatiquement toutes sortes d’images à partir d’une image originale et de les étiqueter. Mais il y a de nombreuses manières de cacher une partie d’une image ou plus généralement de la transformer. Et chacune a un impact différent sur l’apprentissage. C’est pourquoi il y a dans la littérature beaucoup de variations autour de ce principe. Pour les vidéos, par exemple, le modèle doit prédire la suite d’une séquence, ou reconstituer une partie manquante. Même chose pour l’audio. »
« L’apprentissage auto-supervisé est très prometteur, poursuit Nicolas Thome, c’est un sujet enthousiasmant. Les Gafa, notamment Google et Facebook, y consacrent beaucoup d’efforts. » Des publications récentes en témoignent. Comme celle² issue l’année dernière d’une équipe de Fair (Facebook AI Research) ou une autre³ résultant d’une collaboration entre des chercheurs de Fair et de l’équipe Inria grenobloise Thoth. Chez Google, on a remarqué des travaux⁴ issus de l’équipe Brain et d’autres⁵ signés par une équipe de sa filiale DeepMind.
Application en ingénierie médicale
« Notre équipe s’y intéresse, bien sûr, poursuit le chercheur. Nous avons par exemple des travaux en cours sur une application en imagerie médicale. Il s’agit de segmenter des organes sur des scanners abdominaux. C’est-à-dire d’étiqueter chaque pixel correspondant à un organe déterminé. Ce genre d’images segmentées est utile par exemple pour préparer une opération. Nous avons un doctorant en thèse Cifre sur ce sujet, en partenariat avec la société Visible Patient. »
Toutefois, il faut replacer l’apprentissage auto-supervisé dans un cadre plus général. Parce que l’étiquetage des données est coûteux, on cherche par différents moyens à la fois à en tirer le meilleur parti et à s’en passer. « D’autres approches de l’apprentissage vont dans le même sens, précise Nicolas Thome. Ainsi, l’apprentissage semi-supervisé, consiste à travailler avec essentiellement des données non étiquetées mais aussi une petite proportion de données étiquetées. On est donc en mode supervisé sur une partie des données disponibles et en mode non-supervisé sur le reste. »
Diverses approches pour économiser l’étiquetage
« Il y a aussi l’apprentissage faiblement supervisé, qui consiste à exploiter des données dotées d’étiquettes vagues, poursuit le chercheur. Par exemple, on veut entraîner un modèle à segmenter les pixels d’images avec des chiens et des chats. Mais les images sont seulement étiquetées “chien” et “chat”. On parle même d’apprentissage semi-faiblement supervisé quand on exploite des données faiblement étiquetées mais aussi des données étiquetées, voire des données non étiquetées. »
Les efforts pour économiser les étiquettes, qui impliquent du travail humain, donc un coût important, empruntent des voies multiples et variées. Mais parmi les approches explorées, l’apprentissage auto-supervisé semble avoir le vent en poupe. Nous y reviendrons prochainement.
Pierre Vandeginste
1. Priya Goyal et al., “Self-supervised Pretraining of Visual Features in the Wild”. arxiv.org/abs/2103.01988v2
2. Kaiming He et al., “Momentum Contrast for Unsupervised Visual Representation Learning”. https://arxiv.org/pdf/1911.05722.pdf
3. Mathilde Caron et al., “Unsupervised Learning of Visual Features by Contrasting Cluster Assignments”. 34th Conference on Neural Information Processing Systems, NeurIPS’20, 2020. ⟨hal-02883765v2⟩
4. Ting Chen et al., “A Simple Framework for Contrastive Learning of Visual Representations”. https://arxiv.org/pdf/2002.05709.pdf
5. Jean-Bastien Grill et al., “Bootstrap Your Own Latent: A new approach to self-supervised learning”. NeurIPS 2020. https://arxiv.org/pdf/2006.07733.pdf