Les multiples talents des GAN
⏱ 5 minInventé en 2014, le GAN (Generative Adversarial Network, soit réseau antagoniste génératif) fait surtout parler de lui à cause des « deepfakes », ces fausses images et vidéos impressionnantes. Pourtant, son potentiel d’applications est bien plus vaste.
Des photos incroyablement crédibles de personnes… qui n’existent pas. Des vidéos qui font dire n’importe quoi à Barack Obama. Ces images fallacieuses qui ont l’air si vraies, ces deepfakes (hypertrucages), envahissent les réseaux sociaux ces dernières années. Plus précisément, depuis l’invention des GAN (Generative Adversarial Networks, soit réseaux antagonistes génératifs). C’est en 2014 que le principe du GAN a été publié par Ian Goodfellow1, alors jeune chercheur à l’université de Montréal (il est désormais « Director of Machine Learning » chez Apple, après un passage par Google). Il a imaginé de placer deux réseaux de neurones face à face : le premier, appelé générateur, produit des contrefaçons, de nouvelles données imitant celles du jeu de données réelles sur lequel il s’est entraîné. En face, un second réseau de neurones, le discriminateur, analyse celles-ci et décide si elles sont réelles ou générées artificiellement. Tandis que le générateur apprend par exemple à produire de faux visages de plus en plus vraisemblables, le discriminateur apprend à toujours mieux distinguer les vrais visages des faux. « Durant l’entraînement, la progression de l’un induira la progression de l’autre. Il y a donc une amélioration conjointe comparable à ce qui se passe pour deux joueurs opposés l’un à l’autre », résume Maxime Mirka, chercheur doctorant au LIRMM, laboratoire de recherche conjoint entre le CNRS et l’université de Montpellier.
Le discriminateur passe de « juge » à « critique »
Spectaculaire dans ses productions, l’approche GAN présente des contraintes et des limites. L’apprentissage de ce type de modèle exige une forte puissance de calcul, et implique donc une facture énergétique lourde. En outre, un GAN ne génère pas de données réellement nouvelles, mais des données directement inspirées de son dataset d’apprentissage. Autre défaut majeur de l’approche souligné par de nombreux chercheurs, son instabilité intrinsèque : la qualité des résultats générés dépend de l’équilibre qui s’instaure entre le générateur et le discriminateur, un équilibre qu’il peut être difficile de maintenir.
Toutefois, depuis la publication initiale de Ian Goodfellow, des améliorations ont été proposées par d’autres auteurs. « Des techniques existent pour stabiliser l’entraînement et assurer une bonne convergence, indique Maxime Mirka, comme l’algorithme WGAN (Wasserstein GAN 2), mais cela reste à améliorer, notamment avec la complexification des GANs. » Silvia Pagliarini, membre de l’équipe Mnemosyne de l’INRIA estime que l’algorithme Wasserstein fait passer le rôle du discriminateur de celui de simple « juge » à celui de « critique » : « Dans un tel scénario, le discriminateur conduit le générateur dans la bonne direction et lui permet d’être entraîné jusqu’à l’optimalité. Dernièrement, des avancées intéressantes ont été fournies par Ishaan Gulrajani 3 avec l’introduction d’un « terme de pénalité de gradient« qui permet un entraînement plus rapide. » L’évaluation de la performance des GAN reste un axe d’amélioration important pour l’avenir. Il n’existe pas de fonction objective universelle permettant d’évaluer la progression de l’apprentissage, mais de nombreuses méthodes4 permettent d’évaluer la qualité des résultats obtenus.
Une équipe de l’ETH (École polytechnique fédérale) de Zurich a publié un GAN qui améliore la qualité de photographies de galaxies, entraîné sur des images artificiellement dégradées. Les résultats surpassent ceux de la technique (déconvolution) utilisée habituellement. Crédit ETH Zurich
De multiples cas d’usage pour les GAN
Si le GAN s’est d’abord fait remarquer pour son aptitude à la falsification, son champ d’application est bien plus large. Cette architecture d’IA générative peut s’appliquer à des types de données très divers et ses applications potentielles sont nombreuses. Au LIRMM, Maxime Mirka exploite les GAN, plus précisément des WGAN, afin d’optimiser la topologie de circuits électronique de type réseau sur puce (NoC, pour network-on-chip, en français réseau sur une puce). Le recours au GAN a permis d’accroître de 36 % en moyenne5 le nombre de connexions. « Le GAN nous permet de produire des topologies de NoC optimisées en fonction d’un objectif, comme l’optimisation de la consommation énergétique. Pour cela, nous avons mis en place une architecture de GAN à trois réseaux. Le discriminateur permet de guider l’apprentissage du générateur, mais un troisième réseau appelé « reward« incite le générateur à produire des topologies ayant une caractéristique souhaitée. De cette manière, le générateur est capable de produire des NoCs fonctionnels et optimisés selon un critère défini. »
Cette personne n’existe pas. Image générée par StyleGAN (Nvidia)
Compléter un jeu de données réduit
Le talent d’imitateur du GAN a rapidement été mis à profit pour produire des données synthétiques afin de compléter un jeu de données réelles trop réduit. Ce fut le cas aux premières heures de la pandémie de coronavirus, afin de faire face au manque de radiographies des poumons de malades du COVID-19. Des chercheurs égyptiens6 ont ainsi pu utiliser un GAN pour accélérer l’apprentissage de leurs modèles destinés à détecter les personnes atteintes. En chimie, les GAN ont d’ores et déjà démontré leur capacité à proposer de nouvelles molécules, ce qui ouvre la voie à de nombreuses applications, notamment en pharmacologie7.
Dans l’industrie, les applications sont multiples. Les constructeurs automobiles s’intéressent notamment au DeblurGAN afin de rendre nettes les images prises par les caméras des véhicules autonomes et ainsi améliorer l’efficacité des algorithmes de vision artificielle. Dans le secteur de la construction, un GAN a par exemple été utilisé afin de simuler l’activité des futurs occupants d’un bâtiment et ainsi alimenter les algorithmes de simulation visant à optimiser au plus juste la consommation énergétique. Enfin, des GAN ont déjà été mis en œuvre dans le secteur de la mode pour concevoir des chaussures ou des tissus qui vont séduire les consommateurs8. Avec cette capacité d’imiter sans réellement copier, les GAN pourraient avoir des implications considérables dans le domaine de la protection du design industriel et du copyright.
Alain Clapaud
Légende image de une : En 2019, une équipe de Nvidia a publié StyleGAN, un nouveau type de réseau antagoniste génératif qui va au-delà du GAN de Ian Goodfellow, en permettant notamment de contrôler certains attributs des images générées. Il est capable d’inventer des visages, mais aussi des voitures, des meubles…
1. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. « Generative Adversarial Networks » [2014]. arXiv:1406.2661
2. Martin Arjovsky, Soumith Chintala, Léon Bottou. « Wasserstein GAN » [2017]. arXiv:1701.07875
3. Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, Aaron Courville. « Improved Training of Wasserstein GANs » [2017]. arXiv:1704.00028
4. Jason Brownlee. « How to Evaluate Generative Adversarial Networks » [2019]. Machine Learning Mastery
5. Maxime Mirka, Maxime France Pillois, Gilles Sassatelli, Abdoulaye Gamatié. « GANNoC: A Framework for Automatic Generation of NoC Topologies using Generative Adversarial Networks » [2021], lirmm-03107918v2
6. Mohamed Loey, Florentin Smarandache, Nour Eldeen M. Khalifa. « Within the Lack of Chest COVID-19 X-ray Dataset: A Novel Detection Model Based on GAN and Deep Transfer Learning » [2020], MPDI
7. Nicola De Cao et Thomas Kipf. « MolGAN: An implicit generative model for small molecular graphs » [2018]. arXiv: 1805.11973
8. Kwonsang Sohn, Christine Sung, Gukwon Koo, Ohbyung Kwon. « Artificial Intelligence in the Fashion Industry: Consumer Responses to GAN Technology » [2020], DOI 10.1108/IJRDM-03-2020-0091