
Démasquer les images détournées, truquées, forgées…
⏱ 5 minLa propagation de fausses nouvelles est une plaie de notre époque. L’IA peut nous aider à la combattre. En disséquant les textes, mais aussi grâce aux outils d’analyse des images.
Les fake news colportent des mensonges exprimés par du texte, mais aussi par des images : dessins, schémas, graphiques, photographies et vidéos. Lesquelles peuvent être d’une efficacité redoutable. La chasse à la désinformation passe donc aussi par la détection de ces images qui mentent. « Une difficulté majeure résulte du fait que les mêmes approches, relevant surtout de l’apprentissage artificiel, sont utilisés pour fabriquer des images falsifiées et pour les démasquer, signale Ewa Kijak, maître de conférences à l’université de Rennes 1 et chercheuse au sein de l’équipe Linkmedia de l’Irisa. On obtient de bons résultats quand un type de falsification est détecté par un réseau entraîné sur un jeu de données fabriquées avec la même technique. Mais il y a un problème de généralisation. » Résultat : le camp de la désintox doit suivre en permanence l’évolution des techniques, créer de nouveaux jeux de données… et entraîner ou réentraîner ses modèles.
Distinguer le vrai du faux sur les réseaux sociaux
Le nœud du mensonge peut se situer dans le texte, dans l’image, mais aussi dans la relation entre texte et image. Ewa Kijak a co-encadré, avec Vincent Claveau, la thèse¹ que Cédric Maigrot a soutenue, en 2019, sur la « Détection de fausses informations dans les réseaux sociaux ». Ces travaux ont porté sur les textes, sur les images, ainsi que sur la relation entre texte et image. Car une image peut aussi « mentir » sans avoir été modifiée le moins du monde. Il suffit qu’elle soit détournée, présentée comme une preuve de ce que le texte raconte. Veut-on fabriquer un conflit sanglant ici ou là ? Une photo de cadavres bien choisie sera perçue comme une preuve, pour peu qu’aucun détail révélateur ne grille la supercherie.
Au détournement peut s’ajouter une dose de trucage, mais il suffit souvent de peu, un simple recadrage éliminera par exemple les éléments permettant d’identifier le contexte du cliché initial. Pour le pisteur de fausses nouvelles, le jeu consiste alors à retrouver l’image originale, à déterminer son contexte et à le comparer avec celui évoqué dans la fake news. Cédric Maigrot s’est penché sur ce sujet et a d’ailleurs emporté une première place dans le challenge international MédiaEval 2016, dans la catégorie « Verifying Multimedia Use » (Vérification de l’utilisation multimédia).
Réseaux de neurones et approches mathématiques
Les réseaux de neurones n’ont pas le monopole de la lutte contre la désinformation. Des approches mathématiques peuvent également apporter leur concours. Au sein de l’équipe Traitement du signal et des images, dirigée par Jean-Michel Morel, au centre Borelli (ENS Paris-Saclay), la doctorante Tina Nikoukhah travaille sur des méthodes de détection des falsifications d’images et de vidéos. Elle s’est notamment intéressée aux stigmates que la technique de compression Jpeg, de loin la plus utilisée, inflige aux images, imprimant ainsi une sorte de signature, « d’ADN » caractérisant chaque groupe de pixels. « La compression Jpeg travaille sur des carrés de huit sur huit pixels, ce qui laisse des traces qu’un algorithme peut aisément détecter, signale Tina Nikoukhah. Lorsqu’un fragment d’une image est importé dans une autre, il y a une chance sur huit qu’il soit aligné horizontalement sur la grille 8 × 8 de l’image cible, et autant qu’il le soit verticalement. Il y a donc une chance sur 64 qu’il soit tout à fait aligné sur la grille de l’image cible. Nous avons développé un algorithme qui évalue dans une image finale le décalage par rapport à sa grille de chaque petite région. Ce qui permet de repérer et visualiser les fragments manifestement importés. »
Une falsification démasquée par la méthode de détection de la grille JPEG (traces laissées par l’algorithme de compression)

Photo originale de Raymond Domenech.

Photo truquée par insertion du visage d’Emmanuel Macron. © Centre Borelli

Visualisation des pixels différenciés selon leur historique JPEG estimé. © Centre Borelli

Visualisation des pixels ayant un historique JPEG différent du reste de l’image, détectés de manière fiable. © Centre Borelli
Les ravages des deepfakes
Dans la période récente, un nouveau type de falsification fait des ravages : il s’agit des deepfakes, ces vidéos qui font dire n’importe quoi à n’importe qui, à l’insu de son plein gré. Nous y avons déjà consacré un dossier. La spécialiste de l’analyse des visages Antitza Dantcheva, chercheuse à Inria Sophia Antipolis Méditerranée, au sein de l’équipe Stars, s’est attaquée au sujet. « La détection de manipulations de visages dans une vidéo, par des techniques d’apprentissage profond, est très efficace quand on sait par avance quelle technique a été employée pour réaliser le deepfake, indique la chercheuse. Mais cela devient plus difficile quand le réseau de neurones n’a pas été entraîné sur cette même technique. »
Antitza Dantcheva a publié² des travaux qui ont consisté à quantifier méthodiquement la chose. Elle a entraîné trois types de réseaux de neurones adaptés à la 3D (I3D, 3D ResNet et 3D ResNeXt) sur le jeu de données spécialisé FaceForensics++, qui contient 1 000 vidéos originales montrant une personne en train de parler et ces mêmes vidéos manipulées à l’aide de quatre outils utilisés par les falsificateurs (Deepfake, Face2Face, FaceSwap et NeuralTextures). Elle a montré que si les taux de détection des deepfakes peuvent être très élevés lorsque le modèle a été entraîné sur la méthode employée pour le fabriquer (80 à 95 % par exemple avec un modèle I3D), ils sont plus médiocres quand il a été entraîné sur trois de ces méthodes de falsification alors que le deepfake a été réalisé avec la quatrième (60 à 75 % par exemple avec 3D ResNet). « Cela nous indique clairement que nous sommes engagés dans une sorte de course aux armements, IA contre IA, estime la chercheuse. Chaque fois qu’une nouvelle technique de falsification sera inventée, les réseaux de neurones ne sauront bien la détecter qu’après avoir été réentraînés sur un jeu de données obtenu avec cette technique. »
Le geste et la parole
Que peut-on faire pour être mieux préparés contre le prochain assaut faisant appel à une toute nouvelle technique de falsification ? « Une publication³ récente d’une équipe californienne explore une voie prometteuse, estime Antitza Dantcheva. Elle consiste à s’intéresser aux expressions faciales et aux mouvements (des lèvres, de la tête…) en relation avec les paroles prononcées, afin de déterminer une signature propre à la personne qui parle. » Les techniques courantes de falsification ne respectent pas cette relation entre paroles et expression corporelle et seraient donc détectables de cette manière. « Le président Barack Obama a par exemple une manière bien à lui de lancer un « Hi, everybody » (« Bonjour tout le monde ») lorsqu’il prend la parole, explique la chercheuse. Il accompagne ces propos d’un mouvement de tête particulier. Une vidéo falsifiée qui ne respecterait pas cette corrélation entre paroles et gestuelle sera facilement démasquée par un modèle qui se focalise sur ce type de relations. »
Mais, bien entendu, on peut parier que de nouvelles techniques permettront un jour aux falsificateurs de réaliser des deepfakes respectant cette relation. Et la guerre des vidéos falsifiées se poursuivra… IA contre IA.
Pierre Vandeginste
Notes
1. Cédric Maigrot. Détection de fausses informations dans les réseaux sociaux. These, university Rennet 1, 2019. ⟨tel-02404234v2⟩
2. Yaohui Wang, Antitza Dantcheva. “A video is worth more than 1000 lies. Comparing 3DCNN approaches for detecting deepfakes”. FG 2020, 15th IEEE Int’l Conf. on Auto. Face and Gesture Recog., 2020. ⟨hal-02862476⟩
3. Shruti Agarwal et al. “Protecting World Leaders Against Deep Fakes”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2019. thecvf.com
Image d’ouverture : comparaison avant/après.