
La recherche à l’assaut des deepfakes vocaux
⏱ 5 minAprès les vidéos hyper-truquées, on peut craindre une avalanche de tentatives d’usurpations vocales d’identité. Mais comment apprendre à détecter ces attaques malveillantes alors que les exemples sont encore rarissimes ? Les chercheurs aussi rusent et font preuve d’imagination.
En mars 2020, Gilbert Chikli et Anthony Lasarevitsch ont été condamnés pour avoir escroqué quelques 55 millions d’euros à plus de 150 personnes entre 2015 et 2017, en usurpant l’identité de Jean-Yves Le Drian, alors ministre de la Défense. Gilbert Chikli serait aussi l’inventeur des arnaques au « faux président », en se faisant passer pour un chef d’entreprise exigeant par téléphone un transfert d’argent vers un partenaire hypothétique. Dans les deux cas, le fraudeur s’exprime au téléphone avec sa propre voix. Le même s’est également mis en scène dans des appels en visio, dans le décorum du bureau de Jean-Yves Le Drian, affublé d’un masque en silicone aux traits du ministre. Dans ces exemples de leurre vocal, les plus réussis, les victimes ne connaissaient pas la voix de la personne dont l’identité était usurpée, elles étaient abusées par la capacité de persuasion du fraudeur.
Mais compte tenu des progrès en matière de synthèse et de manipulation vocale, un jour ou l’autre, les escrocs sauront imiter parfaitement la voix d’une cible de leur choix. Nicolas Obin est bien placé pour le savoir : ce chercheur au laboratoire des Sciences et technologies de la musique et du son (STMS, Ircam/CNRS/Sorbonne Université/ministère de la Culture) est spécialiste de ces contrefaçons de voix hyper réalistes, tout comme de la synthèse de voix irréelles, selon les besoins de ses commanditaires (voir notre article). « Nos compétences en génération de voix les plus réalistes possibles intéressent désormais les acteurs de la cybersécurité », reconnaît-il. Tout comme ces hackeurs embauchés pour faire progresser les systèmes de sécurité numérique en imaginant les attaques les plus avancées, le chercheur créé désormais des contrefaçons dans le but d’entrainer des détecteurs de “deepfakes”.
La falsification audio en retard sur la vidéo
De fait, créer un deepfake audio demande une certaine expertise. La qualité est désormais excellente, mais contrairement à ce qui se passe dans le domaine des vidéos hyper-truquées, pour lesquelles des logiciels de création sont désormais aisément accessibles sur le web, on est encore bien loin de savoir créer des deepfakes audio ou audiovisuels en temps réel. Pour l’heure, seules quelques entreprises compétentes sont capables de proposer des enregistrements, pour le cinéma, la réalité virtuelle ou le métavers. Pourquoi un tel retard de l’audio sur la vidéo ? « Contrairement à la vidéo qui peut être travaillée image par image, la voix est un flux qui ne peut pas être figé, explique Nicolas Obin. La contrefaçon vocale est également rendue complexe en raison de la variabilité linguistique du langage, et nous percevons les moindres défauts audio tels que des discontinuités ou des intonations non naturelles. On peut aussi se demander si la vue ne primerait pas sur l’ouïe, vu l’attention et les investissements accordés aux effets spéciaux liés à l’image (cinéma, publicité, réseaux sociaux, etc.) par rapport au son… »
Aucun doute, néanmoins : les manipulations vocales se multiplieront. Pour y faire face, les chercheurs planchent sur les meilleurs moyens de les détecter pour garantir la sécurité numérique de l’État mais aussi de tout un chacun. Comment s’y prennent-ils ? Nicholas Evans, enseignant-chercheur à Eurecom, école d’ingénieurs et centre de recherche en sciences du numérique situé à Sophia Antipolis, est un spécialiste des solutions de détection audio, y compris d’usurpation d’identité (spoofing en anglais) sous toutes ses formes : imitation, transformation, synthèse, clonage vocal, recyclage d’un enregistrement de voix disponible, etc. Il teste et développe d’une part des systèmes de biométrie vocale pour authentifier l’identité d’une personne donnée à travers sa voix, d’autre part des systèmes de détection faisant appel à l’intelligence artificielle pour détecter les traces laissées par toute manipulation numérique quelle que soit l’identité du locuteur.
Nicholas Evans connait particulièrement bien les performances actuelles des systèmes de détection. Car depuis 2015, Eurecom organise le challenge international ASVspoof, dans le but de les évaluer, tous les deux ans. Un de ses points forts, c’est la base de données que créent les évaluateurs, sur laquelle les participants entrainent leurs modèles. « Avant, les chercheurs créaient leur propre base de données avec tous les biais que cela induit », raconte Nicholas Evans. Ce challenge a par exemple permis de tester les systèmes biométriques et les contre-mesures dans le but de détecter une usurpation d’identité au téléphone, ou encore pour l’accès à un bâtiment par reconnaissance vocale. Ils ont révélé un fort potentiel, même si le problème est loin d’être résolu.
Ces deux enregistrements audio sont des deepfakes réalisés pour le challenge ASVspoof.
Ils paraissent très authentiques pour une personne non prévenue.
Le dernier challenge en date, en 2021, portait sur l’évaluation de systèmes de détection automatique reposant sur l’IA. « C’est beaucoup plus délicat, reconnaît-il. On travaille en aveugle dans ce cas-là. Concrètement, on cherche à distinguer si une voix est authentique, naturelle ou non. » En 2022, un nouveau challenge a été lancé pour évaluer des solutions couplant biométrie et détection automatique de deepfakes, ce qui permet d’exploiter des informations potentiellement complémentaires.
Résultats : « Dans tous les cas, ce sont des algorithmes semi-supervisés qui sont les plus efficaces », précise Nicholas Evans qui s’empresse de relativiser en précisant que « même si ASVspoof est la base de données la plus largement utilisée dans la communauté, ces performances ne peuvent être considérées que comme des estimations compte tenu du fait que nous ne travaillons pas sur des fraudes réelles mais que nous les créons de toutes pièces, certes avec les meilleurs algorithmes actuels, mais seulement sur la base de notre imagination. » L’expertise que cela suppose donne une certaine longueur d’avance aux chercheurs sur les fraudeurs. Pour combien de temps ? Sachant que ces algorithmes sont, pour la plupart, publiés en open source…
À terme, développer des certifications
La prise de conscience de ces risques semble en bonne voie. Début 2020, Inria créait la Mission Sécurité-Défense, focalisée sur le renseignement et la cybersécurité, qui depuis peu s’intéresse au traitement des données audio. La cybersécurité est également au cœur de plusieurs projets de recherche sur les deepfakes qui débutent en 2023. L’un d’eux, à l’initiative du Service national de la police scientifique du ministère de l’Intérieur, réunit l’IRCAM, Eurecom, le CEA et l’université d’Avignon. « A l’Ircam, nous générerons des leurres de synthèse ou de conversion de voix, sur lesquels seront testés les systèmes de détection, précise Nicolas Obin. Nous utiliserons les techniques les plus en pointe permettant de contrefaire une identité vocale et nous en développerons de nouvelles. » In fine, l’objectif est de développer des certifications concernant la modalité voix comme il en existe sur la reconnaissance faciale ou les empreintes digitales, pour garantir une authentification plus sûre, y compris via une concordance vidéo/audio. « Pour cela, nous évaluerons à quel point des solutions couplant systèmes biométriques et de détection de deepfakes sont capables de déceler ces attaques », ajoute Nicholas Evans.
Un autre projet mené par Eurecom et l’Ircam porte sur la protection de personnalités publiques françaises, potentiellement des cibles faciles, du fait de l’abondance d’enregistrements publics accessibles. « Nous évaluerons l’avantage que nous procure la possibilité de disposer d’une plus grande quantité de données et de meilleure qualité sur ces personnes, précise Nicolas Obin. Par ailleurs, nous créerons des générateurs de deepfakes couplant audio et vidéo avec la meilleure synchronicité possible, notamment au niveau du mouvement des lèvres, qui reste le point faible. » Là encore, cela permettra d’entraîner des détecteurs qui seront par conséquent plus performants. Un jeu sans fin du gendarme et du voleur ?
Isabelle Bellin
Pour en savoir plus :
- Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation, Hemlata Tak et al., The Speaker and Language Recognition Workshop, Odyssey 2022, Pékin.
- ASVspoof 2021: Towards Spoofed and Deepfake Speech Detection in the Wild, Xuechen Liu et al., article en soumission à IEEE/ACM Transactions on Audio, Speech and Language Processing.
- SASV 2022: The First Spoofing-Aware Speaker Verification Challenge, Jee-weon Jung et al. Interspeech 2022, Incheon, Corée.