Des voix toujours plus naturelles… et à la carte
⏱ 6 minNicolas Obin, chercheur au laboratoire des Sciences et technologies de la musique et du son (STMS, Ircam/CNRS/Sorbonne Université/Ministère de la culture), est une des pointures françaises en synthèse vocale. Avec son équipe, il crée des voix de synthèse et manipule à la demande des enregistrements vocaux pour des artistes, des chercheurs en sciences cognitives ou des entreprises.
Qui se souvient de la voix des premiers GPS dans les années 1990 dont le caractère artificiel était immédiatement perceptible ? Jusqu’aux années 2010 et l’avènement des réseaux de neurones profonds, les voix de synthèse restaient… des voix de synthèse. Elles sont depuis quelques années aussi naturelles que des voix humaines et de plus en plus riches en émotions. Comment en est-on arrivé là ? « La synthèse vocale a évolué avec les grandes révolutions de l’histoire des sciences », nous rappelle Nicolas Obin, chercheur à l’Ircam : en 1791, la première speaking machine (machine parlante), créée par Wolfgang Von Kempelen était une sorte d’instrument à vent mimant l’anatomie humaine. Avec l’avènement de l’électricité et de l’électronique au début du XXe siècle, les laboratoires Bell ont conçu plusieurs machines, dont le Voder à la fin des années 1930. Cet appareil était commandé par un opérateur à l’aide d’un clavier et de pédales qui modulaient le son pour produire la première voix artificielle crédible et intelligible.
A l’ère de l’informatique, dans les années 1950-1960, les premières voix de synthèse numériques apparaissent – ce qui a inspiré celle de Hal dans le film 2001, l’Odyssée de l’espace de Stanley Kubrick – grâce à des systèmes à base de règles : des algorithmes basés sur la mise en œuvre de connaissances humaines en traitement du signal et en linguistique. C’est le début du text-to-speech (synthèse vocale), où aucun opérateur humain n’intervient. Cette approche est à son apogée dans les années 1980, et avec le temps profitera de l’augmentation des capacités de calcul et de stockage des ordinateurs. La matière première est l’enregistrement d’une seule voix qui, sur des bases linguistiques, est découpée en mots, syllabes, et jusqu’à ses plus petites unités, en phonèmes. L’analyse acoustique est faite sur ces briques sonores et le texte que l’on veut faire dire est construit en enchaînant ces séquences. C’est le début de la synthèse vocale par « sélection d’unités ». Progressivement et jusqu’à la fin des années 2000, ces modèles sont combinés avec des modèles statistiques de machine learning (apprentissage automatique) pour modéliser la voix et reproduire de mieux en mieux son timbre et sa prosodie (c’est-à-dire les intonations, le rythme, les pauses).
Des voix aussi vraies que nature
« Les voix artificielles deviennent alors très naturelles, précise Nicolas Obin, qui a fait sa thèse sur le sujet et créé en 2011 avec de telles méthodes, par concaténation d’unités, une voix de synthèse d’André Dussollier à partir de sept heures d’enregistrements de lecture par le comédien. À cette époque, il fallait non seulement beaucoup de données mais aussi des enregistrements extrêmement propres. Par ailleurs, on ne savait reproduire que la voix enregistrée, et dans son seul style de diction, ici la lecture. Impossible d’extrapoler. »
Une limite qui sera dépassée avec la dernière révolution, au milieu des années 2010, de l’intelligence artificielle et des algorithmes à base de modèles génératifs reposant sur des réseaux de neurones. Ils sont capables de généraliser en apprenant sur la base de grandes quantités de textes et des enregistrements de voix correspondants. « Le réseau de neurones apprend par lui-même à phonétiser les séquences de lettres, explique le chercheur. C’est un véritable changement de paradigme : la quantité de données se substitue alors aux connaissances humaines et on passe des systèmes à base de règles à ces systèmes end-to-end (de bout en bout). Cela permet d’apprendre sur des centaines ou des milliers de voix dans une langue donnée. »
Le résultat est bluffant : en 2018, la voix de synthèse créée avec le Tacotron II de Google, entrainée sur vingt-cinq heures d’enregistrements, est jugée aussi naturelle qu’une voix humaine. Et l’année suivante, le même Google parvient à cloner le timbre d’une voix à partir de seulement cinq secondes d’enregistrement. « Les systèmes développés dans les recherches les plus récentes sont multilingues, poursuit le chercheur, ce qui permet de faire parler quelqu’un dans une autre langue que la sienne, par exemple dans un contexte de traduction automatique. Enfin, dernier verrou qui est en train d’être levé : produire une voix de synthèse propre à partir du tout-venant, des enregistrements hétérogènes et de mauvaise qualité, bruités. »
Ces progrès se sont vite traduits en applications pour des assistants vocaux de smartphones, d’enceintes connectées domestiques, ou pour des véhicules, des agents d’accueil virtuels, des centrales d’appel automatisées, etc. De fait, depuis dix ans, ce ne sont plus les opérateurs de télécommunications et les laboratoires de recherche qui sont sur le devant de la scène de la synthèse vocale mais bien les GAFAM, que ce soit côté recherches ou applications. La restitution des émotions dans la voix est au cœur des travaux actuels pour franchir une étape supplémentaire dans l’humanisation des voix de synthèse, avec comme potentialité de créer des filtres vocaux sur les réseaux sociaux, similaires aux filtres visuels d’Instagram. Dans la foulée, des entreprises de clonage vocal apparaissent, notamment pour la postproduction au cinéma ou pour créer des doubles virtuels de soi ou de proches dans la réalité virtuelle ou le métavers.
Toutefois, en raison de l’immense variabilité du langage, les domaines d’application des voix artificielles restent très limités si on les compare à ceux des images de synthèse. Du moins pour l’instant… « La voix d’une personne est encore plus intime que son image, alerte Nicolas Obin. À ce titre, l’impact des filtres vocaux est d’autant plus préoccupant. Tout comme celui des deepfakes (trucages ultra-réalistes) vocaux sur lesquels nous travaillons aussi (ce sera l’objet d’un prochain article, ndlr). » Rappelez-vous à quel point la voix de l’IA Samantha dans le film Her séduit et alimente l’imaginaire du héros. « À coup sûr, certains utiliseront aussi ces manipulations pour contrôler encore plus leur identité et leur communication voire adapter le design visuel et sonore selon les publics visés », prévient le chercheur.
De nouvelles perspectives de créations sonores
« Pour notre part, à l’Ircam, nous travaillons pour et avec des artistes pour élaborer de nouveaux moyens de création sonore, explique Nicolas Obin. Contrairement aux voix neutres des assistants vocaux, nous nous focalisons sur ce qui fait l’expressivité de la voix, ce qui traduit les émotions du locuteur ou l’interprétation propre à un acteur ou un chanteur. Nous cherchons par exemple à modifier les attributs vocaux de leur voix sur la base d’enregistrements ou en temps réel, que ce soit leur identité, leur âge, leur sexe ou leurs émotions, pour créer des personnalités vocales à la demande, naturelles, expressives, et fluides. Nous sommes également particulièrement intéressés à créer des voix réalistes qui dépassent les capacités humaines, par exemple pour créer une voix de chanteur avec une tessiture et une coloration surhumaine comme celle du castrat Farinelli interprété par l’artiste Judith Deschamps, ou pour imaginer des voix hybrides comme celle d’un instrument de musique, d’un orchestre ou d’un arbre. »
L’Ircam a également été précurseur en reconstituant dès 2012 les voix de personnalités disparues : celle de Marilyn Monroe dans le film Marilyn de Philippe Parreno (2013), ou du maréchal Pétain et de protagonistes de son procès pour un documentaire de Richard Saada (2015). Plus récemment, les chercheurs ont recréé la voix de Dalida dans la nouvelle émission L’hôtel du temps de Thierry Ardisson. « Dans un souci éthique, pour ces fictions, nous nous attachons à la vérité historique en inventant des entretiens qui respectent les propos tenus par ces personnalités de leur vivant », précise le chercheur. Concrètement, la personnalité est incarnée par un comédien dont on transforme la voix et l’apparence, ce dernier aspect étant le travail de la société Illumination Mac Guff, entreprise française spécialisée en deepfakes visuels. Dernier projet en date : la voix d’Isaac Asimov, l’un des pères de la science-fiction, dans le cadre d’un documentaire en cours de production pour la chaîne Arte.
Les entreprises s’intéressent également à tous ces progrès. Déjà, certaines demandent à l’Ircam de créer leur personnalité vocale pour véhiculer leur image de marque par la voix, à l’instar de leur logo pour leur identité visuelle. Et l’Ircam ? « Parmi nos recherches actuelles, nous essayons de manipuler les attributs pour créer des personnalités vocales à la demande. Je suis personnellement particulièrement attaché à l’application de ces manipulations en sciences cognitives pour étudier le comportement et les biais des êtres humains de façon réaliste dans le but de révéler des aspects de comportements humains impossibles à constater par ailleurs, conclut Nicolas Obin. Nous étudions par exemple les biais de genre, d’ethnie ou d’âge de candidats lors d’entretiens d’embauche, en transformant leur voix en temps réel. »
Isabelle Bellin
Assurer la diversité et l’inclusivité des voix artificielles
Les assistants vocaux n’échappent pas à la règle : ils reproduisent les biais humains de leurs créateurs à commencer par les biais de genre et d’accents. « Il faut promouvoir la diversité des langues et des parlers dans le monde numérique », estime Nicolas Obin, qui a cofondé les rencontres Deep Voice, dédiées à la voix et à l’IA, dont la deuxième édition en juin dernier était centrée sur ces sujets. À cette occasion, la première voix artificielle non-genrée a été présentée. Dénommée Q, elle a été développée au Danemark par un collectif réunissant chercheurs, concepteurs sonores et linguistes, en collaboration avec les organisateurs de la semaine de la fierté de Copenhague, des acteurs de la publicité et Equal AI, un organisme militant pour une IA sans biais.
Autre biais évoqué : le développement de technologies pensées par les entendants pour les sourds, présupposant que leurs propres capacités seraient la norme au risque de produire des gadgets sans intérêt pour les personnes concernées. « Enfin, comment promouvoir la diversité des langues dans le monde numérique, questionne le chercheur, quand on sait que seule une vingtaine de langues vivantes sont représentées dans des assistants vocaux et une centaine dans les moteurs de recherche, alors que 6800 langues sont encore parlées dans le monde, qu’elles sont souvent en voie de disparition et que la majorité d’entre elles n’a même pas de forme écrite… »
Pour en savoir plus :
- Projet ANR The Voice (2018-2021) sur la création de voix pour la production de contenu dans le secteur de l’industrie créative.
- Projet REVOLT (REvealing human bias with real Time VOcal deep fakes) 2021-2023, financé par SorbonneUniversité.
- Projet ANR EXOVOICES: Lecture Virtuelle d’Histoires pour Enfants : Aspects Expressifs et Cognitifs de la Voix de Synthèse (2022-2025).