Emmanuel Vincent :
le traitement du son sous toutes ses formes
⏱ 3 minEmmanuel Vincent décortique les sons, à l’aide d’outils mathématiques et informatiques. Les sons musicaux, d’abord, depuis une thèse en 2004 à l’Ircam. Aujourd’hui directeur de recherche à Inria de Nancy – Grand Est, il s’intéresse à la musique de la parole.
Le parcours d’Emmanuel Vincent est aussi logique qu’une suite mathématique. À 42 ans, il est déjà passé de chercheur à directeur de recherche à Inria. Quant à l’objet de ses recherches, il a évolué du traitement du signal audio en musique – sa passion – à celui de la parole. Ce qui lui a notamment valu d’être distingué début 2022 du prestigieux grade de Fellow par l’IEEE. Pourtant, rien n’était calculé à l’avance…
Élève brillant et jeune musicien
Une idée de métier plus jeune ? « Pas vraiment, j’ai juste toujours aimé les sciences », répond-il simplement. Mais tout de suite il ajoute : « Ma grand-mère était chercheuse en physique au CNRS et cela m’attirait. Même si j’avais une idée très vague de ce qu’était son travail… ». Après une enfance en région parisienne puis en Picardie, sa famille déménage à Nancy, en Lorraine. Le jeune Emmanuel est « bon à l’école », comme il dit. Son Bac S en poche en 1997, il poursuit donc naturellement avec une prépa Maths. Mais pas n’importe où : au lycée Louis-le-Grand à Paris. « J’ai toujours été éduqué dans cette optique qu’il fallait aussi grandir et se former hors du cocon familial », explique-t-il. Ses frères et sœurs ont d’ailleurs fait pareil.
En 1999, l’étudiant décide de poursuivre ses études à l’ENS Paris. « Pour le prestige de l’école, mais surtout parce que je me voyais dans un rôle de fonctionnaire au service des autres ». C’est finalement un hasard qui va ajuster sa trajectoire. Un camarade qui le connaît bien lui parle du Master Acoustique, Traitement du signal et Informatique Appliqués à la Musique (ATIAM) de l’Ircam. Pourquoi la musique ? Parce qu’il a joué de la harpe au conservatoire de l’âge de 7 ans jusqu’à ses 16 ans. « Ce Master était idéal car il me permettait d’allier les maths à ma passion et surtout de toucher à quelque chose de plus concret », se souvient-il. Entré à l’Ircam en 2000, il a le sentiment d’avoir trouvé sa voie. Il poursuit donc par une thèse sur la séparation des sources musicales qu’il soutient en 2004 au laboratoire Sciences et Technologies de la Musique et du Son (STMS). S’ensuivent deux années de post-doctorat à la Queen Mary University of London qui lui permettent, en plus d’améliorer son anglais, d’élargir ses compétences au codage audio à très bas débit pour la musique.
De la musique à la voix
À son retour en France, Emmanuel Vincent tente les concours de chercheurs et décroche en 2006 un poste à Inria de Rennes. Son sujet de recherche ? Toujours la séparation de sources audio dans le domaine musical. Six ans plus tard, alors père de famille, il décide de retourner vivre à Nancy. À Inria au sein de l’équipe Multispeech du LORIA, ses recherches évoluent alors doucement vers le traitement des sons véhiculant cette fois la parole. Il se consacre alors pleinement à l’organisation de défis scientifiques annuels baptisés CHiME – auxquels il participe lui-même – pour faire progresser sa thématique de recherche. Centrées sur la reconnaissance de commandes vocales dans un environnement bruyant, ces expérimentations ont permis au fil des ans de réduire drastiquement le taux d’erreur sur les mots retranscrits par les logiciels de reconnaissance vocale. Avec d’autres membres de l’équipe il conçoit même le premier algorithme dédié à la séparation de sources audio multicanales mettant à profit l’apprentissage profond.
La recherche oui, mais au service du collectif
En 2016, après plusieurs tentatives, il décroche un poste de directeur de recherche. Il a alors 37 ans. « C’était l’évolution logique, explique-t-il. Et avec les années, je souhaitais faire de la recherche autrement, avec plus de liberté et de recul ». Entre 2018 et 2021, il coordonne le projet européen COMPRISE (COst-effective, Multilingual, PRIvacy-driven voice-enabled SErvices) qui développe une interface vocale multilingue à la fois simple d’utilisation et préservant la vie privée des utilisateurs. Son ex-doctorant, Brij Mohan Lal Srivastava, qui a conçu l’outil d’anonymisation de la voix au cœur du projet, rejoint le programme Inria Startup Studio afin de créer la startup Nijta qui commercialisera cet outil pour différents usages (centres d’appels, médias, interfaces vocales…). Emmanuel Vincent devrait également s’impliquer dans cette structure, probablement en tant que conseiller scientifique.
« Plus l’apprentissage profond est devenu omniprésent, plus les questions de vie privée sont devenues saillantes », analyse-t-il. C’est pourquoi ses recherches se concentrent désormais sur le développement de méthodes d’apprentissage destinées à protéger les caractéristiques de la voix, qui est une donnée personnelle sensible. Mais faire de la recherche seul dans son coin, très peu pour lui. Toujours avec l’idée, qu’il avait déjà plus jeune, d’être utile aux autres, il consacre désormais la moitié de son temps au centre Inria Nancy – Grand Est en tant que délégué scientifique. Il multiplie les actions qui profitent au collectif : suivi de l’évolution des équipes, aide au montage de projets, organisation de défis scientifiques… En matière d’intelligence artificielle, il est également responsable scientifique du partenariat entre Inria et l’institut de recherche allemand DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz). « Ce couple franco-allemand a un rôle important à jouer. Car, dans ce domaine-là comme dans d’autres, on ne peut pas y arriver seul », conclut-il.
Laure Blancard
Image en Une : Crédit photo – Emmanuel Vincent