Ouïe : des applications à la rescousse
⏱ 4 minRetranscrire une discussion, adapter le fonctionnement des implants auditifs en fonction du contexte… des innovations récentes mettent l’IA au service des personnes sourdes ou malentendantes.
Lorsque l’entrepreneur Olivier Jeannel téléphone à ses clients ou à ses proches, son application RogerVoice traite le signal audio pour le convertir, en temps réel, en texte qui s’affiche sur son écran de smartphone, comme un SMS ou un chat. Un atout pour toutes les personnes sourdes et les malentendants. Sa start-up du même nom commercialise l’application principalement auprès des services clients des grandes entreprises et des opérateurs de la Fédération française des télécoms. Elle leur permet de rendre leurs services téléphoniques accessibles à ce public, dont le nombre est estimé à 4 millions en France… Et par la même occasion de se mettre en conformité avec la loi, qui impose l’accessibilité aux personnes sourdes depuis le 7 octobre 2016.
© RogerVoice
Transcription en temps réel
L’application se base sur les progrès de la reconnaissance vocale, déjà utilisée dans les assistants vocaux comme Alexa ou Siri. « Nous ne développons pas la partie IA en propre, mais nous avons consulté toutes les plateformes de reconnaissance vocale du marché avant de sélectionner notre prestataire », assure Olivier Jeannel, sans dévoiler l’identité de ce dernier. Parmi ces plateformes, on trouve Amazon Transcribe, Azure de Microsoft, Cloud Speech-to-Text de Google, VoCon Hybrid de Nuance, ou encore Vocapia. Le cœur de métier de RogerVoice consiste à établir la connexion et à intégrer l’IA pour parvenir à une transcription précise en temps réel. « D’autres entreprises ont développé des solutions comparables avant nous, mais ne répondaient pas forcément aux besoins de utilisateurs. Étant malentendant moi-même, je comprenais bien le cas d’usage, et donc les développements à effectuer », raconte Olivier Jeannel.
RogerVoice collabore avec une autre start-up, AVA, qui propose elle aussi un service de transcription sur smartphone, destinée aux conversations de groupes, et possède un savoir-faire sur la correction automatique de fautes dans la transcription, en s’appuyant sur le contexte de la conversation. « Nous pouvons ainsi atteindre une fiabilité supérieure à 98 % », se félicite Olivier Jeannel. RogerVoice planche maintenant sur un système de reconnaissance des émotions basé sur du machine learning en collaboration avec la start-up Pixis, qui développe un agent conversationnel pour l’orientation des élèves. « Le sens véhiculé par les intonations de la voix nous échappe encore : on ne sait pas sur quel ton la phrase que l’on lit a été prononcé, et quelle intention elle véhicule », observe Olivier Jeannel.
La tâche est ardue, tant la reconnaissance automatique des émotions représente un Graal. Les systèmes les plus aboutis ne peuvent pour l’heure reconnaître qu’une dizaine d’expressions générales telles que la tristesse, la colère ou la joie… « L’apprentissage supervisé a besoin de quantités de données annotées. Or la tâche d’annoter une émotion dans une phrase-exemple est bien plus complexe et subjective que celle d’annoter la présence d’un chien ou d’un chat dans une image ! », remarque Chloé Clavel, chercheuse à Mine ParisTech. Olivier Jeannel déclare néanmoins s’appuyer sur les bases de données ouvertes existantes.
Solutions personnalisées
En dehors de la reconnaissance vocale et de la transcription de texte, les progrès de l’IA peuvent également être mis à profit par les fabricants d’appareils auditifs, pour mieux saisir les habitudes de leurs utilisateurs. C’est ce qu’est en train de déployer la société danoise Oticon avec Kaizn, qui a remporté un prix de l’innovation au CES 2019 dans la catégorie « Logiciels & Applications Mobiles ». Cet assistant personnel peut être intégré dans les appareils de la marque pour adapter leur fonctionnement de manière automatisée en fonction des choix passés de l’utilisateur. Il est à même d’ajuster, par exemple, dans un environnement bruyant comme un restaurant, les niveaux sonores respectifs de la conversation proche et des informations de fond en fonction des habitudes de l’utilisateur.
Il s’agit donc d’un système de recommandation comparable à celui par lequel Spotify recommande de nouvelles chansons en se basant sur les choix et les préférences de ses auditeurs. « Kaizn permettra également d’améliorer de manière globale le son perçu par nos appareils en se basant sur les données de tous les utilisateurs », précise Michael Porsbo, le responsable innovation d’Oticon. D’un point de vue technique, le système repose sur différents types d’algorithmes dans une configuration hybride « utilisant des éléments de la science des données classiques, et des réseaux de neurones avec à la fois de l’apprentissage par transfert et des capacités d’apprentissage en ligne. Nos algorithmes sont développés et testés dans notre centre R&D de Eriksholm, au Danemark, même si nous utilisons des éléments extérieurs comme TensorFlow et Azure en complément », ajoute le responsable technique.
Dans les environnements bruyants, particulièrement problématiques, Orcam, une société israélienne développant un dispositif d’assistance visuelle pour les personnes malvoyantes, développe, elle aussi un système de transcription audio à base de machine learning. Il sera intégré dans les prochaines versions de son boîtier MyEye, adaptable sur des lunettes ou d’autres accessoires. « En particulier, nous cherchons à obtenir de meilleurs résultats sur l’effet cocktail, c’est-à-dire pouvoir discriminer les mots lorsqu’ils y a un brouhaha ambiant. C’est un défi qui mobilise beaucoup de monde actuellement dans la reconnaissance vocale », précise Yonatan Wexler, directeur scientifique d’Orcam.
Hugo Leroux
Illustration à la une © RogerVoice