L’IA décrypte la toux des cas Covid-19
⏱ 4 minLes personnes touchées par le Covid-19 ne toussent pas comme les autres. Des équipes font appel à l’apprentissage automatique pour réaliser des modèles visant à dépister le Covid-19 à partir d’un enregistrement de toux.
L’idée d’interpréter la toux pour établir un diagnostic est ancienne. Bien avant que l’IA n’offre ses services, les médecins apprenaient au cours de leurs études à reconnaître chez leurs patients une toux évoquant la coqueluche ou la tuberculose. Mais la vague numérique en général et l’IA en particulier peuvent aujourd’hui offrir du neuf : un outil de dépistage automatisé, à distance, du Covid-19, à partir d’enregistrements effectués via un site web ou une appli sur smartphone.
Très logiquement, des équipes ont exploré le sujet dès que la menace de pandémie s’est confirmée au début de l’année 2020. Il semble que le premier résultat encourageant ait été obtenu par une équipe de l’université de l’Oklahoma, qui a publié en juin des travaux montrant qu’il était possible de décider si une toux signale un Covid-19 plutôt qu’autre chose. Depuis, d’autres équipes ont rendu public des efforts dans cette direction. Notamment au MIT (Massachusetts Institute of Technology), mais aussi à l’université de Cambridge (projet COVID-19 Sounds), à l’École polytechnique fédérale de Lausanne (EPFL), ou encore à l’institut Wadhwani pour l’intelligence artificielle de Mumbai, en Inde (Cough Against Covid).
Des travaux sur la maladie d’Alzheimer
Le travail le plus remarqué fut celui du MIT, pré-publié en août par des chercheurs du Auto-ID Lab, réputé pour ses avancées dans le domaine des objets connectés, et qui revendique même l’invention de l’expression IoT (Internet of Things). Avant la pandémie, son directeur, Brian Subirana, avait déjà montré que l’analyse de la toux pouvait aider à prédire l’apparition de la maladie d’Alzheimer.
L’article¹ publié fin septembre précise que des enregistrements de toux étiquetés, issus de 5 320 patients en tout, ont été utilisés pour mettre au point un modèle reposant notamment sur un réseau neuronal convolutif (CNN). L’apprentissage par transfert (transfer learning) a de plus été mis à profit pour exploiter des connaissances déjà acquises sur les biomarqueurs sonores au cours de travaux précédents visant à dépister la maladie d’Alzheimer. Au final, le modèle de cette équipe afficherait une sensibilité de 98,5 % et une spécificité de 94,2 %. Ce qui est prometteur… L’équipe développe une application de dépistage pour smartphone intégrant ce modèle.
Des objets connectés près du corps
À l’EPFL, le projet Coughvid a également été lancé dans un contexte IoT. Le laboratoire ESL (Embedded Systems Laboratory), dirigé par David Atienza Alonso, s’y intéresse notamment aux algorithmes et à l’apprentissage automatique efficaces énergétiquement, et à la conception d’objets connectés et « wearable », c’est-à-dire portés près du corps au quotidien. « Notre laboratoire conçoit entre autres des dispositifs portables, « wearable », destinés à la surveillance de paramètres biologiques pertinents pour le diagnostic ou le suivi de certaines pathologies, explique Tomas Teijeiro, qui anime le projet Coughvid. Nous suivions les travaux concernant l’analyse audio de la toux dans le cadre de pathologies comme la tuberculose, la coqueluche ou encore l’asthme. L’irruption de la pandémie nous a amené très logiquement à envisager d’appliquer la même approche au Covid-19. »
Le premier problème rencontré, explique le chercheur, fut l’absence de base de données publique exploitable. « Nous avons donc entrepris de collecter nous-même des échantillons de toux. Pour cela nous avons créé un site web faisant appel au public, selon le principe du crowdsourcing. C’est ainsi que nous disposons aujourd’hui d’une collection de 24 000 enregistrements de toux. Mais nous nous sommes également tournés vers Unisanté, le Centre universitaire de médecine générale et santé publique de Lausanne. Nous avons ainsi obtenu des enregistrements de toux chez des cas confirmés de Covid-19, mais aussi 3 000 échantillons de toux étiquetés par des médecins. »
Pas d’apprentissage profond pour les Suisses
Contrairement à l’équipe du MIT, les chercheurs suisses n’ont pas utilisé de réseaux de neurones. « Nous sommes très préoccupés par la question de l’interprétabilité, et c’est pourquoi nous n’avons pas fait appel à l’apprentissage profond. À l’issue d’une analyse spectrale, qui permet d’extraire des « features« , des traits pertinents, nous utilisons la méthode de l’amplification de gradient (gradient boosting), pour obtenir un classifieur capable de distinguer les toux en relation avec un Covid-19 et les autres. Nous ne nous interdisons pas d’utiliser des réseaux de neurones par la suite. »
Que vaut le modèle développé par l’équipe de Lausanne ? « Nous obtenons actuellement un AUC (Area Under the Curve) de 0,7. Ce qui n’est pas si mal. Mais l’équipe du MIT a obtenu un AUC de 0,97… » L’AUC est un indice synthétique pour mesurer la performance d’un classifieur. Il dit dans quelle mesure un modèle est capable de distinguer des classes. Un modèle idéal affiche un AUC égal à 1, alors qu’un modèle aléatoire, qui répond au hasard, obtient un 0,5. On considère habituellement qu’un modèle est intéressant à partir de 0,7.
Collaborer davantage avec les médecins
Mais pour mieux cerner les performances d’un classifieur « dichotomique », on s’intéresse généralement à deux chiffres : sa sensibilité (probabilité de détecter un réel cas de Covid) et sa spécificité (probabilité de déclarer comme telle une personne non Covid). « Nous pouvons paramétrer notre modèle pour privilégier la sensibilité ou la spécificité, assure Tomas Teijeiro. Nous pouvons ainsi obtenir une spécificité de 97,5 %, mais au prix d’une sensibilité réduite à 40 %. Si nous cherchons à augmenter la sensibilité jusqu’à 70%, par exemple, alors la spécificité tombe à 60 ou 70 %. Or, pour dépister une maladie au sein d’une vaste population, vous avez d’abord besoin d’une spécificité élevée. »
L’équipe de Lausanne travaille à améliorer les performances de son modèle. « Nous avons entre autres besoin de plus de collaboration avec des médecins. Cela dit, même si nous obtenons une meilleure sensibilité, nous devons rester prudents. Nous réfléchissons à la manière d’utiliser un tel outil de dépistage. Nous travaillons sur une éventuelle appli pour smartphone. »
Vie privée et sobriété énergétique
Pour Tomas Teijeiro et son laboratoire, le Covid-19 n’est qu’un cas particulier. « Nous explorons le potentiel du monitoring de la toux et des sons d’origine respiratoire, à l’aide de dispositifs « wearable« . Notamment pour le suivi de maladies chroniques. Dans ce contexte, la quantification devient importante. » Se pose bien entendu la question de la préservation de la vie privée. « Nous voulons pouvoir assurer le patient qu’un tel dispositif n’enregistrerait que les sons médicalement pertinents (toux, respiration…) et non ses conversations. Pour cela, le dispositif doit analyser en continu le son capté, afin d’exclure tout ce qui relève de la parole, ce qui pose un défi en matière de sobriété énergétique. »
Au-delà de la toux, l’analyse des sons produits par un patient est une piste prometteuse explorée par de nombreuses équipes. Il peut s’agir de la voix, captée par un simple micro, ou de sons plus profonds, acquis via un capteur placé par exemple au niveau du larynx. Dépistage, diagnostic ou suivi d’une pathologie, c’est tout une symptomatologie sonore que l’IA apprend à décrypter.
1. J. Laguarta, F. Hueto and B. Subirana, « COVID-19 Artificial Intelligence Diagnosis using only Cough Recordings, » in IEEE Open Journal of Engineering in Medicine and Biology, doi: 10.1109/OJEMB.2020.3026928.