logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
Menu
mobile logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
9 septembre 2021
A la Une, DAP, Innovation en action, News
#coronavirus, #covid, #ia, #NLP

Quand le NLP aide à décrypter les mutations du coronavirus

⏱ 3 min

Des chercheurs du MIT ont adapté un modèle conçu pour le traitement du langage à l’analyse des séquences de protéines virales. Objectif : prédire dans quelle mesure certaines mutations permettraient au virus d’échapper au système immunitaire.

Et si les outils d’intelligence artificielle qui excellent aujourd’hui dans le traitement des langues (Natural Language Processing, NLP) pouvaient servir à décrypter le langage de… la biologie?  C’est le rêve qu’effleure une équipe de chercheurs du MIT dans un article¹ publié en juin dans la prestigieuse revue Science. Ils ont conçu un modèle de langue capable d’analyser les mutations sur des protéines virales, pour tenter de prédire si ces dernières permettaient au virus de déjouer l’action des anticorps du système immunitaire humain – un processus connu sous le nom d’échappement immunitaire.

Les protéines sont des molécules-clés dans tous les mécanismes cellulaires. « L’idée est d’appliquer des modèles d’apprentissage profond habituellement entraînés sur des langues comme l’anglais ou le français, aux séquences biologiques des protéines, qui sont constituées d’une suite de briques de base appelées acides aminés », expose François Coste, chercheur Inria et membre de l’équipe DyLiSS à l’Irisa de Rennes, qui n’a pas pris part à ces travaux. Là où ces outils permettent d’habitude de rapprocher des mots de sens proches par le biais d’une représentation mathématique appelée espace latent, les chercheurs espèrent ici rapprocher des séquences protéiques qui auraient des fonctions similaires. Pour reprendre l’analogie des chercheurs du MIT, les acides aminés deviennent ainsi l’équivalent des mots, et la protéine celui de la phrase.

Étudier l’échappement immunitaire du virus

Au lieu de millions de phrases, le modèle proposé a ainsi été entraîné sur des milliers de séquences, et donc de mutations, de protéines présentes à la surface de trois virus différents : la glycoprotéine du VIH (60 000 séquences), l’hémagglutinine de la grippe (45 000) et la fameuse protéine Spike du Sars-Cov-2 (entre 3 000 et 4 000). Les variants étant plus rares pour ce dernier virus étant donné sa relative jeunesse. Parmi ces mutations, la plupart sont bénignes tandis que certaines confèrent une capacité d’échappement plus ou moins élevée au virus.

Les chercheurs ont utilisé une architecture de réseau de neurones appelée Long Short Term Memory (LSTM) moins complexe que les modèles correspondant à l’état de l’art, de type transformer comme GPT-3. « Bien que plus ancienne, cette architecture nécessite moins d’exemples pour atteindre de bonnes performances », nous expliquent par email Bryan Bryson et Brian Hie, deux coauteurs de la publication. « Avec les transformers, la construction d’un modèle peut s’avérer extrêmement longue et gourmande en calcul, donc l’usage d’une architecture LSTM pour établir cette preuve de concept fait sens », confirme François Coste. Une fois le modèle construit, les chercheurs ont tenté d’identifier les mutations permettant un échappement viral en partant de l’hypothèse suivante : « Ce sont celles qui préservent la contagiosité mais qui confèrent au virus un aspect différent vis à vis du système immunitaire, de la même manière qu’un changement de mot préserverait la correction grammaticale d’une phrase mais changerait sa signification », écrivent les auteurs.

Des prédictions de mutations encourageantes

Pour tester l’efficacité des prédictions de leur modèle, les chercheurs lui ont ensuite soumis de nouvelles mutations étudiées en laboratoire et non utilisées pour la phase d’entraînement. La faculté de prédiction du modèle était ainsi notée entre 0,5 (pas meilleur que le hasard) et 1 (s’il donnait une prédiction correcte à tous les coups). Leurs résultats s’échelonnent entre 0,69 pour une souche de VIH et 0,85 pour une souche de Coronavirus. « Ce qui est plus performant que d’autres modèles de l’état de l’art que nous avons testés en parallèle », affirment Bryan Bryson et Brian Hie.

Des résultats encourageants susceptibles d’accélérer la recherche médicale, « notamment pour réduire le champ des mutations à surveiller en laboratoire », prévoient les auteurs. Depuis cette publication, ils ont par exemple utilisé leur modèle pour identifier de nouvelles mutations intéressantes du Sars-Cov-2. Dans une prépublication de ce travail (non encore relue par des pairs), ils déclarent notamment avoir identifié une mutation de la protéine Spike (S494P), dont il a été par la suite confirmé expérimentalement qu’elle induisait une plus faible neutralisation virale par des anticorps dont l’usage est approuvé en traitement clinique.

Enrichir le modèle de données biochimiques

Cependant, malgré ses promesses, le modèle a ses limites. « L’hypothèse selon laquelle seule une modification majeure dans la sémantique de la séquence lui donnerait la capacité d’échapper au système immunitaire n’est pas suffisamment étayée, relève François Coste. Le modèle pourrait ainsi passer à côté de mutations dangereuses mais minimes en termes d’impacts sur la sémantique. À l’inverse, il peut aussi prédire des mutations dangereuses qui ne le seront pas dans le vrai monde. »

« Notre modèle est seulement susceptible de reconnaître des modes d’échappement liés aux mutations, reconnaissent également Brian Hie et Bryan Bryson, mais pas à d’autres paramètres comme les changements post-translationnels. Nous aimerions donc enrichir le modèle de données biochimiques ou structurelles à l’avenir. »

Ces travaux illustrent en tout cas la percée du deep learning dans la biologie. « Adapter des modèles de langue à la prédiction des fonctions biologiques de protéines est un champ de recherche en pleine explosion », confirme François Coste, dont l’équipe travaille sur des sujets connexes. Début 2021, le modèle Alphafold-2, développé par DeepMind, filiale de Google, s’est montré capable de prédire le repliement spatial de protéines d’après leur séquence d’acides aminés – un problème qui occupe les biologistes depuis des décennies – avec une précision inédite.

Hugo Leroux

1. Brian Hie et al., “Learning the language of viral evolution and escape”, Science, 2021. doi.org

Termes liés :
  • Intelligence artificielle (IA)
  • Deep learning
  • Biais
  • Réseau de neurones
  • Données
Tags: #coronavirus, #covid, #ia, #NLP
Share:
Posts you'd might like
En attendant l’ordinateur quantique universel…
L’IA teste ses premiers algorithmes quantiques
Les promesses de l’IA quantique
La recherche à l’assaut des deepfakes vocaux
Recyclage : nos déchets sous l’œil de l’IA
Stéphane Canu :
au service de l’IA et de la mobilité de demain
DAP, la newsletter du Data Analytics Post Recevez chaque semaine un éclairage sur les data science

Peut-on laisser un algorithme apprendre tout seul ?

A la différence de l’apprentissage supervisé, le contexte non supervisé est celui où l’algorithme doit opérer à partir d’exemples non annotés.

En savoir plus

ARTICLES RÉCENTS
  • En attendant l’ordinateur quantique universel…
  • L’IA teste ses premiers algorithmes quantiques
  • Les promesses de l’IA quantique
  • La recherche à l’assaut des deepfakes vocaux
  • Recyclage : nos déchets sous l’œil de l’IA

Tout savoir sur…

Le DAP

Comité Éditorial

Partenaires

Équipe


Copyright © Data Analytics Post. Tous droits réservés.

Mentions légales & CGU