
Quand le NLP aide à décrypter les mutations du coronavirus
⏱ 3 minDes chercheurs du MIT ont adapté un modèle conçu pour le traitement du langage à l’analyse des séquences de protéines virales. Objectif : prédire dans quelle mesure certaines mutations permettraient au virus d’échapper au système immunitaire.
Et si les outils d’intelligence artificielle qui excellent aujourd’hui dans le traitement des langues (Natural Language Processing, NLP) pouvaient servir à décrypter le langage de… la biologie? C’est le rêve qu’effleure une équipe de chercheurs du MIT dans un article¹ publié en juin dans la prestigieuse revue Science. Ils ont conçu un modèle de langue capable d’analyser les mutations sur des protéines virales, pour tenter de prédire si ces dernières permettaient au virus de déjouer l’action des anticorps du système immunitaire humain – un processus connu sous le nom d’échappement immunitaire.
Les protéines sont des molécules-clés dans tous les mécanismes cellulaires. « L’idée est d’appliquer des modèles d’apprentissage profond habituellement entraînés sur des langues comme l’anglais ou le français, aux séquences biologiques des protéines, qui sont constituées d’une suite de briques de base appelées acides aminés », expose François Coste, chercheur Inria et membre de l’équipe DyLiSS à l’Irisa de Rennes, qui n’a pas pris part à ces travaux. Là où ces outils permettent d’habitude de rapprocher des mots de sens proches par le biais d’une représentation mathématique appelée espace latent, les chercheurs espèrent ici rapprocher des séquences protéiques qui auraient des fonctions similaires. Pour reprendre l’analogie des chercheurs du MIT, les acides aminés deviennent ainsi l’équivalent des mots, et la protéine celui de la phrase.
Étudier l’échappement immunitaire du virus
Au lieu de millions de phrases, le modèle proposé a ainsi été entraîné sur des milliers de séquences, et donc de mutations, de protéines présentes à la surface de trois virus différents : la glycoprotéine du VIH (60 000 séquences), l’hémagglutinine de la grippe (45 000) et la fameuse protéine Spike du Sars-Cov-2 (entre 3 000 et 4 000). Les variants étant plus rares pour ce dernier virus étant donné sa relative jeunesse. Parmi ces mutations, la plupart sont bénignes tandis que certaines confèrent une capacité d’échappement plus ou moins élevée au virus.
Les chercheurs ont utilisé une architecture de réseau de neurones appelée Long Short Term Memory (LSTM) moins complexe que les modèles correspondant à l’état de l’art, de type transformer comme GPT-3. « Bien que plus ancienne, cette architecture nécessite moins d’exemples pour atteindre de bonnes performances », nous expliquent par email Bryan Bryson et Brian Hie, deux coauteurs de la publication. « Avec les transformers, la construction d’un modèle peut s’avérer extrêmement longue et gourmande en calcul, donc l’usage d’une architecture LSTM pour établir cette preuve de concept fait sens », confirme François Coste. Une fois le modèle construit, les chercheurs ont tenté d’identifier les mutations permettant un échappement viral en partant de l’hypothèse suivante : « Ce sont celles qui préservent la contagiosité mais qui confèrent au virus un aspect différent vis à vis du système immunitaire, de la même manière qu’un changement de mot préserverait la correction grammaticale d’une phrase mais changerait sa signification », écrivent les auteurs.
Des prédictions de mutations encourageantes
Pour tester l’efficacité des prédictions de leur modèle, les chercheurs lui ont ensuite soumis de nouvelles mutations étudiées en laboratoire et non utilisées pour la phase d’entraînement. La faculté de prédiction du modèle était ainsi notée entre 0,5 (pas meilleur que le hasard) et 1 (s’il donnait une prédiction correcte à tous les coups). Leurs résultats s’échelonnent entre 0,69 pour une souche de VIH et 0,85 pour une souche de Coronavirus. « Ce qui est plus performant que d’autres modèles de l’état de l’art que nous avons testés en parallèle », affirment Bryan Bryson et Brian Hie.
Des résultats encourageants susceptibles d’accélérer la recherche médicale, « notamment pour réduire le champ des mutations à surveiller en laboratoire », prévoient les auteurs. Depuis cette publication, ils ont par exemple utilisé leur modèle pour identifier de nouvelles mutations intéressantes du Sars-Cov-2. Dans une prépublication de ce travail (non encore relue par des pairs), ils déclarent notamment avoir identifié une mutation de la protéine Spike (S494P), dont il a été par la suite confirmé expérimentalement qu’elle induisait une plus faible neutralisation virale par des anticorps dont l’usage est approuvé en traitement clinique.
Enrichir le modèle de données biochimiques
Cependant, malgré ses promesses, le modèle a ses limites. « L’hypothèse selon laquelle seule une modification majeure dans la sémantique de la séquence lui donnerait la capacité d’échapper au système immunitaire n’est pas suffisamment étayée, relève François Coste. Le modèle pourrait ainsi passer à côté de mutations dangereuses mais minimes en termes d’impacts sur la sémantique. À l’inverse, il peut aussi prédire des mutations dangereuses qui ne le seront pas dans le vrai monde. »
« Notre modèle est seulement susceptible de reconnaître des modes d’échappement liés aux mutations, reconnaissent également Brian Hie et Bryan Bryson, mais pas à d’autres paramètres comme les changements post-translationnels. Nous aimerions donc enrichir le modèle de données biochimiques ou structurelles à l’avenir. »
Ces travaux illustrent en tout cas la percée du deep learning dans la biologie. « Adapter des modèles de langue à la prédiction des fonctions biologiques de protéines est un champ de recherche en pleine explosion », confirme François Coste, dont l’équipe travaille sur des sujets connexes. Début 2021, le modèle Alphafold-2, développé par DeepMind, filiale de Google, s’est montré capable de prédire le repliement spatial de protéines d’après leur séquence d’acides aminés – un problème qui occupe les biologistes depuis des décennies – avec une précision inédite.
Hugo Leroux
1. Brian Hie et al., “Learning the language of viral evolution and escape”, Science, 2021. doi.org