
InstaDeep annonce un outil qui prédit la dangerosité des nouveaux variants du virus Sars-Cov-2
⏱ 3 minNée à Tunis et désormais installée à Londres, InstaDeep est devenue un acteur prometteur de l’IA « décisionnelle ». En partenariat avec BioNTech, elle a mis au point un outil qui évalue chaque nouveau variant du virus Sars-Cov-2 et prédit ses chances de prendre le dessus.
En 2014, la start-up InstaDeep est fondée à Tunis par Karim Beguir et Zohra Slim « avec 5000 dinars [environ 1500 €] et deux ordinateurs », précisent-ils à l’hebdomadaire Jeune Afrique. Son P-dg, Karim Beguir, diplômé de l’École Polytechnique, est ensuite passé par l’Ensae Paris et la New York University. Dans le rôle du CTO (Chief Technical Officer), Zohra Slim est une informaticienne autodidacte.
Mais un an après sa création, InstaDeep Limited s’installe à Londres. Aujourd’hui, elle se présente comme « un leader […] des produits d’IA décisionnels pour l’entreprise. », avec des bureaux à Paris, Tunis, Lagos, Dubaï et Le Cap. Elle revendique des clients et partenaires aussi prestigieux que Deutsche Bahn, Nvidia, Intel, DeepMind, Google et… BioNTech. Et ce 25 janvier, elle annonce le bouclage d’une levée de fonds de cent millions de dollars, à laquelle ont participé Deutsche Bahn, Google et BioNTech.
IA ET MODÉLISATION BIOSTRUCTURELLE : UNE ALLIANCE EFFICACE
BioNTech, c’est cette fameuse start-up allemande fondée en 2008 par un couple de chercheurs en médecine d’origine turque, Uğur Şahin et Özlem Türeci, et qui a mis au point un certain vaccin à ARNm, le BNT162b2, alias Tozinaméran. Conçu en janvier 2020, fabriqué par Pfizer et commercialisé dès décembre 2020 au Royaume-Uni, le vaccin Pfizer–BioNTech est devenu, avec son concurrent lancé par Moderna, l’une des armes les plus efficaces pour endiguer la pandémie de Covid-19 et a sauvé un nombre considérable de vies.
Dès novembre 2020, InstaDeep avait signé avec BioNTech un accord de collaboration et formé un « AI Innovation Lab » pour développer de nouvelles immunothérapies. Cette collaboration s’est vite orientée également vers la conception d’un outil d’évaluation des « variants » du Sars-Cov-2. Un système d’alerte capable de détecter au plus tôt les variants à haut risque du virus, et qui a été rendu public le 14 janvier dernier par InstaDeep et BioNTech. Dénommé “Early Warning System” (EWS), cet outil qui fait l’objet d’une publication1 en preprint aurait déjà identifié l’année dernière « douze des treize variants mis sous surveillance par l’OMS, en moyenne deux mois avant leur signalement », revendiquent ses concepteurs.
Pour obtenir ce résultat, EWS combine modélisation biostructurelle et intelligence artificielle. Par « modélisation biostructurelle », il faut comprendre que cet outil simule numériquement, en 3D, “in silico”, l’interaction entre la protéine S (pour spike, spicule, en français) de chaque variant du virus, reconstituée à partir de sa séquence ARN, avec le récepteur ACE-2, présent à la surface de nos cellules et servant de porte d’entrée pour le Sars-Cov-2. Deux scores sont attribués à chaque variant ainsi testé. Le premier estime la facilité avec laquelle cette nouvelle protéine S s’accroche au récepteur ACE-2, et donc la capacité du variant à infecter nos cellules. Le second évalue la capacité des anticorps fabriqués par notre système immunitaire (suite à vaccination ou après contamination) à se fixer sur cette protéine S. Il mesure donc l’efficacité des anticorps à neutraliser ce variant. Ces deux scores représentent respectivement la capacité d’infection du variant et sa capacité d’évasion au système immunitaire.
DÉTECTION PRÉCOCE DES VARIANTS À HAUT RISQUE
Mais le système EWS évalue également chaque variant d’une autre manière, à l’aide d’un outillage relevant de l’apprentissage profond. Il fait appel à un modèle de langage bien connu, BERT (Bidirectional Encoder Representations from Transformers), proposé par Google en 2018. InstaDeep a entraîné son modèle BERT en le nourrissant des milliers de séquences d’acides aminés constituant la protéine S des variants du virus connus et engrangées dans la base de données open source GISAID mise à jour par la communauté scientifique. Drôle de texte, pour un modèle de langage, mais l’approche a déjà été validée. Peu de détails ont filtré sur le fonctionnement de ce modèle, qui à partir de la séquence d’acides aminés de la protéine S d’un nouveau variant estime sa capacité à infecter nos cellules et à échapper au système immunitaire. Cette analyse débouche sur deux scores supplémentaires.
Les quatre scores obtenus à l’issue des deux analyses d’un nouveau variant, par modélisation biostructurelle et IA, sont combinés pour obtenir deux scores agrégés. L’un, appelé “fitness prior score”, estime son aptitude à s’accrocher au récepteur ACE-2, sa capacité à infecter nos cellules, et donc ses chances de faire mieux que les variants déjà en compétition. L’autre, le “immune escape score” évalue sa capacité d’échappement au système immunitaire et donc à s’installer chez de nouveaux patients pourtant immunisés. Enfin, un score global est calculé pour chaque nouveau variant, qui estime ses chances de prendre le dessus.
Et voilà comment EWS aurait « détecté Omicron comme un variant à haut risque le jour même de la publication de sa séquence génétique », selon le communiqué d’InstaDeep. Espérons que l’outil développé par InstaDeep aidera les instances médicales et politiques concernées à gérer l’apparition du prochain variant.
Pierre Vandeginste
1. Karim Beguir et al. “Early Computational Detection of Potential High Risk SARS-CoV-2 Variants”. Preprint bioRxiv 2021. doi