Les données, fer de lance de la lutte contre la pandémie de Covid-19
⏱ 4 minMobilisée, la communauté des data sciences multiplie les initiatives dans la lutte contre le Covid-19. Elle participe à la compréhension du virus et de sa propagation en vue de fournir des outils à l’action publique et de concevoir un arsenal diagnostique et pharmacologique.
La pandémie de Covid-19 a provoqué une mobilisation générale des hommes et institutions ayant vocation à sauver des vies. Au XIVe siècle, on se battait dans le noir contre la peste bubonique : la bactérie Yersinia pestis ne fut identifiée qu’en 1894. De nos jours, la médecine s’appuie sur la science, outillée pour réagir. Le virus SARS-CoV-2 a été séquencé en Chine six semaines après la détection du premier cas de Covid-19. Virologie, immunologie, pharmacologie, épidémiologie… les sciences de la vie ont été les premières à se mobiliser, avec pour toutes un besoin impérieux de quantifier, modéliser, simuler… Au XXIe siècle, les sciences du vivant brassent des données. C’est pourquoi les data sciences sont montées au front.
Les connaissances en accès libre
Premier réflexe de la communauté scientifique : si la compétition entre équipes est fertile, il est essentiel d’échanger, de partager données et connaissances à mesure qu’elles sont collectées ou engendrées. Le monde de l’édition scientifique, des prestigieuses revues Science et Nature aux publications les plus spécialisées, a rapidement mis en accès libre tout ce qui concernait le virus et la pandémie. Côté sciences de l’information, l’ACM – Association for Computing Machinery – a elle ouvert en grand l’accès à sa bibliothèque numérique (dl.acm.org). Sous la houlette du Allen Institute for AI, l’initiative CORD-19 a proposé un guichet unique (www.semanticscholar.org/cord19) pour accéder à toute la littérature publiée sur la pandémie (57 000 articles à la fin avril).
Les données elles-mêmes, relatives à l’épidémie et au virus, devaient être largement accessibles à toutes les équipes. L’université Johns Hopkins a été la plus réactive pour agréger les données brutes sur la pandémie provenant des quatre coins de la planète et fournir au monde entier un tableau de bord (coronavirus.jhu.edu). En Europe, le European Bioinformatics Institute (EMBL-EBI, rattaché au Laboratoire européen de biologie moléculaire) a mis en place le SARS-CoV-2 Data Hubs, qui collecte et traite le flux de données concernant la pandémie. En France, c’est l’initiative OpenCOVID19-fr (github.com/opencovid19-fr) qui joue ce rôle.
Un combat mondial
Les données concernant le virus lui-même sont évidemment une matière première essentielle dans ce combat. En Europe, le même EMBL-EBI a créé le Covid-19 Data Portal (www.covid19dataportal.org), qui rassemble les données génomiques concernant l’ARN du virus, ses protéines, le récepteur ACE2, sa première porte d’entrée dans l’organisme… ainsi que d’autres ressources et outils. Côté états-unien, le NCBI (National Center for Biotechnology Information, qui dépend du NIH) propose un répertoire des séquences ARN (www.ncbi.nlm.nih.gov/genbank/sars-cov-2-seqs) des souches du SARS-CoV-2 de toutes origines. En Chine, ce type d’information est disponible auprès du China National Center for Bioinformation (bigd.big.ac.cn/ncov/release_genome).
Un autre type d’initiatives vise à proposer aux chercheurs en sciences des données la puissance de calcul nécessaire à leurs recherches. Ainsi en France, le supercalculateur Jean-Zay de l’IDRIS (www.idris.fr), le centre de calcul intensif du CNRS, consacre l’essentiel de sa puissance (16 pétaflops) à des projets de modélisation moléculaire et d’outils de diagnostic. Aux États-Unis, The COVID-19 High Performance Computing Consortium (covid19-hpc-consortium.org) mobilise des ressources d’IBM, Amazon, Google, Microsoft, Hewlett-Packard, NVidia et bien d’autres acteurs du calcul haute performance, publics (comme le supercalculateur Summit – 200 pétaflops – du Laboratoire national d’Oak Ridge du département de l’énergie) ou privés, pour fournir aux chercheurs travaillant sur le Covid-19 toute la puissance de calcul dont ils ont besoin. Fin avril, une trentaine de projets se partageaient ainsi quelque 400 pétaflops.
Plus étonnant, Folding@home a également décidé de prêter main forte (foldingathome.org/covid19) à la lutte contre le Covid-19. Né il y a vingt ans à l’université Stanford, ce projet participatif récupère la puissance inutilisée de milliers d’ordinateurs mis à disposition par des volontaires, particuliers et professionnels, répartis sur la planète, pour travailler sur des problèmes de repliement de protéines ou la recherche de médicaments. Suite à l’annonce de cette mobilisation, le nombre de participants a rapidement dépassé le million et la puissance disponible atteignait déjà courant avril les 2.5 pétaflops.
Des Gafam aux start-up
De nombreuses entreprises, des Gafam aux start-up, ont mis gracieusement à la disposition de cette mobilisation contre le Covid-19 leurs outils numériques, plateformes, algorithmes, bibliothèques… De nombreux spécialistes de la fouille de données, du big data en général, de l’apprentissage automatique et de l’intelligence artificielle, du drug design (ou drug repurposing) in silico ont ainsi offert leurs outils, parfois leur savoir-faire, certains allant jusqu’à s’impliquer dans ce combat.
Reste à exploiter les données disponibles, pour agir. Il s’agit de pétrir les données disponibles à l’aide d’outils numériques existants, ou de nouveaux algorithmes ad hoc, pour analyser cette pandémie, la modéliser, déterminer les paramètres qui favorisent ou freinent son expansion, afin de proposer les meilleures stratégies de confinement et de déconfinement. Et dans le même temps, d’étudier cette nouvelle pathologie et son évolution, pour mettre au point des outils de dépistage et de diagnostic. Enfin, de cerner au plus près ce virus, afin de mettre à jour des molécules capables de le contrer. Nous reviendrons dans de prochains articles sur ces nombreuses initiatives visant à mettre la science des données au service du combat contre le Covid-19.
Image à la une : Modèle 3D du virus SARS-CoV-2 © Scientific animations © Wikimedia Commons