Le NLP pour analyser la littérature sur les impacts climatiques et cartographier les conséquences du réchauffement global
⏱ 4 minEn triant, à l’aide d’un modèle de langage BERT, quelque cent mille études sur les impacts constatés du réchauffement global, et en les confrontant à des modèles d’évolution du climat, des chercheurs allemands ont cartographié les conséquences avérées du dérèglement climatique. Un effort de classification sans précédent qui révèle l’ampleur du phénomène.
À la veille de la conférence COP26 de Glasgow, deux ONG ont présenté une cartographie mondiale des impacts déjà avérés du changement climatique. Dans un article publié1 dans Nature Climate Change en octobre dernier, des chercheurs du Mercator Research Institute on Global Commons and Climate Change, et de Climate Analytics, deux organismes à but non lucratif, montrent que ces impacts affectent au moins 80 % des terres émergées et 85 % de la population mondiale. Pour réaliser cette méta-analyse, ils ont trié et classifié, grâce à un modèle d’apprentissage profond spécialisé dans le traitement du langage naturel (NLP), quelque 600 000 publications traitant des impacts climatiques. « À notre connaissance, aucune analyse n’a jamais été réalisée à une aussi grande échelle », pointe Quentin Lejeune, climatologue chez Climate Analytics et co-signataire de la publication.
Cette approche cherche à résoudre un épineux problème : la littérature sur le changement climatique a vu son volume croître de manière exponentielle ces dernières années, rendant toute tentative d’analyse humaine de plus en plus impraticable ou parcellaire. Selon les auteurs, le nombre d’études publiées sur le sujet a été multiplié par 100 depuis 1990. Nous serions entrés dans l’ère de la “Big Litterature”. La matière première exploitée par les chercheurs est ainsi constituée de quelque 601 677 études observationnelles susceptibles de documenter des impacts du changement climatique, qu’ils ont sélectionnées via des recherches classiques par mots-clés sur les moteurs de recherche Web of Science et Scopus.
Pour trier cette montagne de données, les chercheurs ont adapté un modèle de traitement du langage naturel (NLP) parmi les plus élaborés, BERT (Bidirectional Encoder Representations from Transformers), initialement développé par Google. Ce modèle a été obtenu par entraînement d’un réseau de neurones sur des quantités astronomiques de textes (livres numérisés, Wikipedia…). Lors de cet entraînement, BERT a appris à prédire des mots supprimés volontairement et aléatoirement dans des textes.
SÉLECTIONNER LES PUBLICATIONS PERTINENTES
Les chercheurs ont spécialisé ce modèle dans le domaine plus spécifique du changement climatique en le nourrissant avec un jeu de données relativement réduit de 2725 études sur le climat, préalablement annotées à la main. Pour ce faire, les co-auteurs ont lu le résumé (abstract) de chaque étude et l’ont étiqueté selon différents critères : le type d’impact (inondation, sécheresse, perte de biodiversité, etc.), la zone géographique et les mécanismes à l’œuvre (hausse des températures, de l’humidité, etc.). « C’est un travail de longue haleine qui a occupé le plus clair de notre temps », avoue Quentin Lejeune. Également co-auteur, Max Callaghan, en charge du NLP, précise que « cette spécialisation permet à l’algorithme de fournir une classification plus correcte, mais amène un autre problème lié à notre propre validation. Nous devions notamment être sûrs que cet échantillon de 2725 études était constitué de documents représentatifs ».
Fort de cet entraînement, l’algorithme a ensuite été utilisé pour trier dans le corpus initial de 601 677 études, celles (au nombre de 102 106) qui concernaient réellement des impacts climatiques s’étant déjà produits, en les classant selon les localisations, le type d’impact et les mécanismes en jeu. Ces études documentent des impacts extrêmement variés qui vont de vulnérabilités concernant les populations
Pour vérifier si ces dégâts étaient vraiment attribuables à l’homme, les chercheurs ont ensuite comparé les études ainsi sélectionnées avec les prédictions des modèles climatiques, utilisés par exemple par le GIEC. « Le but était de vérifier, région par région, si les hausses de température ou de précipitations constatées par les études étaient également prévues par les modèles climatiques », explique Quentin Lejeune. Leurs résultats sont présentés sous forme de cartographie (voir Figure) visualisant le degré de corrélation entre les études sélectionnées et les résultats de modélisations. Les corrélations sont très fortes pour certaines zones comme l’Europe ou l’Amérique du Nord, mais plus faibles dans des régions moins développées comme l’Afrique. Comment interpréter cette disparité ? « Cela montre qu’il y a un manque de recherches observationnelles sur ces régions », indique Max Callaghan.
UNE “CARTOGRAPHIE DE PREUVES ASSISTÉE PAR ORDINATEUR”
Ce travail présente néanmoins des limites : le programme de NLP s’est limité à l’analyse des résumés de publications (abstracts), celle des textes entiers risquant de mener à de faux positifs. Surtout, le modèle n’est pas capable d’évaluer le niveau de qualité de chacune de ces études. Ce qui fait dire aux auteurs que cette base de données n’a pas vocation à se substituer aux méta-analyses menées par des experts humains, même si ces dernières sont menées sur un nombre d’études bien plus réduit, comme celle présentée dans le cinquième rapport d’évaluation du GIEC (résumé à l’intention des décideurs du Groupe II dédié aux impacts, p.7), qui s’est concentrée sur quelque 352 études de référence. « L’IA ne remplace pas l’expertise humaine, mais permet d’avoir une vue beaucoup plus large sur la littérature scientifique, ainsi qu’un premier niveau d’analyse aussi fiable que celle que produiraient des humains non spécialistes du sujet », estime Quentin Lejeune.
À l’avenir, l’équipe envisage de mettre cette base de données en ligne et de l’agrémenter d’un moteur de recherche pour permettre aux décideurs de consulter des publications par régions, et aux futurs visiteurs de contribuer en évaluant l’aspect qualitatif des études en question. De façon encore plus ambitieuse, elle souhaite également implémenter des mises à jour automatiques pour classifier les nouveaux articles à mesure qu’ils sont publiés. « Si la science avance en se tenant sur les épaules des géants, en cette époque d’explosion de la littérature scientifique les épaules des géants sont de plus en plus difficiles à atteindre. Notre “cartographie de preuves assistée par ordinateur” peut offrir une courte-échelle », concluent les auteurs.
Hugo Leroux
Image de Une : Tempête Alex dans les Alpes-Maritimes en octobre 2020. © AFP
1. Max Callaghan et al. “Machine-learning-based evidence and attribution mapping of 100,000 climate impact studies”. Nature Climate Change, 2021. doi.org