Le projet Fish-Predict : modéliser et prédire la répartition des espèces de poisson… et leur avenir
⏱ 5 minConcevoir des indicateurs écologiques et des modèles prédictifs de la biodiversité des écosystèmes marins perturbés, grâce à l’IA, c’est l’objet du projet Fish-Predict qui est lancé ces jours-ci dans le cadre du challenge IA-Biodiv de l’Agence Nationale de la Recherche.
La biodiversité est en danger, nous rappelle-t-on régulièrement. Pour inverser cette tendance aux conséquences potentiellement dramatiques, il faut tout d’abord la quantifier, la cartographier, se doter d’outils de modélisation et de prédiction. Lancé en mars 2021 dans le cadre du Plan Biodiversité, le « challenge IA-Biodiv » a pour ambition de soutenir les recherches en intelligence artificielle dans ce champ d’étude. Porté par l’Agence Nationale de la Recherche (ANR) en partenariat avec l’Agence Française de Développement (AFD), cette opération s’appuie également sur un don de Facebook.
La liste des projets retenus a été dévoilée en février dernier. Parmi eux, le projet Fish-Predict, pour prédire la biodiversité des poissons récifaux, vise à mettre au point des indicateurs écologiques et des modèles prédictifs de la biodiversité des écosystèmes marins modifiés par l’homme, anthropisés, en s’appuyant sur les outils de l’IA. David Mouillot, professeur à l’université de Montpellier et chercheur au laboratoire Marbec (Marine Biodiversity, Exploitation & Conservation), en est le coordinateur. « Ce projet s’inscrit dans le prolongement d’efforts que nous poursuivons depuis quinze ans, assure le chercheur. Nous exploitons des données sur les populations de poissons obtenues initialement par comptage humain au cours de plongées ou via des caméras sous-marines. Et nous les traitons depuis quelques temps à l’aide de modèles relevant de l’apprentissage automatique, comme des arbres de régression, des BRT (Boosted Regression Tree, soit “arbre de régression renforcé”), ou encore des forêts aléatoires. »
LES DONNÉES SOUS-MARINES EXPLOITÉES PAR L’IA
« Aujourd’hui, deux révolutions sont en cours, indique David Mouillot. Elles portent sur les méthodes d’acquisition des données et sur leur exploitation. Nous disposons désormais de deux sources de données massives : celles provenant du séquençage génétique d’échantillons d’eau de mer et celles provenant de l’exploitation d’images capturées par des caméra sous-marines. » Les premières sont des données dites de “génomique environnementale” ou métagénomiques. Contrairement aux données visuelles, elles renseignent sur les populations de poissons sans limite de profondeur ni de visibilité. « Au-delà des prélèvements que nous effectuons par nos propres moyens, sur une cinquantaine de sites en Méditerranée, précise le chercheur, nous avons accès, depuis 2017, à des échantillons provenant de mille sites répartis sur la planète. Du pôle Nord au pôle Sud en passant par les tropiques. Il s’agit d’aires protégées, de monts sous-marins, de sites UNESCO, mais aussi de sites surexploités par la pêche bien sûr, comme en Méditerranée. Environ un tiers sont des sites coralliens. Ces prélèvements sont rassemblés dans le cadre de plusieurs programmes internationaux, mais tout est centralisé par l’initiative VigiLife. »
Dans ces prélèvements d’eau de mer, le séquençage haut-débit détecte typiquement un million de séquences d’une soixantaine de bases, qui proviennent de toutes les espèces de vertébrés vivant autour du site de prélèvement. Elles sont fragiles et ne concernent donc que des individus qui sont passés par là peu de temps auparavant. « L’apprentissage profond nous permet de créer des modèles capables d’interpréter ces séquences, explique David Mouillot. Dans la phase d’entraînement, en mode semi-supervisé, le modèle est nourri de séquences d’ADN étiquetées correspondant à des espèces connues pour lesquelles cette information génétique est disponible, mais aussi de séquences que l’on ne sait pas attribuer à une espèce. Sur les 15 000 espèces de poissons marins connus, on dispose de marqueurs génétiques pour environ 3000 d’entre elles, dont près de 500 présentes en Méditerranée. Ainsi entraîné, ce type de modèle est capable de rapprocher les séquences non étiquetées de celles qui sont proches génétiquement et étiquetées, et devient un outil de classification, capable d’identifier toute nouvelle séquence qui lui est soumise, soit en l’attribuant à une espèce précise, soit en la situant par rapport à des espèces proches. »
UN NOUVEL ATOUT : LES IMAGES SATELLITAIRES
L’intelligence artificielle rend par ailleurs service, plus classiquement, en permettant d’automatiser l’identification et le dénombrement de poissons sur des images issues de caméras immergées, grâce à des outils de vision artificielle. Si la caméra sous-marine commence à détrôner le comptage manuel par des plongeurs, elle a créé un goulet d’étranglement en produisant d’énormes quantités d’images, dont l’exploitation nécessite des milliers d’heures de visionnage. Le recours à des volontaires ayant ses limites, la vision artificielle vient à présent simplifier le problème. « Nous avons entraîné nos modèles avec des photographies étiquetées par des étudiants volontaires, environ mille photos par espèce, pour les quelques cinquante espèces communes en Méditerranée et dans l’Océan Indien, précise David Mouillot. »
Mais le volet le plus novateur du projet Fish-Predict vise à confronter, à l’aide de modèles relevant de l’apprentissage profond, des images satellitaires, enrichies de données environnementales, aux données existantes sur la répartition des espèces de poissons. Objectif : produire des cartes prédisant la présence, voire l’abondance, en chaque lieu, de telle ou telle espèce, par la seule interprétation des données satellitaires. Ces travaux sont menés par Alexis Joly, qui est directeur de recherche Inria au Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM), au sein de l’équipe Zenith (Inria/Lirmm/université de Montpellier).
« Les images satellitaires que nous exploitons sont issues de Sentinelle-2, indique le chercheur. Ce duo de satellites en orbite héliosynchrone exploité par l’ESA (Agence Spatiale Européenne) produit tous les cinq jours des images à haute résolution dans treize bandes de fréquence. La résolution est de dix mètres dans les bandes du visible (RVB) et du proche infrarouge que nous exploitons. Ces images satellitaires sont enrichies de données environnementales provenant d’autres sources, satellitaires et terrestres, avec une résolution inférieure, allant jusqu’au kilomètre. Elles concernent la profondeur, la température, les courants, les vents et d’autres données climatiques… »
DE RICHES PERSPECTIVES D’ÉTUDES SUR DES MILLIERS D’ESPÈCES MARINES
« Nous allons travailler sur des images de 64 pixels sur 64, ce qui correspond à une surface de 640 mètres sur 640, indique Alexis Joly. Chaque pixel de ces images étant caractérisé par des valeurs dans les quatre bandes de fréquences (RVB plus proche IR) et des données environnementales, en tout entre dix et quinze paramètres. Avec cette résolution, bien sûr, on ne voit pas les poissons. Ce que l’on voit, c’est leur habitat, parfois le relief sous-marin. Nos modèles interprètent donc non seulement l’information attachée à chaque pixel mais aussi des motifs spatiaux. Dans la phase d’entraînement, chaque image sera étiquetée par l’information à prédire, à savoir la présence ou l’abondance d’espèces de poissons. Cette information sur les espèces proviendra des travaux de l’équipe de David Mouillot au Marbec, reposant sur l’analyse de données de métagénomique et de comptage sur photographies sous-marines par vision artificielle. Mais nous utiliserons aussi des données du GBIF (Global Biodiversity Information Facility), un système mondial d’information sur la biodiversité, financé par les gouvernements, qui agrège et publie en accès libre des données sur toutes les formes de vie sur Terre. »
« Ces travaux commenceront début juin, quand le chercheur en post-doc que nous venons de recruter sera opérationnel, indique Alexis Joly. Nous allons d’abord travailler avec des réseaux de neurones convolutionnels, mais nous testerons par la suite des transformers, qui sont plus sensibles au contexte. Nous prendrons en compte un millier d’espèces, pas seulement de poissons d’ailleurs. Dans la liste on trouve également des crustacés, des mollusques, des algues… Dans un premier temps, nous travaillerons sur la biodiversité côtière. Nous nous intéresserons d’abord à la Méditerranée, et nous prévoyons d’aborder ensuite le Pacifique, sans doute dans deux ans. Une fois entraînés, nos modèles devraient être capables de produire des cartes indiquant des probabilités de présence locale de chaque espèce étudiée. Plus tard, nous envisageons de produire des informations sur l’évolution des populations, de prévoir des déplacements d’espèces, voire leur risque de disparition… »
Pierre Vandeginste
Image de Une : Localisation et identification de poissons récifaux automatisée par apprentissage profond (thèse S. Villon). © Marbec