
Interpréter grâce à l’IA les données moléculaires pour mieux lutter contre chaque cancer
⏱ 6 minGrâce au séquençage haut débit, les chercheurs disposent désormais d’une kyrielle de précieuses données moléculaires pour comprendre les mécanismes en jeu dans le développement de chaque cancer. Encore faut-il apprendre à faire parler ces données. C’est le but que poursuit l’unité de bio-informatique Cancer et Génome de l’Institut Curie à Paris, en faisant appel à l’intelligence artificielle. Entretien avec Emmanuel Barillot, son directeur.
De quelles données moléculaires disposez-vous ?
Nous exploitons toutes celles qui sont désormais à notre disposition : les données génomiques (le génome du patient et de sa tumeur), les mutations de l’ADN qui sont à l’origine de nombreux cancers et constituent des biomarqueurs potentiels, les données d’expression des gènes (le transcriptome) et les protéines (protéome), ainsi que les données épigénétiques sur des modifications de l’ADN ou des protéines affectant la régulation de l’expression. Rappelons que le premier séquençage du génome humain date d’avril 2003, il y a seulement vingt ans. À partir de 2005, la technique de séquençage haut débit (Next-Generation Sequencing) a considérablement fait chuter les prix et les délais. Aujourd’hui, le séquençage d’un génome complet d’une personne prend moins d’une journée (en 2003, cela avait pris treize ans) et coûte 600 à 700 euros (contre trois milliards de dollars à l’époque).
Que peut apporter l’intelligence artificielle ?
Rappelons d’abord que, concernant le cancer, le premier domaine dans lequel l’intelligence artificielle a apporté des solutions est l’imagerie, que ce soit la radiologie avec les images de l’organe atteint (IRM, CT-scan) ou du corps entier (PET scan) ou bien l’imagerie cellulaire réalisée sur les biopsies (anatomopathologie). Des algorithmes permettent de détecter les tumeurs, d’autres de poser un diagnostic (et le traitement à la clé), un pronostic (évaluer les chances de survie) ou encore de suivre l’évolution de la maladie ; ils fournissent une aide précieuse à l’équipe médicale. Il en va de même pour les données moléculaires, mais avec moins de recul, compte tenu de leur disponibilité plus récente. Un de nos principaux axes de recherches actuelles concerne la compréhension des mécanismes biologiques de la progression tumorale, à partir des dizaines de milliers de variables dont nous disposons sur les mutations, l’expression des gènes et leur régulation lors du séquençage d’un échantillon tumoral. Nous cherchons ensuite à déterminer le type et le sous-type de la tumeur (les anatomopathologistes en dénombrent aujourd’hui plus de 200) et à prévoir comment celle-ci réagira au traitement, voire à proposer de nouvelles pistes thérapeutiques.
Les résultats sont-ils à la hauteur de vos ambitions ?
La route est longue jusqu’à l’application dans le parcours de soin. Un des principaux problèmes auxquels nous sommes confrontés est que nous avons beaucoup plus de variables (des dizaines de milliers) que de patients (des centaines, tout au plus quelques milliers pour certains types de cancers). La montée en puissance des plateformes françaises de séquençage, Auragen à Lyon et SeqOIA à Paris (voir encadré), permettra petit à petit de remédier à ce problème. Dans l’idéal, il nous faudrait plusieurs milliers de patients pour chaque sous-type étudié. Depuis 2019, nous travaillons avec plusieurs centres de cancérologie et plusieurs consortiums de recherche en Europe et au Canada dans le but d’harmoniser le traitement et de réunir nos données génomiques. Avec ce dont nous disposons aujourd’hui, les algorithmes sont déjà capables de prédictions avec une précision comparable à celle des anatomopathologistes dans les cas simples. Mais, par manque de données, les questions plus complexes comme la réponse au traitement sont encore imparfaitement traitées.
Quelles sont les pistes de progrès ?
Une des solutions que nous cherchons à mettre en œuvre est de réduire le nombre de variables, soit en utilisant des méthodes mathématiques de réduction de dimensionnalité soit en intégrant de l’information a priori, des connaissances qui relient certaines variables entre elles, par exemple sur le fonctionnement de la cellule tumorale, grâce aux réseaux d’interaction entre gènes et protéines. Cette solution permet également d’interpréter le résultat car les variables que l’on retient ont un sens biologique. Ceci est particulièrement important dans le cadre médical : on veut savoir comment l’algorithme qui conseille le médecin est arrivé à une conclusion. Une autre piste à laquelle nous croyons beaucoup est l’intégration multimodale.
Qu’est-ce-que l’intégration multimodale ?
Par modalité on entend un type particulier de données caractérisant la tumeur : mutation, expression, image radiologique, imagerie cellulaire, données cliniques… Dans un premier temps, on cherche toujours à exploiter les données de chaque modalité, indépendamment : celles issues de telle ou telle technique d’imagerie, ou bien d’un séquençage. Les recherches dans chacun de ces domaines sont d’ailleurs toujours aussi actives mais tout ce qui était relativement facile à exploiter l’a déjà été. Depuis quelques années, comme tous les grands groupes de recherche, à l’institut Curie nous focalisons nos efforts sur l’intégration multimodale : le fait d’analyser ensemble des données d’imagerie, de séquençage ainsi que les données cliniques collectées par le médecin, comme des analyses sanguines. Nous espérons ainsi construire un prédicteur plus robuste. De quoi gagner en précision tant pour le diagnostic de la tumeur que pour son pronostic. Nous explorons par exemple cette voie pour trouver un biomarqueur plus précis que le comptage de cellules tumorales pour prédire la réponse à des traitements d’immunothérapie pour le cancer du poumon. C’est aussi au cœur d’un projet européen auquel nous collaborons sur les cancers pédiatriques, qui sont peu étudiés par la recherche privée.
Quels types d’algorithmes développez-vous ?
Notre vocation n’est pas de développer de nouvelles techniques mathématiques, mais chaque nouvelle question que nous nous posons appelle la conception de nouveaux algorithmes, plus ou moins sophistiqués. Lorsqu’on a peu de connaissances sur le fonctionnement du système que l’on cherche à modéliser, on utilise des techniques traditionnelles de machine learning comme les algorithmes des forêts aléatoires (random forest) ou les machines à vecteurs de support (SVM). Lorsqu’il y a assez de données, nous faisons appel au deep learning et aux réseaux de neurones. Mais les statistiques ne sont qu’un outil. Pour traiter les bonnes questions et apporter des solutions adaptées, il est primordial d’être en contact constant avec les biologistes et les cliniciens pour bien appréhender la nature des données ainsi que leur sémantique. D’où l’importance de déployer ces compétences en interne tout en collaborant à de nombreux projets nationaux ou internationaux. L’unité que je dirige comprend aujourd’hui plus de cent personnes dont la moitié sont des data scientists. Nos effectifs ont doublé en cinq ans et nous cherchons toujours à recruter.
Quelles futures innovations peuvent impacter votre domaine de recherche ?
Toute nouvelle technologie d’exploration du vivant ! A l’image du séquençage haut débit. Nos recherches dépendent de ces technologies qui nous fournissent de nouveaux types de données qui éclairent un aspect nouveau de la tumeur. Parmi les nouvelles opportunités, la transcriptomique spatiale permet depuis deux ans de mesurer l’expression des gènes de chaque région d’une tumeur, bientôt au niveau de chaque cellule, là où nous ne mesurions précédemment qu’une expression moyenne à l’échelle de la tumeur. Cela ouvre un énorme champ d’analyse, de compréhension des mécanismes biologiques, donc de prédiction des réponses.
Quels patients peuvent déjà bénéficier de vos travaux ?
En France, pour un certain nombre de cancers, on propose aux patients un séquençage génomique (voir encadré). Pour quelques dizaines de mutations, l’industrie pharmaceutique a développé depuis plusieurs années des traitements efficaces. Demain, en caractérisant mieux les tumeurs avec des milliers de données de différentes sources, nos recherches permettront de prédire la réponse d’une tumeur à un traitement et de cibler de nouveaux biomarqueurs. En attendant, l’IA est déjà mise à profit dans certains cas, par exemple pour évaluer le risque de récidive du cancer du sein. La prédiction de l’évolution de la maladie est en général basée sur une approche de machine learning exploitant l’expression de panels de gènes. Autre exemple, les données de séquençage de l’ADN tumoral circulant, l’ADN de la tumeur que l’on retrouve dans le sang, sont mises à profit pour le dépistage, le diagnostic et le suivi de l’efficacité thérapeutique à partir d’une simple prise de sang.
Propos recueillis par Isabelle Bellin
Le séquençage, point de départ de la médecine génomique
Deux laboratoires de séquençage à très haut débit du génome humain à visée diagnostique et suivi thérapeutique ont été financés dans le cadre du plan France médecine génomique 2025 pour les maladies rares et les cancers. La plateforme Auragen est adossée à douze établissements de la région Auvergne-Rhône-Alpes, tandis que SeqOIA, en Ile-de-France, s’appuie sur l’AP-HP, l’Institut Curie et Gustave Roussy. « Nous avons rendu nos premiers résultats en août 2019 pour les maladies rares et en juin 2020 pour les cancers, rapporte Florence Baguet, directrice opérationnelle de SeqOIA. Nous montons progressivement en puissance. Notre objectif est d’atteindre le séquençage de 6 000 patients en 2022. »Concrètement, le parcours de soin comprend une première consultation d’information puis une validation de l’indication lors d’une réunion de concertation pluridisciplinaire. La liste des préindications médicales donnant accès au diagnostic génomique a été définie en lien avec la Haute Autorité de Santé, pour les maladies rares comme pour les cancers, et évolue progressivement. Viennent ensuite le recueil du consentement du patient, la prescription, le séquençage, et enfin l’interprétation des données et le retour au patient par son médecin.
En cancérologie l’ensemble de ce processus prend en moyenne trois mois. En septembre 2022, plus de 7 100 prescriptions avaient été exécutées au laboratoire SeqOIA et 4 000 comptes rendus délivrés aux prescripteurs, dont 20 % en cancérologie. Cette faible proportion est notamment liée à la contrainte actuelle de ne pouvoir prendre en charge que des échantillons tumoraux congelés alors que la plupart des prélèvements en cancérologie sont inclus en paraffine. Cette contrainte peut imposer de refaire une biopsie au patient. « Ce frein est en cours d’évaluation », indique Florence Baguet. D’autre part, l’analyse de l’ADN tumoral circulant pourrait être proposée prochainement. Enfin, une infrastructure de collecte systématique des données génomiques, qui les rendra disponibles tant pour le soin que la recherche, devrait être opérationnelle d’ici un à deux ans.