
L’apprentissage profond dope l’exploration de l’ADN
⏱ 6 minDe plus en plus d’équipes de recherche en bio-informatique s’intéressent à l’apprentissage automatique pour analyser et interpréter les données génomiques. Ces travaux ouvrent de nouvelles voies pour la médecine, notamment en matière de diagnostic et de thérapie.
Il y a peu, une équipe de recherche franco-estonienne annonçait¹ être parvenue à synthétiser, grâce à l’apprentissage artificiel, des génomes humains « plausibles ». Car il ne suffit pas de piocher au hasard dans le grand catalogue des gènes du genre humain pour constituer des génomes réalistes. La distribution des « allèles » (variantes d’un gène) dans les populations résulte de la complexe histoire de l’humanité. Ainsi, le groupe sanguin A est fréquent en Australie et en Norvège, mais se fait rare en Amérique latine.
Les chercheurs ont entraîné des modèles GAN (Generative Adversarial Networks) et RBM (Restricted Boltzmann Machine) sur les données génétiques de 2 504 individus fournis par le consortium international « 1000 Genomes Project » et de la bio-banque du centre de recherche génomique estonien. La finalité de ces travaux est d’obtenir des outils capables de produire en quantité des profils génétiques crédibles afin de constituer ou compléter les jeux de données indispensables à l’entraînement des modèles. Le manque de données réelles est un problème récurrent pour ce type de recherche, leur utilisation étant particulièrement encadrée par les lois de protection des données personnelles.
Analyser les milliards de données constituant le génome
La génomique est l’un des piliers de la médecine du futur. L’analyse du génome d’un patient peut faire apparaître des prédispositions à certaines maladies, et le cas échéant permettre d’agir avant que celles-ci ne se déclarent. Dès les années 2000, des équipes² ont cherché à analyser les données génétiques en s’appuyant sur les technologies de traitement du langage de l’époque. Toutefois, c’est dans les années 2010 que l’apprentissage automatique a accéléré ces travaux. De multiples modèles ont été mis en œuvre, notamment des réseau de neurones convolutifs (CNN), qui ont connu un certain succès dans le séquençage de l’ADN.
En 2017, Google dévoilait³ DeepVariant, un outil open source basé sur un CNN destiné à surmonter le problème des erreurs de lecture dans les données brutes issues des séquenceurs d’ADN. D’une génération à l’autre, ces machines lisent des brins d’ADN de plus en plus longs, d’une centaine de bases à des milliers, mais avec un taux d’erreur d’autant plus élevé, qui se situe entre 0,1 et 10%. C’est pourquoi on joue toujours sur la redondance.
Un décryptage complet consiste en fait à séquencer plusieurs dizaines de fois le génome, fragmenté à chaque fois aléatoirement. C’est donc à partir de ces multiples puzzles contenant des milliers d’erreurs de lecture que l’algorithme doit reconstituer le génome le plus probable. Depuis 2017, Google n’a eu de cesse d’améliorer son outil, notamment pour l’adapter aux derniers séquenceurs, qui délivrent des séquences d’ADN encore plus longues, mais aussi affligées de taux d’erreur supérieurs.
Les relations entre le génotype et le phénotype
Mais l’apprentissage automatique devrait apporter bien d’autres choses à la génomique. On compte sur lui notamment pour découvrir les relations complexes entre le génotype, c’est-à-dire l’ensemble des gènes (on devrait dire « allèles ») constituant le génome d’un individu, et son phénotype, c’est à dire l’ensemble des traits, des caractères qui en sont les conséquences. En particulier, bien sûr, on aimerait mieux comprendre quelles combinaisons de gènes induisent des prédispositions à des pathologies.
Blaise Hanczar, chercheur au laboratoire IBISC de l’université d’Évry / Paris-Saclay, fait partie des chercheurs qui comptent sur cette approche pour aider le praticien à établir son diagnostic, et même prédire la réponse du patient à un traitement spécifique. « Sur cette tâche très particulière, toute la littérature du machine learning « classique« , comme les random forrests ou le boosting, fonctionne bien », explique le chercheur, qui ajoute : « Si beaucoup d’équipes s’intéressent aujourd’hui au deep learning, il y a encore assez peu de publications. La principale difficulté vient du faible volume de données d’apprentissage disponible actuellement. »
Contourner la rareté des données étiquetées
La rareté des données étiquetées est le principal frein aux progrès dans ce domaine. Blaise Hanczar a testé plusieurs stratégies face à cette carence, notamment le pré-apprentissage non supervisé, une approche adaptée au cas où l’on dispose de beaucoup de données, mais dont peu sont annotées. « L’idée est d’utiliser un modèle non supervisé, généralement un auto-encodeur pour pré-apprendre le modèle avec les données disponibles non annotées puis de poursuivre en mode supervisé. L’approche a été utilisée avec succès dans le monde de l’image. Pour l’instant nos expérimentations du pré-apprentissage non supervisé ne sont pas concluantes. »
Une autre approche a déjà donné des résultats plus prometteurs, il s’agit de l’apprentissage par transfert. « L’idée est de partir d’un modèle généré pour un domaine où l’on dispose de beaucoup de données d’apprentissage, et de le transférer dans un domaine pour lequel on ne dispose que de peu de données. » L’approche montre aujourd’hui son intérêt en génomique, alors que les volumes de données sont encore très faibles, mais pourrait bien perdurer. « Lorsque les programmes de médecine personnalisée seront plus avancés, le nombre de cas disponibles sera plus élevé, mais il restera toujours des maladies rares pour lesquelles l’apprentissage par transfert restera utile », estime le chercheur.
L’explicabilité des modèles pour faciliter leur acceptabilité
Un autre sujet de recherche du laboratoire IBISC porte sur la capacité qu’auront les chercheurs à expliquer les résultats délivrés par leurs modèles, et faciliter ainsi leur acceptation par les praticiens et les patients. Les chercheurs ont voulu littéralement intégrer à leurs réseaux de neurones des connaissances du domaine issues de l’ontologie GO, développée par le consortium international Gene Ontology, qui décrit l’ensemble des fonctions connues des gènes.
« Nous identifions les neurones importants du réseau, qui influent sur les décisions du modèle en utilisant la méthode LRP (Layer Relevance Propagation). Pour cela, nous effectuons une rétropropagation à partir du neurone de sortie dans le réseau vers l’entrée pour voir quels neurones sont importants. Nous essayons ensuite de leur attacher un sens ontologique. Cela donne des résultats intéressants, mais il reste encore de nombreux problèmes à résoudre, notamment réaliser cette rétro-propagation dans des modèles de relativement grande taille (de 4 à 5 couches denses de 200 à 2 000 neurones par couche, mais avec jusqu’à 20 millions de paramètres à apprendre), ce qui pose des problèmes de stabilité. Le grand nombre de paramètres rend l’identification des neurones difficile. »
L’autre piste suivie par l’équipe de recherche consiste à renverser cette problématique : au lieu de prendre un modèle et de tenter de l’interpréter, elle cherche à concevoir un modèle interprétable par construction. « Nous créons un réseau de neurones avec une fonction biologique affectée à chaque neurone. L’architecture du réseau de neurones reprend les connexions décrites dans l’ontologie GO, et seules sont créées les connexions que l’on connaît entre les fonctions. De cette façon, dès que l’on identifie un neurone important, on sait quelles sont les fonctions biologiques qui ont été mobilisées. » L’équipe de recherche a publié l’année dernière un premier article4, sur cette approche, baptisée « Deep GONet », et une version plus aboutie⁵ devrait être soumise à publication d’ici l’été.
Le frein de la protection des données personnelles
Si les chercheurs en IA ont pu démontrer l’intérêt du deep learning en recherche génomique, l’essor de cette discipline se heurte frontalement aux contraintes liées à la protection des données personnelles des patients. William Ritchie, chercheur à la tête du département d’Intelligence artificielle et régulation génique de l’institut de Génétique humaine (IGH) de Montpellier souligne : « C’est au début des années 2010 que les chercheurs ont compris qu’il est impossible de véritablement anonymiser des données liées au génome humain. L’intelligence artificielle peut en effet être mise en œuvre pour retrouver à qui appartiennent les gènes d’un patient qui seraient séquencés dans un hôpital. »
Comment permettre à des équipes de recherche d’exploiter de grandes quantités de génomes, tout en garantissant leur non-divulgation ? Le chiffrement du génome peut sembler être une solution définitive au problème, mais pose en fait divers problèmes, puisque les patients doivent alors gérer une clé à ne pas perdre, et qui circulera un peu tout de même, pour que des médecins ou des chercheurs puissent accéder au génome.
Rendre impossible de relier un patient à ses données génétiques
On cherche d’autre solutions. De nombreuses équipes de recherche ont travaillé sur des moyens d’entraîner des modèles d’IA sur des données génétiques sans qu’il soit possible de les lier à un patient précis. L’une des principales pistes de recherche est l’apprentissage fédéré. Déjà déployée par plusieurs CHU et centres de recherche français, l’approche est très largement implémentée par certaines entreprises, c’est notamment elle qui permet aux smartphones de prédire le mot que l’utilisateur est en train de taper. Le modèle local est entraîné avec les mots saisis par chaque utilisateur, mais seul ce modèle est partagé avec l’ensemble des utilisateurs, afin d’améliorer la fonction prédictive du smartphone.
Une autre approche creusée par l’équipe du projet Gecko de l’Institut de Génétique Humaine consiste à éclater le génome en de multiples fragments, de manière à ce qu’il soit impossible de reconstituer le génome entier de l’individu. « Comme beaucoup de séquences sont répétées à de multiples reprises dans le génome, il est complexe de recoller ces fragments et c’est précisément ce que nous cherchons » explique William Ritchie. « Il faut trouver le point d’équilibre où on dispose de suffisamment d’informations pour que la donnée ait un intérêt clinique, mais pas suffisamment pour que cela permette de reconstituer le génome et identifier la personne elle-même. »
Les algorithmes d’IA ont démontré leurs atouts dans le domaine de la génomique, mais la technologie va devoir encore mûrir pour aller vers une médecine personnalisée, qui saurait prévenir l’apparition d’une maladie à laquelle le patient est génétiquement prédisposé, et déterminer le traitement auquel son organisme réagira le mieux. Ces recherches sont tributaires de la mise au point de méthodes efficaces permettant d’entraîner des modèles sur un grand nombre de génomes, tout en respectant la réglementation sur la protection des données personnelles.
Alain Clapaud
1. Burak Yelmen,Aurélien Decelle, Linda Ongaro, Davide Marnetto, Corentin Tallec, Francesco Montinaro, Cyril Furtlehner, Luca Pagani et Flora Jay, “Creating artificial human genomes using generative neural networks”, PLOS Genetics, 2020.
2. Mark D. Yandell et William H. Majoros, “Genomics and natural language processing”, Nature Review Genetics, 2002.
3. Andrew Carroll et Pi-Chuan Chang, “Improving the Accuracy of Genomic Analysis with DeepVariant 1.0”, Google AI Blog, 2020.
4. Blaise Hanczar, Farida Zehraoui, Tina Issa et Mathieu Arles, ”Biological interpretation of deep neural network for phenotype prediction based on gene expression”, BMC Bioinformatics 21(1), 1-18, 2020.
5. Victoria Bourgeais, Farida Zeharoui et Blaise Hanczar, “Deep GONet: Self-explainable deep neural network based on Gene Ontology for phenotype prediction from gene expression data”, 19th Asia Pacific Bioinformatics Conference, 2021.