Pour que ses réseaux de neurones diagnostiquent encore mieux, Therapixel cherche un million de mammographies
⏱ 4 min[vc_row][vc_column][vc_column_text]Fondée par deux chercheurs d’Inria Sophia Antipolis, Olivier Clatz et Pierre Fillard, Therapixel applique l’apprentissage profond au diagnostic du cancer du sein à partir de mammographies. Pour obtenir de bons résultats, la start-up a dû réunir, nettoyer et annoter de grandes quantités de dossiers de patientes. Pierre Fillard, cofondateur et président de la start-up, explique les difficultés rencontrées pour réunir cette précieuse matière première.
La France va se doter d’un portail d’accès universel aux données de santé, le Health Data Hub (HDH), qui doit faciliter l’accès à cette ressource essentielle pour toutes sortes de travaux de recherche visant à faire progresser la médecine. La prise de conscience qui a mené à cette initiative est en grande partie liée aux progrès récents d’une discipline prometteuse pour la médecine : l’intelligence artificielle. Ou plus précisément à l’apprentissage profond, qui se nourrit de grandes quantités de données.
C’est sur cette approche que s’appuie la start-up Therapixel, fondée en 2013 par deux chercheurs d’Inria Sophia Antipolis, pour dépister le cancer du sein en analysant des mammographies. La jeune pousse s’est rendue célèbre en 2017 en remportant le Digital Mammography Challenge [lire l’article « L’IA de Therapixel au service de l’imagerie médicale » NDLR], un concours doté d’un million de dollars, contre plus de 1 200 équipes représentant le gotha de la recherche mondiale en intelligence artificielle.
Un outil, mais pas de données…
Depuis, l’équipe ne cesse d’améliorer son outil de diagnostic, Mammoscreen, pour en faire un produit commercialisable. Pour cela, elle a besoin d’un grand nombre de dossiers de patientes. « Pour le Challenge, explique Pierre Fillard, président et directeur scientifique de Therapixel, nous avions travaillé, comme tous les concurrents, avec les données fournies par les organisateurs. Après, nous nous sommes retrouvés sans rien. Il nous a donc fallu construire notre propre base de données. »
L’apprentissage automatique peut prendre diverses formes. Dans ce type d’application, on parle d’apprentissage supervisé : on nourrit un « réseau de neurones convolutif » d’une grande quantité de mammographies étiquetées, c’est à dire avec la réponse à la question posée, le diagnostic : il y a ou il n’y a pas de tumeur dans ce cliché. « Nous ne pouvons pas nous contenter de mammographies isolées, pour nous un bon dossier suit la patiente pendant un certain temps, précise Pierre Fillard. Après une mammographie jugée positive, il y a généralement des examens complémentaires dans les semaines ou les mois qui suivent, qui vont confirmer ou non le premier diagnostic. Dans le cas d’un cliché considéré comme négatif, cela implique forcément un certain délai, typiquement 18 mois. »
« Nos bases de données, indique Pierre Fillard, proviennent de trois types de sources. Il y a tout d’abord des grands centres français spécialisés dans la lutte contre le cancer : l’institut Curie, à Paris, l’institut Gustave-Roussy de Villejuif, le centre Antoine-Lacassagne de Nice, l’institut Claudius-Regaud de Toulouse… Il y a ensuite des centres d’imagerie privés, une quinzaine. Enfin nous trouvons d’autres fichiers à l’étranger, principalement en Grande Bretagne et aux États-Unis. En général, la base de l’échange avec ces fournisseurs de dossiers est simple : nous améliorons nos outils grâce à leurs données, ils sont parmi les premiers à les tester. Nous avons déjà réuni plusieurs centaines de milliers de dossiers et nous visons le million. »
Il faut déployer beaucoup d’efforts pour obtenir ces fichiers de patientes. « Après deux ou trois mois de négociations, parfois jusqu’à un an pour obtenir un feu vert, raconte Pierre Fillard, on passe aux choses concrètes : des mois et jusqu’à deux ou trois ans de travail pour enfin disposer d’une base de données nettoyée, normalisée, correspondant à nos critères. Nous avons développé nos propres outils pour réaliser ce nettoyage, cette mise en forme des dossiers de patientes. En particulier pour traduire le texte des commentaires des radiologues en données codées. Pour compenser certaines lacunes, une partie de ce travail est réalisé à la main, par des radiologues. Cette activité de collecte de dossiers de patientes occupe aujourd’hui chez nous quatre personnes à plein-temps (sur 18). »
« Les dossiers de patientes que nous obtenons ne contiennent jamais de données nominatives. Si le centre fournisseur en a l’habitude, il a lui-même réglé le problème, en anonymisant son fichier. Dans le cas contraire, nous fournissons les outils, mais nous insistons pour que le fournisseur fasse le travail lui-même, chez lui. »
Le Health data Hub arrivera un peu tard
Si le Health Data Hub était déjà opérationnel, est-ce qu’il permettrait à Therapixel de travailler dans de meilleures conditions ? « Sans doute nous aiderait-il à moins nous disperser, suppose Pierre Fillard. L’existence d’un guichet unique serait une aide précieuse. Mais Il faudrait que le dispositif soit d’une grande souplesse, qu’il réponde à de nombreuses exigences. Ainsi, nous faisons tourner nos réseaux de neurones sur des serveurs spécialisés, faisant appel à des processeurs graphiques (GPU) Nvidia. Nous avons choisi d’investir dans ce matériel, qui est installé chez notre hébergeur certifié HDS (Hébergeur de données de santé), comme la loi le prévoit. Par ailleurs, il faudrait que l’on puisse gérer toute notre panoplie de logiciels sans le moindre frein. » Est-ce que le HDH saura offrir toute la liberté de manœuvre nécessaire au travail d’une équipe de chercheurs ? « Nous verrons ce que le HDH peut offrir. Mais à mon avis, ce n’est pas pour Therapixel. Pour nous, c’est trop tard. »
La start-up ne va pas bouleverser son outil de travail au milieu du gué, alors que la commercialisation est en vue. « Le premier produit que nous prévoyons de lancer sera explicitement un outil d’aide à la décision pour le radiologue, indique Pierre Fillard. Nous soignons tout particulièrement l’aspect interaction homme-machine, car de sa qualité dépendra l’importance de l’aide réellement apportée. Nous espérons obtenir le marquage CE ainsi que l’approbation de la FDA (Food and Drug Administration) fin 2019 ou début 2020. »
À terme, que peut-on attendre de cette technologie ? « Il me semble raisonnable d’espérer, affirme Pierre Fillard, que, d’ici cinq ou dix ans, 15% au moins et peut-être jusqu’à 30% des cancers du sein aujourd’hui détectés chez une femme à l’issue de sa énième mammographie le soit après la précédente, la mammographie n-1. Soit en France deux ans plus tôt. » Ce n’est pas rien.
Pierre Vandeginste
Illustration à la une @mammoscreen
[/vc_column_text][/vc_column][/vc_row]