logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
Menu
mobile logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
27 juin 2019
A la Une, DAP, Données de santé, Dossiers thématiques, News

Pour que ses réseaux de neurones diagnostiquent encore mieux, Therapixel cherche un million de mammographies

⏱ 4 min

Fondée par deux chercheurs d’Inria Sophia Antipolis, Olivier Clatz et Pierre Fillard, Therapixel applique l’apprentissage profond au diagnostic du cancer du sein à partir de mammographies. Pour obtenir de bons résultats, la start-up a dû réunir, nettoyer et annoter de grandes quantités de dossiers de patientes. Pierre Fillard, cofondateur et président de la start-up, explique les difficultés rencontrées pour réunir cette précieuse matière première.

La France va se doter d’un portail d’accès universel aux données de santé, le Health Data Hub (HDH), qui doit faciliter l’accès à cette ressource essentielle pour toutes sortes de travaux de recherche visant à faire progresser la médecine. La prise de conscience qui a mené à cette initiative est en grande partie liée aux progrès récents d’une discipline prometteuse pour la médecine : l’intelligence artificielle. Ou plus précisément à l’apprentissage profond, qui se nourrit de grandes quantités de données.

C’est sur cette approche que s’appuie la start-up Therapixel, fondée en 2013 par deux chercheurs d’Inria Sophia Antipolis, pour dépister le cancer du sein en analysant des mammographies. La jeune pousse s’est rendue célèbre en 2017 en remportant le Digital Mammography Challenge [lire l’article « L’IA de Therapixel au service de l’imagerie médicale » NDLR], un concours doté d’un million de dollars, contre plus de 1 200 équipes représentant le gotha de la recherche mondiale en intelligence artificielle.

Un outil, mais pas de données…

Depuis, l’équipe ne cesse d’améliorer son outil de diagnostic, Mammoscreen, pour en faire un produit commercialisable. Pour cela, elle a besoin d’un grand nombre de dossiers de patientes. « Pour le Challenge, explique Pierre Fillard, président et directeur scientifique de Therapixel, nous avions travaillé, comme tous les concurrents, avec les données fournies par les organisateurs. Après, nous nous sommes retrouvés sans rien. Il nous a donc fallu construire notre propre base de données. »

L’apprentissage automatique peut prendre diverses formes. Dans ce type d’application, on parle d’apprentissage supervisé : on nourrit un « réseau de neurones convolutif » d’une grande quantité de mammographies étiquetées, c’est à dire avec la réponse à la question posée, le diagnostic : il y a ou il n’y a pas de tumeur dans ce cliché. « Nous ne pouvons pas nous contenter de mammographies isolées, pour nous un bon dossier suit la patiente pendant un certain temps, précise Pierre Fillard. Après une mammographie jugée positive, il y a généralement des examens complémentaires dans les semaines ou les mois qui suivent, qui vont confirmer ou non le premier diagnostic. Dans le cas d’un cliché considéré comme négatif, cela implique forcément un certain délai, typiquement 18 mois. »

« Nos bases de données, indique Pierre Fillard, proviennent de trois types de sources. Il y a tout d’abord des grands centres français spécialisés dans la lutte contre le cancer : l’institut Curie, à Paris, l’institut Gustave-Roussy de Villejuif, le centre Antoine-Lacassagne de Nice, l’institut Claudius-Regaud de Toulouse… Il y a ensuite des centres d’imagerie privés, une quinzaine. Enfin nous trouvons d’autres fichiers à l’étranger, principalement en Grande Bretagne et aux États-Unis. En général, la base de l’échange avec ces fournisseurs de dossiers est simple : nous améliorons nos outils grâce à leurs données, ils sont parmi les premiers à les tester. Nous avons déjà réuni plusieurs centaines de milliers de dossiers et nous visons le million. »

Il faut déployer beaucoup d’efforts pour obtenir ces fichiers de patientes. « Après deux ou trois mois de négociations, parfois jusqu’à un an pour obtenir un feu vert, raconte Pierre Fillard, on passe aux choses concrètes : des mois et jusqu’à deux ou trois ans de travail pour enfin disposer d’une base de données nettoyée, normalisée, correspondant à nos critères. Nous avons développé nos propres outils pour réaliser ce nettoyage, cette mise en forme des dossiers de patientes. En particulier pour traduire le texte des commentaires des radiologues en données codées. Pour compenser certaines lacunes, une partie de ce travail est réalisé à la main, par des radiologues. Cette activité de collecte de dossiers de patientes occupe aujourd’hui chez nous quatre personnes à plein-temps (sur 18). »

« Les dossiers de patientes que nous obtenons ne contiennent jamais de données nominatives. Si le centre fournisseur en a l’habitude, il a lui-même réglé le problème, en anonymisant son fichier. Dans le cas contraire, nous fournissons les outils, mais nous insistons pour que le fournisseur fasse le travail lui-même, chez lui. »

Le Health data Hub arrivera un peu tard

Si le Health Data Hub était déjà opérationnel, est-ce qu’il permettrait à Therapixel de travailler dans de meilleures conditions ? « Sans doute nous aiderait-il à moins nous disperser, suppose Pierre Fillard. L’existence d’un guichet unique serait une aide précieuse. Mais Il faudrait que le dispositif soit d’une grande souplesse, qu’il réponde à de nombreuses exigences. Ainsi, nous faisons tourner nos réseaux de neurones sur des serveurs spécialisés, faisant appel à des processeurs graphiques (GPU) Nvidia. Nous avons choisi d’investir dans ce matériel, qui est installé chez notre hébergeur certifié HDS (Hébergeur de données de santé), comme la loi le prévoit. Par ailleurs, il faudrait que l’on puisse gérer toute notre panoplie de logiciels sans le moindre frein. » Est-ce que le HDH saura offrir toute la liberté de manœuvre nécessaire au travail d’une équipe de chercheurs ? « Nous verrons ce que le HDH peut offrir. Mais à mon avis, ce n’est pas pour Therapixel. Pour nous, c’est trop tard. »

La start-up ne va pas bouleverser son outil de travail au milieu du gué, alors que la commercialisation est en vue. « Le premier produit que nous prévoyons de lancer sera explicitement un outil d’aide à la décision pour le radiologue, indique Pierre Fillard. Nous soignons tout particulièrement l’aspect interaction homme-machine, car de sa qualité dépendra l’importance de l’aide réellement apportée. Nous espérons obtenir le marquage CE ainsi que l’approbation de la FDA (Food and Drug Administration) fin 2019 ou début 2020. »

À terme, que peut-on attendre de cette technologie ? « Il me semble raisonnable d’espérer, affirme Pierre Fillard, que, d’ici cinq ou dix ans, 15% au moins et peut-être jusqu’à 30% des cancers du sein aujourd’hui détectés chez une femme à l’issue de sa énième mammographie le soit après la précédente, la mammographie n-1. Soit en France deux ans plus tôt. » Ce n’est pas rien.

 

Pierre Vandeginste

 

Illustration à la une @mammoscreen

 

Vous avez aimé cet article, abonnez-vous à notre newsletter gratuite pour être informé des dernières publications. 

Termes liés :
  • Deep learning
  • Données
  • Intelligence artificielle (IA)
  • Machine learning
  • Apprentissage supervisé
  • Réseau de neurones
Retrouver les autres articles du dossier “Données de santé” :
  • Données de santé : la France se dote d’une plateforme pour la recherche
  • Quels outils cryptographiques pour protéger et exploiter les données de santé ?
  • Mieux alerter le prescripteur sur les interactions médicamenteuses
Share:
Posts you'd might like
En attendant l’ordinateur quantique universel…
L’IA teste ses premiers algorithmes quantiques
Les promesses de l’IA quantique
La recherche à l’assaut des deepfakes vocaux
Recyclage : nos déchets sous l’œil de l’IA
Stéphane Canu :
au service de l’IA et de la mobilité de demain
DAP, la newsletter du Data Analytics Post Recevez chaque semaine un éclairage sur les data science

Peut-on laisser un algorithme apprendre tout seul ?

A la différence de l’apprentissage supervisé, le contexte non supervisé est celui où l’algorithme doit opérer à partir d’exemples non annotés.

En savoir plus

ARTICLES RÉCENTS
  • En attendant l’ordinateur quantique universel…
  • L’IA teste ses premiers algorithmes quantiques
  • Les promesses de l’IA quantique
  • La recherche à l’assaut des deepfakes vocaux
  • Recyclage : nos déchets sous l’œil de l’IA

Tout savoir sur…

Le DAP

Comité Éditorial

Partenaires

Équipe


Copyright © Data Analytics Post. Tous droits réservés.

Mentions légales & CGU