logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
logo fullscreen logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
Menu
mobile logo
  • Dossier
    • IA quantique
    • Réseaux de neurones enzymatiques
    • Le méta-apprentissage fait ses premiers pas…
    • Les avancées prometteuses de l’apprentissage auto-supervisé
    • Que peut l’intelligence artificielle contre les fake news ?
    • Quand l’IA nous regarde…
    • Les réseaux de neurones impulsionnels
    • Quantification de la fragilité
    • Covid-19 et data
    • Ville algorithmique
    • Perception des véhicules autonomes
    • Formation continue
    • Data gouvernance
    • À la recherche des sens perdus
    • Deepfake
    • Agriculture numérique
    • Legal Tech
    • Données de santé
    • Start-up IA
    • Learning Analytics
    • Métiers de la data
    • Recherche IA : public/privé
    • Cybersécurité
    • Emplois dans la Data
    • Innovation et Data
    • Open source
    • Green IA
    • Sciences humaines et sociales et data
    • Voiture autonome
    • IA et création artistique
    • Des algos de confiance
    • Data cities
    • L’homme sur mesure
    • Débats autour des datas
    • Data science & robots
    • Usine 4.0
    • Données personnelles
    • Valorisations des données
    • Formation
  • Innovation
  • Expertise
  • Portrait
  • Point de vue
  • Lexique
  • + loin
    • Timeline
    • Repository
  • Emploi
    • Fiches métiers
  • S’abonner
    • NEWSLETTERS DÉJÀ PARUES
24 septembre 2020
A la Une, DAP, Innovation en action, News
#apprentissage fédéré, #recherche médicale

L’apprentissage fédéré exploite les dossiers médicaux sans les sortir des hôpitaux

⏱ 4 min

En médecine, l’apprentissage profond se nourrit de grandes quantités de dossiers de patients. Quand ils sont répartis sur plusieurs sites, l’apprentissage fédéré permet de les exploiter sans les faire circuler, donc sans les exposer à des risques pour leur confidentialité.

L’apprentissage profond a fait ses preuves en médecine. Mais pour être efficaces, ses réseaux de neurones doivent apprendre à partir d’un grand nombre de cas représentatifs de la population sur laquelle ils seront amenés à donner un avis par la suite. En pratique, cela signifie souvent qu’il faut obtenir des données issues de dossiers de patients de plusieurs hôpitaux. Se pose alors le problème de la confidentialité des données de santé.

En France, un organisme créé l’année dernière, le Health Data Hub, vise précisément à offrir un accès sécurisé à des données de santé agrégées pour la recherche. Mais cette approche centralisatrice du problème est déjà concurrencée par un paradigme qui permet à des réseaux de neurones d’apprendre à partir de données d’origines diverses sans qu’il soit besoin de les réunir, ni même de les exporter de leur site d’origine : l’apprentissage fédéré.

« Le principe, c’est d’alterner une phase d’apprentissage local, où le réseau de neurones est mis à jour sur les données de chaque détenteur de dossiers de patients et sur son système informatique, avec une phase d’agrégation des paramètres de chaque réseau », explique Aurélien Bellet, chercheur Inria (Lille Nord Europe), membre de l’équipe Magnet (MAchine learninG in Information NETworks), également affilié au Centre de recherche en informatique, signal et automatique de Lille (CRIStAL).C’est en agrégeant les modèles obtenus localement, qui ont appris un peu chacun dans leur coin, que l’on obtient un réseau de neurones ayant appris sur l’ensemble des dossiers médicaux, qui n’ont donc jamais été réunis. « En pratique, on fait une moyenne pondérée des poids des neurones de chaque réseau », précise le chercheur.

Apprendre localement, puis agréger

Cette opération est répétée périodiquement (on parle « d’époques »). À chaque fois, le réseau obtenu en agrégeant les réseaux locaux est renvoyé aux sites partenaires. « Le choix de la fréquence dépend de nombreux critères, parmi lesquels le niveau d’hétérogénéité des données entre les différents partenaires et les coûts de calcul et de transmissions, ajoute Aurélien Bellet. Certains réseaux de neurones peuvent comporter des milliards de paramètres. »

Variante : si les détenteurs de données ne veulent pas faire confiance à un chef d’orchestre, ils peuvent envisager l’apprentissage fédéré totalement décentralisé, en « peer to peer ». C’est juste plus compliqué. Il faut par exemple faire les moyennes de proche en proche et propager des modèles partiellement agrégés jusqu’à obtenir un réseau de neurones ayant appris sur les données de chacun.

On sait depuis un certain temps que la confidentialité des données ne peut être assurée simplement en remplaçant les noms par des numéros et en supprimant les informations directement identifiantes (numéro de sécurité sociale, adresse, numéro de téléphone…), ce que l’on appelle la « pseudonymisation ». Il a été démontré qu’une tierce partie mal intentionnée qui s’en donne les moyens peut extraire des informations individuelles des réseaux de neurones eux-mêmes par diverses méthodes.

Ajouter du bruit pour plus de confidentialité

Pour protéger plus sérieusement les données impliquées dans une opération d’apprentissage fédéré, on peut tout d’abord faire appel à des techniques relevant de la « confidentialité différentielle » (differential privacy). Il s’agit de techniques, initialement conçues pour protéger une base de données contre des attaques visant à extraire des données individuelles, tout en préservant autant que possible la valeur statistique des informations qu’elle contient. « Le plus souvent, on ajoute du bruit sur les paramètres des réseaux de neurones, précise Aurélien Bellet. Bien sûr, cela affecte quelque peu les performances du modèle. Le jeu consiste alors à trouver le bon compromis, la dose de bruit qui permet d’obtenir le niveau de confidentialité visé, sans trop faire chuter l’efficacité du réseau de neurones. »

Si les techniques de confidentialité différentielle ne suffisent pas, on utilise les grands moyens : le chiffrement. « Il existe des outils de cryptographie adaptés à cette problématique, indique Théo Ryffel, chercheur doctorant à l’INRIA et l’ENS Paris, et cofondateur de la start-up Arkhn, qui déploie une solution pour faciliter l’accès aux données médicales, notamment dans le cas de l’apprentissage fédéré. Le chiffrement totalement homomorphe (Fully Homomorphic Encryption) permet de faire des calculs sur des données chiffrées. Surtout, le « calcul multipartite sécurisé » (Secure Multi-Party Computation) permet à plusieurs acteurs de calculer collectivement des résultats sur leurs données respectives sans jamais les livrer en clair. »

Chiffrer juste ce qu’il faut

« Tout le jeu consiste à trouver un optimum en jouant sur les deux tableaux, ajoute Aurélien Bellet. Bruiter les données ne coûte rien, alors que chiffrer multiplie par un facteur important les temps de calcul. Mais le bruit diminue un peu les performances du modèle… ce qui n’est pas le cas du chiffrement. Beaucoup de travaux portent sur la recherche de cet équilibre. »

« Nous allons appliquer nos recherches sur des questions de santé concrètes en collaboration avec le CHU de Lille, indique Aurélien Bellet. Nous lançons d’ailleurs actuellement un projet ambitieux nommé FLAMED (Federated Learning and Analytics on Medical Data). »

À l’université Côte d’Azur, Marco Lorenzi, chercheur Inria (Sophia-Antipolis), effectue également des recherches dans ce domaine au sein de l’équipe Epione (E-Patient: Images, Data & MOdels for e-MediciNE). « Dans le projet ANR Fed-BioMed, nous testons nos méthodes sur un problème réel, indique le chercheur. Dans le cadre d’un partenariat avec deux centres en France, un autre à Londres et un quatrième à Chicago, nous nous intéressons à l’évolution des maladies neurodégénératives. Nos réseaux de neurones travaillent sur des dossiers cliniques incluant de l’imagerie et des données génétiques et produisent notamment un score de gravité. L’objectif est d’obtenir un outil prédictif, à usage préventif. »

De la théorie à la pratique

La société Owkin, fondée en 2016 à Paris et New York, est l’une des premières à maîtriser l’apprentissage fédéré. « Nous avons réalisé un outil intégré pour mettre en œuvre facilement ces techniques, explique Gilles Wainrib, son cofondateur et directeur scientifique. Notre plateforme Owkin Connect est déjà utilisée dans le cadre de plusieurs partenariats de recherche impliquant l’apprentissage profond sur des données de santé éparses. Comme le projet HealthChain qui reunit l’APHP, le CHU de Nantes, l’Institut Curie et le centre Léon Bérard de Lyon. »

Owkin est également impliqué dans le projet MELLODDY (Machine Learning Ledger Orchestration for Drug Discovery), qui associe dix acteurs de l’industrie pharmaceutique : Amgen, Astellas, AstraZeneca, Bayer, Boehringer Ingelheim, GSK, Servier, Janssen, Merck et Novartis. Dans ce cas, il ne s’agit pas de protéger des dossiers de patients, mais les chimiothèques des entreprises partenaires. L’objectif est d’accélérer la découverte de médicaments à l’aide de réseaux de neurones apprenant à partir de données pharmacologiques réparties. Sans les exposer à la concurrence…

 

Pierre Vandeginste
Termes liés :
  • Deep learning
  • Réseau de neurones
  • Données
  • Machine learning
  • Bruit
Tags: #apprentissage fédéré, #recherche médicale
Share:
Posts you'd might like
Deep Learning ADN
L’apprentissage profond dope l’exploration de l’ADN
DAP, la newsletter du Data Analytics Post Recevez chaque semaine un éclairage sur les data science

Peut-on laisser un algorithme apprendre tout seul ?

A la différence de l’apprentissage supervisé, le contexte non supervisé est celui où l’algorithme doit opérer à partir d’exemples non annotés.

En savoir plus

ARTICLES RÉCENTS
  • L’IA au chevet des séismes et tsunamis
  • François Yvon :
    la traduction automatique pour passion
  • En attendant l’ordinateur quantique universel…
  • L’IA teste ses premiers algorithmes quantiques
  • Les promesses de l’IA quantique

Tout savoir sur…

Le DAP

Comité Éditorial

Partenaires

Équipe


Copyright © Data Analytics Post. Tous droits réservés.

Mentions légales & CGU