L’apprentissage fédéré exploite les dossiers médicaux sans les sortir des hôpitaux
⏱ 4 minEn médecine, l’apprentissage profond se nourrit de grandes quantités de dossiers de patients. Quand ils sont répartis sur plusieurs sites, l’apprentissage fédéré permet de les exploiter sans les faire circuler, donc sans les exposer à des risques pour leur confidentialité.
L’apprentissage profond a fait ses preuves en médecine. Mais pour être efficaces, ses réseaux de neurones doivent apprendre à partir d’un grand nombre de cas représentatifs de la population sur laquelle ils seront amenés à donner un avis par la suite. En pratique, cela signifie souvent qu’il faut obtenir des données issues de dossiers de patients de plusieurs hôpitaux. Se pose alors le problème de la confidentialité des données de santé.
En France, un organisme créé l’année dernière, le Health Data Hub, vise précisément à offrir un accès sécurisé à des données de santé agrégées pour la recherche. Mais cette approche centralisatrice du problème est déjà concurrencée par un paradigme qui permet à des réseaux de neurones d’apprendre à partir de données d’origines diverses sans qu’il soit besoin de les réunir, ni même de les exporter de leur site d’origine : l’apprentissage fédéré.
« Le principe, c’est d’alterner une phase d’apprentissage local, où le réseau de neurones est mis à jour sur les données de chaque détenteur de dossiers de patients et sur son système informatique, avec une phase d’agrégation des paramètres de chaque réseau », explique Aurélien Bellet, chercheur Inria (Lille Nord Europe), membre de l’équipe Magnet (MAchine learninG in Information NETworks), également affilié au Centre de recherche en informatique, signal et automatique de Lille (CRIStAL).C’est en agrégeant les modèles obtenus localement, qui ont appris un peu chacun dans leur coin, que l’on obtient un réseau de neurones ayant appris sur l’ensemble des dossiers médicaux, qui n’ont donc jamais été réunis. « En pratique, on fait une moyenne pondérée des poids des neurones de chaque réseau », précise le chercheur.
Apprendre localement, puis agréger
Cette opération est répétée périodiquement (on parle « d’époques »). À chaque fois, le réseau obtenu en agrégeant les réseaux locaux est renvoyé aux sites partenaires. « Le choix de la fréquence dépend de nombreux critères, parmi lesquels le niveau d’hétérogénéité des données entre les différents partenaires et les coûts de calcul et de transmissions, ajoute Aurélien Bellet. Certains réseaux de neurones peuvent comporter des milliards de paramètres. »
Variante : si les détenteurs de données ne veulent pas faire confiance à un chef d’orchestre, ils peuvent envisager l’apprentissage fédéré totalement décentralisé, en « peer to peer ». C’est juste plus compliqué. Il faut par exemple faire les moyennes de proche en proche et propager des modèles partiellement agrégés jusqu’à obtenir un réseau de neurones ayant appris sur les données de chacun.
On sait depuis un certain temps que la confidentialité des données ne peut être assurée simplement en remplaçant les noms par des numéros et en supprimant les informations directement identifiantes (numéro de sécurité sociale, adresse, numéro de téléphone…), ce que l’on appelle la « pseudonymisation ». Il a été démontré qu’une tierce partie mal intentionnée qui s’en donne les moyens peut extraire des informations individuelles des réseaux de neurones eux-mêmes par diverses méthodes.
Ajouter du bruit pour plus de confidentialité
Pour protéger plus sérieusement les données impliquées dans une opération d’apprentissage fédéré, on peut tout d’abord faire appel à des techniques relevant de la « confidentialité différentielle » (differential privacy). Il s’agit de techniques, initialement conçues pour protéger une base de données contre des attaques visant à extraire des données individuelles, tout en préservant autant que possible la valeur statistique des informations qu’elle contient. « Le plus souvent, on ajoute du bruit sur les paramètres des réseaux de neurones, précise Aurélien Bellet. Bien sûr, cela affecte quelque peu les performances du modèle. Le jeu consiste alors à trouver le bon compromis, la dose de bruit qui permet d’obtenir le niveau de confidentialité visé, sans trop faire chuter l’efficacité du réseau de neurones. »
Si les techniques de confidentialité différentielle ne suffisent pas, on utilise les grands moyens : le chiffrement. « Il existe des outils de cryptographie adaptés à cette problématique, indique Théo Ryffel, chercheur doctorant à l’INRIA et l’ENS Paris, et cofondateur de la start-up Arkhn, qui déploie une solution pour faciliter l’accès aux données médicales, notamment dans le cas de l’apprentissage fédéré. Le chiffrement totalement homomorphe (Fully Homomorphic Encryption) permet de faire des calculs sur des données chiffrées. Surtout, le « calcul multipartite sécurisé » (Secure Multi-Party Computation) permet à plusieurs acteurs de calculer collectivement des résultats sur leurs données respectives sans jamais les livrer en clair. »
Chiffrer juste ce qu’il faut
« Tout le jeu consiste à trouver un optimum en jouant sur les deux tableaux, ajoute Aurélien Bellet. Bruiter les données ne coûte rien, alors que chiffrer multiplie par un facteur important les temps de calcul. Mais le bruit diminue un peu les performances du modèle… ce qui n’est pas le cas du chiffrement. Beaucoup de travaux portent sur la recherche de cet équilibre. »
« Nous allons appliquer nos recherches sur des questions de santé concrètes en collaboration avec le CHU de Lille, indique Aurélien Bellet. Nous lançons d’ailleurs actuellement un projet ambitieux nommé FLAMED (Federated Learning and Analytics on Medical Data). »
À l’université Côte d’Azur, Marco Lorenzi, chercheur Inria (Sophia-Antipolis), effectue également des recherches dans ce domaine au sein de l’équipe Epione (E-Patient: Images, Data & MOdels for e-MediciNE). « Dans le projet ANR Fed-BioMed, nous testons nos méthodes sur un problème réel, indique le chercheur. Dans le cadre d’un partenariat avec deux centres en France, un autre à Londres et un quatrième à Chicago, nous nous intéressons à l’évolution des maladies neurodégénératives. Nos réseaux de neurones travaillent sur des dossiers cliniques incluant de l’imagerie et des données génétiques et produisent notamment un score de gravité. L’objectif est d’obtenir un outil prédictif, à usage préventif. »
De la théorie à la pratique
La société Owkin, fondée en 2016 à Paris et New York, est l’une des premières à maîtriser l’apprentissage fédéré. « Nous avons réalisé un outil intégré pour mettre en œuvre facilement ces techniques, explique Gilles Wainrib, son cofondateur et directeur scientifique. Notre plateforme Owkin Connect est déjà utilisée dans le cadre de plusieurs partenariats de recherche impliquant l’apprentissage profond sur des données de santé éparses. Comme le projet HealthChain qui reunit l’APHP, le CHU de Nantes, l’Institut Curie et le centre Léon Bérard de Lyon. »
Owkin est également impliqué dans le projet MELLODDY (Machine Learning Ledger Orchestration for Drug Discovery), qui associe dix acteurs de l’industrie pharmaceutique : Amgen, Astellas, AstraZeneca, Bayer, Boehringer Ingelheim, GSK, Servier, Janssen, Merck et Novartis. Dans ce cas, il ne s’agit pas de protéger des dossiers de patients, mais les chimiothèques des entreprises partenaires. L’objectif est d’accélérer la découverte de médicaments à l’aide de réseaux de neurones apprenant à partir de données pharmacologiques réparties. Sans les exposer à la concurrence…