Données de santé : la France se dote d’une plateforme pour la recherche
⏱ 5 minLa France va se doter d’un Health Data Hub, qui doit permettre à la recherche, publique et privée, d’accéder à des données de santé d’origines diverses, et donc de rapprocher des fichiers, dans le respect de la législation sur la vie privée. Son directeur scientifique, Emmanuel Bacry, explique l’esprit et la méthode de cette initiative.
Pour avancer, la recherche médicale a besoin de données de qualité, et en quantité. Les chercheurs le savent depuis longtemps, mais ce sont à l’évidence les progrès récents de l’intelligence artificielle, et plus particulièrement de l’apprentissage profond, qui ont provoqué la récente prise de conscience à l’origine de la décision prise en haut lieu de créer en France une plateforme des données de santé officiellement dénommée Health Data Hub (HDH).
Dotée d’un budget de 80 millions d’euros sur quatre ans pour sa mise en place, cette plateforme ne sera pas créée ex-nihilo, puisque la France a institué il y a vingt ans le Système national d’information inter-régimes de l’Assurance Maladie (Sniiram), qui réunit les données médico-administratives correspondant aux remboursements de l’assurance maladie, et qu’elle l’a ensuite fusionné notamment avec le Programme de médicalisation des systèmes d’information (PMSI) qui regroupe des données issues des hôpitaux, pour créer en 2017 le Système national des données de santé (SNDS), que le monde entier nous envie. Il recèle également des données sur les causes médicales de décès (issues du Centre d’épidémiologie sur les causes médicales de décès de l’Inserm) et relatives au handicap (provenant de la Caisse nationale de solidarité pour l’autonomie), ainsi que des informations fournies par les organismes d’assurance maladie complémentaire.
Production de connaissances et d’outils
Mais le SNDS n’est riche finalement que d’informations de nature avant tout administrative. Il permet de savoir qu’un patient a consulté tel médecin, qu’il s’est vu prescrire tel médicament, qu’il a subi tel examen ou telle opération. L’information médicale, clinique, qu’il s’agisse de résultats d’examens ou d’analyses, de diagnostics, de pronostics… reste confinée dans des fichiers épars. Un des objectifs du Health Data Hub est de faciliter le rapprochement de ces données médicales avec celles déjà disponibles dans le SNDS, en vue de travaux de recherche visant à produire des connaissances et de nouveaux outils – diagnostics, prédictifs, d’optimisation des soins… – destinés à améliorer la santé de tous. Et cela dans le respect de la législation sur la protection de la vie privée et plus particulièrement du règlement général de protection des données (RGPD).
« Le Health Data Hub sera une plateforme réunissant toutes les données disponibles derrière un même guichet et capable de chaîner ces données », explique Emmanuel Bacry, directeur de recherche au CNRS. Il a été nommé en avril dernier directeur scientifique de l’Institut national des données de santé, l’organisme qui gère actuellement le SNDS, et deviendra le directeur scientifique du Health Data Hub lorsqu’il sera formellement créé.
Privilégier la qualité des données
« Beaucoup de gens se focalisent exclusivement sur la quantité de données. C’est une erreur commune, estime-t-il. La qualité est tout aussi importante. La quantité ne pouvant pas compenser la mauvaise qualité. L’échec de Google Flu Trends est très instructif à ce propos. » Google avait en effet trop parié sur la quantité de données, en lançant en 2008 ce projet visant à prédire en temps réel l’évolution des épidémies de grippe. L’idée était d’analyser l’usage de certains mots clés – tels que « fièvre », « frissons », « maux de tête » – dans les requêtes adressées au moteur de recherche. Ce fut un échec. Ainsi, Google Flu Trends n’a pas vu venir la pandémie de grippe H1N1 de 2009. Le projet fut très critiqué par la communauté scientifique et Google a jeté l’éponge en 2015.
« Notre Système national des données de santé est unique non seulement par sa taille, mais parce qu’il intègre des données sur tous les français, donc avec a priori très peu de biais, ajoute Emmanuel Bacry. Aux États-Unis, les plus grosses bases de données sont celles des mutuelles de santé, elles ne dépassent pas les 8 millions de personnes. Mais surtout, elles sont par construction biaisées, le plus souvent, on y trouve surtout des personnes jeunes, riches et en bonne santé! Notre SNDS n’a pas ce biais. »
Questions techniques et juridiques
Autre fonction essentielle du HDH : chaîner des fichiers. « Un problème épineux techniquement, mais surtout juridiquement, estime Emmanuel Bacry. Le HDH a pour vocation d’aplanir ces difficultés. Il sera un tiers de confiance. Le HDH simplifiera la gouvernance de l’accès aux données de santé. Il résoudra les conditions d’accès aux données via un guichet unique. Il simplifiera aussi les questions de valorisation. »
Comment garantira-t-il la confidentialité de nos données de santé ? « Les données ne vont pas sortir du HDH, affirme-t-il. C’est lui qui fera les calculs. La seule chose qui sortira du hub, ce sont les résultats produits par les algorithmes. Et il faudra obtenir un ticket de sortie, il y aura une procédure de vérification pour obtenir le droit de sortir ces résultats. Il y aura peut-être des dérogations, mais seulement pour des données agrégées, réellement anonymes, c’est-à-dire avec un risque nul de réidentification. Des fichiers qui ne contiendront pas une ligne par personne, mais par exemple des statistiques par départements. »
Embauches « à tour de bras »
Pour mener à bien sa tâche, le HDH aura besoin de moyens conséquents. « Ce sera un groupement d’intérêt public, de droit privé, précise Emmanuel Bacry, ce qui permettra d’offrir des salaires au prix du marché, donc attractifs. On embauche déjà à tour de bras. On cherche pour commencer un directeur technique. Et des chefs de projet, des ingénieurs… Nous avons besoin de nous entourer de toutes sortes de spécialistes. Bien sûr des médecins, des informaticiens, des statisticiens, des mathématiciens… Mais aussi des économistes, des juristes, des spécialistes de l’éthique. Nous recruterons des data scientists dans un second temps. »
Pour tenir ses objectifs, le HDH devra faire appel à des solutions techniques dernier cri, relevant de l’informatique distribuée, de la sécurité informatique, de la cryptographie… « Nous passerons des accords de partenariat avec les 3IA (Instituts interdisciplinaires d’intelligence artificielle), l’Inserm, le CNRS, l’Inria, le CEA…indique-t-il. Nous mettrons à profit les développements récents de la cryptographie. L’utilisation de la chaîne de blocs (blockchain) n’est pas prévue dans un premier temps. Mais il n’est pas dit qu’on ne l’utilisera pas. »
Une plateforme lancée en octobre
Le calendrier de cette initiative est très serré. « Dès octobre 2019, nous lancerons une préfiguration du HDH, précise Emmanuel Bacry. Une plateforme qui sera plus ou moins une preuve de concept, et qui hébergera les dix projets retenus en avril après l’appel à projets lancé en janvier. » Des projets choisis entre autres pour leur diversité, qui visent à rapprocher du SNDS des bases de données cliniques concernant des patients suivis pour diverses pathologies (cancer, maladie de Parkinson, insuffisance cardiaque, interactions médicamenteuses…) et contenant des données de toutes sortes (examens, scores, imagerie, données issues d’implants…).
Et des projets qui reposent sur des approches méthodologiques variées. « On parle beaucoup de l’apprentissage profond, rappelle Emmanuel Bacry, mais il ne faut pas oublier qu’il existe toutes sortes d’algorithmes plus simples qui sont d’un grand intérêt. Dans deux ans, je veux que le premier réflexe de toute personne provenant du monde académique ou de l’industrie ayant besoin de données de santé, ou bien d’aide sur les données qu’il gère, soit de frapper à la porte du Health Data Hub. »
Pierre Vandeginste