

L’ouverture des modèles et des données a aussi ses travers !
⏱ 4 minAccéder aux codes source d’applications d’IA ne suffit plus à garantir les droits fondamentaux des utilisateurs. Des biais émanent des modèles algorithmiques, mais aussi des données. Et toute volonté d’ouvrir largement ces composants soulève des questions éthiques majeures.
Fonder une société de la connaissance dans laquelle les outils utilisés au quotidien peuvent être à la fois partagés, étudiés et modifiés par leurs utilisateurs. L’ambition affichée dans les années 80 par le mouvement du logiciel libre se heurte aujourd’hui aux nouvelles réalités de l’intelligence artificielle. Car avoir accès aux codes source des logiciels, le mécanisme central de l’Open Source – petit frère du logiciel libre se concentrant sur les aspects techniques liés au développement de logiciels -, ne suffit plus à garantir une certaine transparence dans le fonctionnement d’un système. Comme l’a montré le très célèbre exemple du chatbot Tay de Microsoft, devenu rapidement raciste et misogyne, les données injectées en entrée des modèles algorithmes sont, à elles seules, susceptibles de créer des biais majeurs dans les systèmes de décision automatique.
Si toutes les entreprises connaissent les débordements d’un Tay, et tentent de se prémunir de ces biais évidents, elles sont moins nombreuses à traiter cette problématique de façon systématique, afin de détecter des déviances plus insidieuses. Selon une récente étude menée par O’Reilly Media, seules 40 % des entreprises expliquent vérifier l’équité de leurs modèles pendant les phases de développement. Et seulement 17 % des répondants intègrent des indicateurs portant sur l’équité de leurs modèles quand ils en évaluent le succès. « Si vous avez des données biaisées, peu importe combien de données vous avez. Ce type d’erreurs ne va pas être noyé par une grande quantité de données », avertit Cheryl Martin, la Data Scientist en chef d’Alegion, une plate-forme d’entraînement des IA, dans les colonnes de SearchEnterpriseAI.
Ouvrir les données et les modèles ?
« L’essor des systèmes de décision automatique, basés sur l’apprentissage, pose de nouvelles questions », résume Roberto Di Cosmo, professeur à Inria et vice-président du groupe thématique Logiciel Libre du pôle de compétitivité System@tic. Selon lui, disposer du code source de TensorFlow par exemple (l’outil de Google permettant de construire des applications d’IA) ne suffit plus à comprendre une décision prise par un système d’apprentissage automatique bâti sur cette plate-forme, il faut en plus disposer du modèle algorithmique construit avec TensorFlow et des données qui ont servi à l’apprentissage de ce modèle. « Les logiciels ou bibliothèques de Machine Learning sont très largement diffusés en Open Source, mais ce n’est pas le cas des modèles algorithmiques, en particulier des modèles liés à des activités à forte valeur ajoutée ou contenant des données personnelles ou stratégiques,observe Stéphane Fermigier, président du groupe de travail Logiciel Libre de System@tic et entrepreneur dans l’Open Source. Et ce, même si de plus en plus d’acteurs, notamment les chercheurs, diffusent des modèles prêts à l’emploi, et même si on voit apparaître des initiatives de mutualisation des modèles. »
Sans oublier qu’avec certaines catégories d’algorithmes, en particulier les réseaux neuronaux profonds (Deep Learning), on ne sait tout simplement pas expliquer le mécanisme d’une décision. « La seule explication qu’on peut obtenir est technique, et totalement incompréhensible pour un utilisateur, souligne Roberto Di Cosmo. Pour accéder à une forme de compréhension de ces outils, on a donc besoin ici à la fois du modèle, des jeux de données et d’experts, même si ces derniers ne comprennent eux-mêmes pas toujours très bien pourquoi les algorithmes de Deep Learning donnent d’aussi bons résultats ! » Or, ce sont des algorithmes de ce type qui, demain, prendront par exemple des décisions automatiques à partir de l’imagerie médicale. En avril dernier, l’administration américaine a autorisé le premier logiciel effectuant des diagnostics médicaux sans supervision humaine.
Confidentialité des données et risques de dérives
Face à ces constats, la reprise de contrôle des utilisateurs passe-t-elle par la publication des grands jeux de données d’apprentissage ? Au mieux un vœu pieu, au pire l’ouverture d’une boîte de Pandore, selon nos interlocuteurs. D’abord, il faut tenir compte de la propriété intellectuelle liée aux données, souligne Jonathan Rivalan, responsable R&D d’Alterway, une société de services spécialisée dans le Logiciel Libre : « Le monde industriel reste très sensible à la valeur de ses données et à leur confidentialité. »
Ensuite, ces jeux de données pourraient être facilement détournés de leurs usages premiers. « On aurait envie d’affirmer que les grands jeux de données de Google, Microsoft, Facebook ou autres devraient être dans le domaine public,explique Roberto Di Cosmo. Mais ces énormes quantités de données personnelles seraient alors exploitées de façon totalement inattendue. » A des fins de nouvelles arnaques par exemple. Mais aussi par des sociétés privées aux motivations troubles : pensons à Cambridge Analytica, qui a déduit les orientations politiques des individus à partir d’un questionnaire apparemment anodin. Le chercheur y voit « une situation schizophrène et paradoxale, pour laquelle il n’existe pas de solution aujourd’hui. »
Anonymiser les données : une protection fragile
Même des garanties techniques, consistant par exemple à anonymiser les données en enlevant toute référence à un individu (nom, prénom, numéro de carte d’identité, numéro de Sécurité Sociale, etc.) semblent bien fragiles face à la puissance des algorithmes. « Potentiellement, un autre algorithme que celui utilisé pour l’application imaginée au départ pourrait identifier des personnes spécifiques à partir de bases de données publiques », relève Miguel Colom, chercheur associé au CMLA, le centre de mathématiques appliquées de l’Ecole normale supérieure. C’est le risque de désanonymisation, c’est-à-dire l’identification d’un individu au travers de son comportement, une identification rendue possible par la corrélation de données hétérogènes.
Comme le souligne le chercheur, la communauté de la Data Science fait face à un dilemme, « avec, d’un côté, la tentation de rendre publiques des données abondantes, complètes et bien annotées (ce qui rend les algorithmes très efficaces) ; de l’autre, la volonté de garantir les droits fondamentaux des utilisateurs et la confidentialité des données personnelles ». Pour Roberto Di Cosmo, ce genre d’interrogation souligne le besoin de réfléchir à l’éthique de la Data Science. « Quand les scientifiques ont du mal à maîtriser les conséquences de leurs développements, cela devient indispensable. Dans la Data Science, on a assurément besoin de comités d’éthique ! »
William Chinaski