Les algorithmes peuvent-ils être objectifs et loyaux ?
⏱ 5 minTout algorithme est, par définition, biaisé… par ses critères d’optimisation mais surtout par ses données. Il ne peut qu’être à l’image des valeurs et des choix de ses concepteurs. Biais mathématiques, biais commerciaux ou même sociétaux… comment les détecter et les limiter ? Autant de sujets de recherche, fondamentaux pour garantir la loyauté des décisions.
Des petites rues calmes envahies par la circulation, détournée des grands axes sur les conseils de Waze, un logiciel de reconnaissance faciale de Google attribuant l’étiquette « gorilles » à un couple d’afro-américains, des soupçons de discrimination à l’encontre de l’algo de justice prédictive Compas (Northpointe) envers les afro-américains en leur attribuant un risque de récidive plus élevé… ces quelques exemples bien connus résument le manque d’objectivité reproché à certains algorithmes. Le problème n’est pas nouveau : les chercheurs étudient ces biais et les discriminations qui en découlent depuis une dizaine d’années.
De plus en plus de données mais de quelle qualité ?
Comment éviter de tels biais, assurer la loyauté des décisions ou des prédictions ? On met souvent en cause les algos mais, comme le rappelle la CNIL, « ce sont bien les biais provoqués par les données fournies aux systèmes qui soulèvent le défi le plus redoutable aujourd’hui. » D’ailleurs, pour contrer les biais de Waze, certains utilisateurs trompent tout simplement l’application en déclarant de faux accidents de la route pour détourner la circulation. « Si l’algo est le moteur, les données sont l’essence, résume Bertrand Billoud, responsable communication de Kisio Digital, filiale numérique de Keolis. Un logiciel sans données, c’est une voiture sans essence ! » Et pour que le moteur tourne bien, l’essence doit être bien raffinée, façon de dire que les données doivent être de qualité. C’est bel et bien chaque système algorithmique qu’il faut considérer, incluant les algos et leurs données.
La nature et la qualité des données évoluent et les algos doivent s’y adapter sans être dupés par leur quantité croissante. « C’est un problème délicat et crucial, reconnait Jean-Patrick Lebacque, directeur adjoint du département Composants et Systèmes de qui travaille sur la modélisation et la gestion des systèmes de transport public. Avant, nos données de trafic étaient de qualité, issues de capteurs et collectées par la puissance publique. Désormais, les données de transport sont en très grande quantité, souvent recueillies par des opérateurs privés, mais pas forcément fiables ni exhaustives ou représentatives. On ne maitrise pas les conditions du collecte. »
Réunir un jeu de données de transport en commun propres et avec un minimum de biais est même une gageure confirme Etienne Côme, chercheur à l’IfsttarInstitut français des sciences et technologies des transports, de l’aménagement et des réseaux : « Le problème vient parfois d’un industriel qui ne veut pas redistribuer ses données, d’un acteur public qui n’a pas encore l’autorisation de libérer les siennes ou encore de problèmes juridiques de protection des données… Par ailleurs, les données décrivent rarement la réalité du phénomène observé. Par exemple, la fraude dans les transports n’est pas forcément détectée. »
Détecter les biais, mieux optimiser
C’est en général après coup que les biais apparaissent. Sait-on les mesurer, les identifier et in fine les limiter ? « La définition même d’un algorithme biaisé ne va pas de soi, explique Aurélien Garivier, chercheur à l’Institut mathématiques de Toulouse (Université Paul-Sabatier). Et tout dépend des algorithmes. Dans le cas d’un algorithme interprétable (voir article suivant de ce dossier, ndlr), on peut s’assurer que la règle de prédiction utilisée n’est, au minimum, pas contraire à la loi : par exemple, qu’elle n’utilise pas de variable interdite comme l’origine ethnique. Mais cela n’est pas suffisant : des données peuvent être corrélées à un biais, moins explicite, comme le quartier ou l’âge dans cet exemple. Quant aux algorithmes produisant des boîtes noires, comme les réseaux de neurones, c’est encore plus complexe. Il sera nécessaire d’introduire des contraintes supplémentaires dans son apprentissage, par exemple imposer plus d’importance à certains exemples qu’à d’autres, pour les forcer à éviter les biais. Une autre solution est de prétraiter les données pour « débiaiser l’échantillon d’apprentissage ».»
Qu’en est-il des biais dus aux algorithmes eux-mêmes ? Ils sont en général liés aux critères d’optimisation. « Définir les critères idéaux pour satisfaire un ensemble de contraintes et d’objectifs est une science difficile », résume Etienne Côme. Il cite l’exemple de la mise au point des tables horaires de métros, qui, même si les biais potentiels ne risquent pas a priori de conduire à des discriminations majeures, éclairent le propos : « Quels critères retenir pour un résultat optimal ? Minimiser le temps d’attente des voyageurs, synchroniser au mieux les trains en termes de correspondance ou encore minimiser les consommations énergétiques en synchronisant l’accélération et le freinage des différents métros pour récupérer le plus possible d’énergie de freinage… ? A ma connaissance, il existe des travaux théoriques sur l’optimisation des horaires selon chaque critère mais pas d’optimisation globale. C’est loin d’être trivial. »
Au-delà de ces biais mathématiques, que dire des biais de bon nombre d’applications commerciales, entourées du secret industriel et dont l’objectif est avant tout la rentabilité ? Le problème est qu’ils sont particulièrement difficiles à détecter, tout comme il est quasi-impossible de reconstruire les algos à partir des données d’entrée et de sortie. Des chercheurs américains de l’Université Northeastern à Boston sont néanmoins parvenus à corréler le prix des courses proposées par l’algo d’Uber, une tarification dynamique, en fonction des quartiers, de l’offre et la demande. Mais ils n’ont pas retrouvé la formule exacte. On est donc contraints de faire confiance aux concepteurs des algos sans aucune garantie…
Auditer les algos
Pour limiter les pratiques commerciales résolument déloyales et s’assurer que les algorithmes soient bien au service des utilisateurs, la CNIL propose d’instaurer un principe de loyauté au travers d’obligations pour les plateformes quant au choix des critères de classement et à leur divulgation. En outre, dans le cas des algorithmes de machine learning, où les biais peuvent être à l’insu des concepteurs, la CNIL précise que l’algorithme ne doit pas susciter, reproduire ou renforcer de discriminations. Dans la même veine, la Fondation pour l’innovation britannique (Nesta) propose 10 recommandations pour encadrer la prise de décision algorithmique dans le secteur public. De quoi définir un cadre éthique pour la science des données du gouvernement britannique et pour se mettre en accord avec le RGPDRéglement général pour la protection des données (GDPR en anglais) et voir notre article. Reste à traduire ces principes et recommandations dans les faits.
« S’il semble difficile d’assurer qu’un système algorithmique soit irréprochable, même si l’on a accès de l’intérieur à son fonctionnement, une façon de limiter les biais serait de lui faire subir une forme d’audit sur des exemples artificiels, reprend Aurélien Garivier. Cela permettrait de vérifier l’algo avant de le mettre en service. » C’est ce qui est prévu dans la plateforme TransAlgo, que doit développer Inria : des algos pour auditer les systèmes algorithmiques.
Les garanties de l’open source, en attendant
L’open data et l’open source, lorsque c’est possible, seraient-ils des garanties tant de qualité des données que d’objectivité des algos ? Probablement, en ce que ces modes de développement collaboratifs suscitent en termes de variété des données, de partage des connaissances et de questionnement collectif. Kisio en fait l’expérience avec son API Navitia, une plateforme d’algorithmes de mobilité, mise en opensource en 2014 avec de nombreuses fonctionnalités comme le calcul d’itinéraires multimodaux, les prochains passages ou le calcul isochrone pour évaluer l’accessibilité sur le territoire. « Cette émulation nous permet de garantir l’absence de démarche commerciale, donc de proposer des itinéraires les plus neutres possible, résume Bertrand Billoud. Une énorme partie du travail concerne la mise en qualité des données notamment sous format GTFS. C’est une quête sans fin, complexe vu le nombre de formats existants dans les transports. Nous proposons aujourd’hui un hub de plus de 400 jeux de données du monde entier. Les nombreuses problématiques remontées dans nos forums nous aident assurément à limiter les biais. » Certains GAFA utilisent d’ailleurs la plateforme Navitia pour s’assurer de cette mise en qualité de leurs propres données, en open data donc !
Enfin, conformer les algos à une vision la plus représentative possible du monde suppose aussi de favoriser la diversité culturelle de leurs concepteurs. Car, même les algos les plus autonomes sont toujours paramétrés et pondérés par ceux qui les conçoivent. Des écoles comme Simplon qui favorisent la mixité chez les développeurs, tentent de corriger ce biais, sociétal cette fois.
Isabelle Bellin