Évaluer les intelligences artificielles
⏱ 6 minAuteurs : Guillaume Avrin, Agnès Delaborde, Olivier Galibert (Evaluation des systèmes d’intelligence artificielle, LNE)
Contact : guillaume.avrin@lne.fr
Le Laboratoire national de métrologie et d’essais (LNE) a été proposé comme organisme de référence pour évaluer les systèmes d’intelligence artificielle (IA) en France. Pourquoi faut-il évaluer les IA ? Que faut-il évaluer ? Comment mesurer les performances et les caractéristiques des IA ? Autant de domaines dans lesquels le LNE ouvre des voies inédites.
Devant la multitude de solutions d’intelligence artificielle proposées par des acteurs toujours plus nombreux, l’évaluation est un outil indispensable d’aide à la décision. Elle permet à une entreprise qui souhaite acquérir un système d’intelligence artificielle, qu’il s’agisse d’un chatbot pour sa relation client ou d’un robot agricole automatisé, de s’appuyer sur des mesures de performance fiables. L’évaluation est également un important levier de développement lorsque les concepteurs d’IA participent à des campagnes d’évaluation dans le but de comparer différentes approches scientifiques et technologiques et de démontrer l’efficacité de leur système face à la concurrence. Cela leur permet de concentrer leurs efforts de R&D sur les briques technologiques les plus critiques.
Développer la métrologie de l’IA jusqu’à la certification
Dans son rapport sur l’intelligence artificielle, rendu public en mars dernier, Cédric Villani pointe le besoin de « développer et déployer des standards, tests et méthodes de mesure pour faire de l’IA une technologie plus sécurisée, fiable, utilisable, interopérable ». Il propose que, dans la continuité de ses missions historiques, le LNE devienne « l’autorité compétente en matière d’évaluation (au sens de la métrologie) dans le domaine de l’IA, et construise les méthodes d’essais nécessaires à cette fin ».
De fait, aucune certification dédiée spécifiquement à l’IA n’existe à l’heure actuelle. Or, l’essor de l’intelligence artificielle rend nécessaire de fixer ce cadre reconnu garantissant la conformité des algorithmes à des exigences de qualité et de performance. Les outils d’évaluation, notamment les métriques, les bases de données de tests et les environnements de tests, pourront contribuer à l’établissement de ces référentiels normatifs, une fois qu’ils auront atteint un niveau de maturité suffisant et que leur diffusion les aura rendus accessibles au plus grand nombre.
Que faut-il évaluer ? La qualification des intelligences artificielles et des robots est une problématique complexe : elle repose généralement sur une mesure quantitative des performances du système. Elle peut également faire intervenir des évaluations de sécurité et d’éthique, conditions indispensables à une acceptabilité collective.
Evaluer la fonctionnalité
Le premier objectif de l’évaluation d’une IA est de s’assurer de sa fonctionnalité, c’est-à-dire de vérifier que le système est en mesure de réaliser la tâche pour laquelle il a été conçu, tout en respectant un ensemble de spécifications. Dans l’idéal, l’évaluation doit être objective, quantitative, et reposer sur des mesures répétables et des expérimentations reproductibles. Prenons le cas d’un véhicule autonome : s’il s’agit d’évaluer sa capacité à franchir un obstacle, la métrique de performance est simple. Elle est binaire : c’est le succès ou l’échec du franchissement. Dans de nombreux cas, la métrique s’apparente à un taux d’erreur. C’est notamment le cas pour les systèmes de transcription automatique – qui permettent de convertir un fichier audio en un fichier texte – avec la métrique dénommée Word Error Rate, très courante : elle consiste à additionner les mots incorrectement reconnus (substitutions), les mots omis (suppressions) et les mots ajoutés (insertions), avant de diviser cette somme par le nombre de mots du fichier à transcrire.
L’évaluation ne peut cependant pas toujours être objective. C’est notamment le cas pour la traduction automatique, puisqu’il peut exister plusieurs traductions correctes. La réponse préférée dépendra de la personne chargée de l’évaluation. De même, évaluer la qualité de l’interaction d’un robot avec un être humain, par exemple un chatbot, est très subjectif. De nombreux biais peuvent influer sur les résultats, comme la crainte ou l’appétence de l’utilisateur et/ou de l’évaluateur pour les nouvelles technologies, ou encore des consignes données à l’IA par le développeur qui peuvent ne pas satisfaire l’utilisateur, etc.
Ce manque d’objectivité peut-il être compensé par la reproductibilité des expérimentations ? Pas toujours. Lorsqu’il s’agit d’évaluer l’efficacité d’une collaboration entre un cobotUn cobot est un robot collaborant avec un opérateur humain, de manière directe ou téléopérée, pour attendre un objectif donné. manipulateur et un opérateur, ce dernier ne sera jamais en mesure de reproduire plusieurs fois les mêmes mouvements. L’expérimentation ne pourra donc jamais être exactement reproduite.
Évaluation d’un véhicule autonome en environnement de test virtuel dans le cadre du projet SVA
(Simulation pour la sécurité du véhicule autonome) de l’IRT SystemX
Estimer la robustesse du système
Comment évaluer la robustesse et la capacité de généralisation d’une IA ? Cela suppose de caractériser l’environnement de fonctionnement du système, c’est-à-dire le périmètre d’utilisation dans lequel il a un comportement robuste. Un problème délicat, car les environnements dans lesquels sont amenés à évoluer les systèmes intelligents sont par nature variables, souvent fortement. C’est notamment le cas des véhicules autonomes qui interviennent dans des environnements ouverts dont les conditions météorologiques, de trafic et de géométrie de route sont variables. Idem dans un tout autre contexte, celui des systèmes de transcription automatique, confrontés à des accents et des tournures de phrases différentes. La solution ? Des simulateurs : ils permettent de tester un très grand nombre de combinaisons de conditions environnementales pour une application donnée et ainsi d’analyser la sensibilité des performances du système à ces variations.
Identifier ensuite l’origine des éventuelles sous-performances d’une IA, et estimer la pertinence des choix technologiques, suppose parfois de recourir à des évaluations modulaires de chacune des briques technologiques du système intelligent. Cela permet de tracer les performances du système sur l’intégralité de sa chaîne de traitement automatique de l’information, de la détection d’informations dans l’environnement à la prise de décision, jusqu’à la réalisation d’une action.
Mesure des performances du robot humanoïde HRP-2 du LAAS dans une enceinte climatique du LNE.
Comment choisir une IA ?
Concrètement, comment évaluer un système intelligent et le comparer aux offres du marché ? Dans le cas idéal, les IA existantes doivent être directement évaluées sur le cas d’usage du client, formalisé auparavant. Il doit inclure les différents scénarios de test (en précisant les différentes conditions environnementales de fonctionnement dans l’application visée), les bases de données de tests annotées et les environnements d’essais réels ou de simulation.
Ces évaluations permettent de procéder à un benchmarking des solutions potentielles. Un rapport d’évaluation, remis au donneur d’ordres à la fin de la campagne d’évaluation, présente les mesures de performances des différents systèmes évalués et permet une prise de décision pragmatique et argumentée.
Se tourner vers un tiers de confiance indépendant
Compte tenu de la grande diversité des environnements à soumettre au système, le client ne dispose pas des moyens nécessaires à tous ces essais. Et il ne peut bien sûr pas s’en remettre au seul développeur, qui sera tenté de réduire son champ d’évaluation aux cas qui lui paraîtront les plus probants pour son produit.
Le LNE présente plusieurs atouts distinctifs pour jouer un rôle de tiers arbitre : il s’agit d’un établissement public, indépendant de tout intérêt particulier et dont la sincérité des avis est donc assurée, de même que la protection de la propriété intellectuelle des éléments qui lui sont confiés (procédés et données à tester) ; cette neutralité est renforcée par sa stricte spécialisation dans le métier de l’évaluation (le LNE ne développe pas de technologies d’intelligence artificielle).
En outre, le LNE dispose d’une expertise métier relative à l’évaluation des systèmes intelligents qui comprend la sélection, la qualification et l’annotation des données, la définition de protocoles d’évaluation et de métriques, ainsi que l’analyse des résultats. Il a réalisé plus de 850 évaluations de systèmes dans des domaines très variés de l’intelligence artificielle : qu’il s’agisse du traitement de la parole (compréhension, transcription, traduction, diarisation, détection d’entités nommées, comparaison de voix), d’images (reconnaissance d’écriture, reconnaissance de personnes) ou de robotique (véhicules autonomes, robots humanoïdes, robots agricoles). Le LNE organise notamment les campagnes d’évaluation en intelligence artificielle de l’Agence nationale de la recherche (ANR), dans le cadre du dispositif « Challenge »Ce dispositif vise à encourager plusieurs équipes de chercheurs à travailler simultanément sur une même problématique. Il s’agit ainsi de confronter les idées, les approches, les travaux des projets financés. Une retombée collective du programme sera de favoriser l’établissement de benchmarks, de standards, afin de pouvoir comparer des travaux scientifiques sur un nouveau domaine de recherche.. Le laboratoire dispose ainsi d’acquis et de moyens techniques et humains uniques en France et en Europe.
Pour en savoir plus :
les différents projets menés au LNE en matière d’évaluation des IA :
https://www.lne.fr/fr/essais/evaluation-systemes-intelligence-artificielle