L’intelligence artificielle à l’assaut de la haine en ligne
⏱ 6 minPour traquer les discours haineux, les ténors de l’internet et la recherche académique affûtent leurs modèles de langue.
La « haine en ligne » est l’une des plaies résultant de l’émergence de la société numérique. Certains pays ont entrepris de la juguler. En France, la loi du 24 juin 2020 visant à lutter contre les contenus haineux sur internet, dite « loi Avia », introduit dans le droit une obligation pour les sites de retirer les contenus manifestement illicites dans un délai de 24 heures après leur signalement. Lequel peut tarder. Même si le retrait intervient dans le délai imparti, il reste que des discours de haine peuvent tomber chroniquement sous le regard de tout un chacun, avec parfois des conséquences graves, voire dramatiques. Voilà pourquoi la détection automatique de cette haine numérique est devenue un thème de recherche. L’intelligence artificielle est invitée à proposer des contre-mesures.
La lutte contre la haine en ligne est devenue un sujet si important qu’elle fait l’objet depuis quelques années déjà de workshops, en général en marge de congrès consacrés à des thèmes plus larges, comme le traitement automatique du langage naturel (NLP). Il y a notamment le Workshop on Online Abuse and Harms (WOAH), qui se tient en marge de la NAACL, la conférence annuelle nord-américaine de l’Association for Computational Linguistics (ACL). La sixième édition se tiendra le 14 juillet à Seattle. Mais le sujet s’invite également dans des ateliers consacrés à des sujets plus généraux, comme au Workshop on Natural Language Processing for Social Media (SocialNLP).
ANALYSER LE LEXIQUE NE SUFFIT PAS
« La première idée qui a été testée pour lutter contre ce fléau a consisté à rechercher dans ces discours des mots clés caractéristiques de la haine, explique Irina Illina, maître de conférences à l’université de Lorraine et chercheuse au sein de l’équipe Multispeech (université de Lorraine, Inria et CNRS) au Loria (Nancy). Cela ne marche pas. Il est trop facile de contourner ce genre de filtre, car la haine peut être exprimée sans faire usage d’un lexique particulier. Elle peut jouer sur l’implicite… » Il est devenu assez rapidement évident qu’il fallait envisager le recours à des outils plus puissants, relevant de l’intelligence artificielle. Les réseaux de neurones sont aujourd’hui l’état de l’art. Et le modèle qui a le vent en poupe est le transformer. On a recours à des modèles lourds, comportant couramment une centaine de couches de neurones, parfois bien plus. « Avec ces modèles de langage, indique la chercheuse, on obtient déjà d’assez bons résultats. Typiquement, on détecte trois messages haineux sur quatre. La sensibilité est de l’ordre de 75%. Avec une spécificité du même ordre. »
« Nous avons travaillé sur le sujet notamment dans le cadre du projet franco-allemand M-Phasis, qui porte sur les discours haineux liés aux migrants dans les médias sociaux, poursuit Irina Illina. Financé de 2018 à 2022 par l’Agence nationale de la recherche (ANR) et son homologue allemand la Deutsche Forschungsgemeinschaft (DFG) il a pour thème : « Migration et discours haineux dans les médias sociaux, une perspective cross-culturelle » et implique pour la France le Centre de recherche sur les médiations (Crem) de l’université de Lorraine et l’équipe Multispeech du Loria. Trois doctorants ont contribué à ces travaux. » Ainsi, Nicolas Zampieri a comparé1 l’efficacité de différents modèles de langue de la famille Bert pour apprendre à détecter la haine dans le cadre spécifique des échanges sur Twitter. Ces modèles sont pré-entraînés sur des corpus de textes génériques gigantesques et il les a réentraînés (“fine tuning”) avec deux jeux de données de tweets étiquetés sur le critère de la haine. Il a constaté que le meilleur candidat était BERTweet, un modèle de langage publié en 2020, entraîné sur des tweets en anglais.
« On constate que les modèles obtenus sont efficaces sur le type de discours haineux utilisé pendant l’entraînement du modèle mais bien moins sur des discours haineux dans un autre registre, poursuit la chercheuse. L’une des thèses en cours dans notre équipe porte sur ce sujet, sur le transfert d’un modèle d’un registre à un autre. » Il semble que l’objectif d’obtenir un modèle capable de détecter la haine en général soit difficile à atteindre.
DES CHALLENGES INTERNATIONAUX
« Nous nous sommes bien sûr heurtés à la difficulté que représente la collecte de contenus tout en respectant la réglementation sur le respect de la vie privée, indique Dominique Fohr, un chercheur CNRS membre lui aussi de l’équipe Multispeech. Dans le cadre du projet M-Phasis, un jeu de données de propos haineux anti-immigrés en ligne, en français et en allemand, a été constitué et annoté finement (30 catégories). Il comporte notamment 6000 commentaires en français collectés sur des sites et annotés. » Une tâche nécessaire mais laborieuse et coûteuse. On cherche des solutions pour contourner les difficultés rencontrées. « Une autre thèse en cours dans notre équipe porte sur l’augmentation des données disponibles et la synthèse de données de bonne qualité, poursuit le chercheur. Une solution consiste par exemple à utiliser un modèle du type GPT-2 pour générer des données artificielles en grande quantité, puis de faire appel à un autre modèle pour filtrer cette production et ne garder que les meilleurs textes. »
Pour stimuler les recherches sur la détection de la haine en ligne, la communauté scientifique se lance des “challenges”, des défis. Parmi les équipes engagées dans ces concours, on rencontre celle de Josiane Mothe, une chercheuse de l’équipe Systèmes d’Information Généralisés (SIG) de l’Institut de Recherche en Informatique de Toulouse (IRIT). Elle a ainsi concouru2 en 2020 dans le défi HASOC (Hate Speech and Offensive Content Identification in Indo-European Languages), à une épreuve (sub-task A) en langue anglaise qui a été remportée par une équipe indienne. En faisant appel à des modèles de langue de la famille BERT, elle s’est classée 21ème sur 35 (avec des performances très proches des meilleures). Elle a également participé3 au défi accompagnant le workshop TRAC (Trolling, Aggression and Cyberbullying) 2020, en l’occurrence dans le volet en langue anglaise. Toujours à l’aide de modèles de type BERT, elle est arrivée en 12ème position sur 16 pour la détection d’agression et 11ème sur 15 pour l’identification d’agression misogyne.
« L’un de nos objectifs est de comparer l’efficacité des réseaux de neurones de l’apprentissage profond aux méthodes plus anciennes de l’apprentissage automatique, comme les forêts aléatoires ou les machine à vecteurs de support (SVM pour “Support Vector Machine”), explique Josiane Mothe. Ces outils classiques travaillent sur des paramètres extraits à partir des textes. Il peut s’agir d’informations relatives au lexique, à la syntaxe, la ponctuation, la capitalisation (usage immodéré des majuscules), au recours aux émoticônes… Ces modèles ont l’avantage de permettre d’obtenir des résultats intéressants même à partir d’un jeu de données modeste. À l’inverse, les réseaux de neurones travaillent à partir des textes bruts, sans nécessiter de traitement préalable, mais ne fonctionnent bien que si l’on dispose d’un jeu de données important, ce qui n’est pas évident dans ce domaine. »
LES GÉANTS DU WEB EN PREMIÈRE LIGNE
« Nous nous intéressons aussi aux solutions reposant sur plus d’un modèle, sur ce que l’on appelle un “ensemble”, poursuit Josiane Mothe. Il peut s’agir par exemple d’un réseau de neurones associé à une forêt aléatoire, ou pourquoi pas de deux réseaux de neurones. Chacun des modèles peut avoir démontré son efficacité pour un certain type de discours haineux et sur le long terme, l’avis obtenu en combinant ceux de deux modèles peut s’avérer plus fiable que le résultat issu de chacun d’eux. »
Bien entendu, les GAFAM, notamment Facebook et Google, sont aux premières loges. Elles ont à la fois les moyens et la motivation pour participer à cette course. Leurs équipes de R&D s’appuient sur les travaux académiques, mais elles participent elles-mêmes activement à la recherche. Bien sûr, elles ne publient pas le détail de leurs meilleures recettes, qui constituent pour elles des avantages compétitifs, mais on retrouve leurs chercheurs dans les ateliers et challenges consacrés au sujet. Ces grands acteurs du numérique soutiennent d’ailleurs ces manifestations et parfois les organisent.
Ainsi en 2020, Facebook, ou plutôt Meta AI, le bras armé pour l’IA de l’entité gérant le réseau social, a organisé un challenge portant sur la détection de contenu multimodal préjudiciable (“harmful multimodal content”), en l’occurrence de contenu bimodal. Le jeu de données proposé aux participants offrait une collection d’exemples d’agressions véhiculées par un texte accompagné d’une image, tous deux isolément anodins, mais dont le rapprochement produisait un message clairement haineux. Par exemple le texte « Regarde combien de gens t’aiment » accompagné d’une photo de désert. Une forme d’expression particulièrement sournoise…
La haine ne cesse de trouver de nouvelles ficelles pour s’insinuer dans la société numérique. Pour la contrer, il faut sans cesse faire preuve d’intelligence.
Pierre Vandeginste
1. Nicolas Zampieri, Irina Illina, Dominique Fohr. A comparative study of different state-of-the-art NLP models for efficient automatic hate speech detection. Comments, hate speech, disinformation and public communication regulation 2021, Sep 2021, Zagreb, Croatia. ⟨hal⟩
2. Josiane Mothe, Pratik Parikh, Faneva Ramiandrisoa. IRIT-PREVISION AT HASOC 2020: Fine-tuning BERT for Hate Speech and Offensive Content Identification. Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC@FIRE 2020). ⟨hal⟩
3. Faneva Ramiandrisoa, Josiane Mothe. IRIT at TRAC 2020. Second Workshop on Trolling, Aggression and Cyberbullying, European Language Resources Association (ELRA), 2020. ⟨hal⟩