Détecter les fausses nouvelles grâce au NLP
⏱ 4 minLa propagation de fausses nouvelles est une plaie de notre époque. L’IA peut nous aider à l’endiguer, ou au moins la freiner. Tout d’abord en analysant les textes grâce aux outils de traitement automatique des langues.
Le déferlement de « fake news », autrement dit de fausses informations, notamment via les réseaux sociaux, est devenu un problème sociétal majeur. De multiples initiatives ont été lancées pour aider les professionnels de l’information, et le citoyen, à s’en protéger. Un outil essentiel dans ce combat est l’intelligence artificielle, plus particulièrement l’apprentissage automatique.
« L’approche la plus évidente consiste à étudier ces textes avec les outils du NLP (Natural Language Processing, en français le traitement automatique des langues), explique Vincent Claveau, chercheur CNRS au sein de l’équipe LinkMedia, à l’Irisa de Rennes. Toutes sortes d’outils de classification peuvent être mis à profit : forêts aléatoires, machines à vecteurs de support (SVM pour « support vector machine »), réseaux de neurones du type LSTM (Long short-term memory, en français « réseau récurrent à mémoire court et long terme ») et même des transformers, du type BERT (Bidirectional Encoder Representations from Transformers). »
Les signes distinctifs des fakes news
Les fake news ont généralement un style particulier. Les classifieurs utilisés pour les repérer apprennent à les distinguer des nouvelles issues de médias sérieux, en détectant des signes distinctifs dans divers registres, comme la ponctuation, le vocabulaire (superlatif, affirmatif, émotionnel…), l’usage de pronoms personnels (je, nous…), d’abréviations, le recours aux émoticônes… Les fake news sur Twitter ont des caractéristiques particulières, dues notamment au format court imposé. Le registre de langue est particulier, les abréviations y sont très employées.
« Bien sûr, l’apprentissage automatique peut aussi faciliter la production de fake news, indique Vincent Claveau. Et il circule déjà des fausses nouvelles artificielles, générées à l’aide d’outils tels que des transformers du type GPT-3, ou des GAN (Generative Adversarial Networks, c’est-à-dire « réseaux adverses génératifs »). L’IA est dans les deux camps, et on assiste à une course aux armements, un peu comme pour le spam. »
Absence ou présence de référence
Un aspect important permettant de différencier les nouvelles, fausses ou véritables, est l’absence ou la présence de référence à une source, ou plusieurs. Mais la fake news peut « pointer » vers une prétendue source qui n’est en fait qu’un producteur ou propagateur de fausses nouvelles. Elle peut aussi faire référence à une source sérieuse, mais lui faire dire ce qu’elle ne dit pas. Une autre façon de détecter les fausses nouvelles consiste à étudier les réactions qu’elles suscitent. Cette approche fait en quelque sorte appel à l’intelligence collective. Par ailleurs, on peut, bien sûr, tenter d’aller au-delà de l’analyse de la forme. À défaut de prétendre « comprendre » une fake news, on peut tenter d’en extraire automatiquement les éléments essentiels : Qui ? Quoi ? Pourquoi ? Ce qui peut faciliter le travail des journalistes.
« Des outils de détection des fake news peuvent être utiles dans au moins trois contextes, précise Vincent Claveau. Ils peuvent aider directement le plus grand nombre, le citoyen. Par exemple en lui signalant directement que tel contenu est vraisemblablement, ou certainement, une fake news. » Dans ce cas, le travail de vérification a été effectué préalablement par des professionnels. C’est dans cet esprit qu’un consortium européen auquel participe l’AFP (Agence France Presse) a développé un plug-in, que tout un chacun peut installer dans son navigateur, pour être automatiquement alerté quand il tombe sur une fake news répertoriée par l’équipe de l’agence.
Une aide pour les journalistes
« Mais c’est surtout dans un contexte professionnel que les outils de détection sont nécessaires, ajoute Vincent Claveau. Ils aident le journaliste, en attirant son attention sur des nouvelles classifiées comme suspectes, et lui font gagner du temps pour remonter aux sources et démonter les supercheries. Un autre type d’outils utiles aux professionnels de l’information les aide à vérifier la véracité des arguments mis en avant par les fake news, afin de les démonter. Par exemple en automatisant, en fonction des besoins, l’accès à des bases de données officielles, ou d’autres en accès libre. » Ce qui permet de constater en quelques clics que, par exemple, telle information chiffrée est fausse ou que telle personne n’a pas dit ce qu’on lui fait dire.
Diverses initiatives ont été lancées afin de fournir des outils aux professionnels de l’information. Ainsi, dès 2016, le projet ContentCheck, impliquant quatre laboratoires de recherche, ainsi que le service de fact-checking du Monde (Les Décodeurs), se proposait de développer des logiciels ad hoc. Depuis, le consortium WeVerify, financé par l’Union européenne et qui réunit des équipes de recherche et des organes de presse, dont l’AFP, poursuit cet effort.
Les réseaux sociaux aux premières loges
« Enfin, les bons outils de détection des fake news sont particulièrement utiles pour les réseaux sociaux eux-mêmes, estime Vincent Claveau. Les opérateurs de ces réseaux, les Facebook, Twitter et autres, sont bien entendu bien mieux placés pour traiter le problème que n’importe quelle entité extérieure, puisqu’ils sont aux premières loges. Ils peuvent aisément suivre les parcours, repérer les sources et les propagateurs… Mais se pose alors un problème éthique, politique : est-il normal que des entreprises privées se substituent à la puissance publique pour trier ce que les utilisateurs disent et propagent, au final pour dire le « vrai » et le « faux » ? »
La plupart des fake news sont accompagnées d’une ou plusieurs images : photographies le plus souvent, mais aussi graphiques, vidéos et autres. Qui peuvent être détournées, trafiquées ou encore fabriquées de toutes pièces. C’est un sujet en soi, que nous aborderons prochainement. Par ailleurs, un autre angle d’attaque efficace contre les fake news est le « path-checking », qui consiste à chercher par où est passée la fausse nouvelle, dans quelles sphères elle s’est propagée. Nous aborderons également cette approche dans un prochain article.