Présidentielle 2017 : une réorganisation politique du web social ?
⏱ 6 min[vc_row][vc_column][vc_column_text]
Pierre Latouche (Université Paris 1), Charles Bouveyron (Université Paris Descartes), Damien Marié (SATT IDFINNOV), Guilhem Fouetillou (Sciences Po Paris)
Emmanuel Macron vient d’être élu à la présidence de la République sur un programme dont une des priorités est la recomposition de la vie politique. La période précédant les législatives était sujette à de fortes interrogations quant à la réorganisation à venir des partis politiques. Afin d’apporter un éclairage sur ce point, nous avons étudié pendant les semaines qui ont précédé le second tour de l’élection présidentielle, les mouvements et transferts entre les partis, avec un prisme particulier, celui du web social.
Une méthodologie statistique pour l’analyse de réseaux
Pour cela, nous avons utilisé une méthodologie statistique, dénommée STBM (Stochastic Topic Block Model) 1, que nous développons depuis 2015 dans le but de modéliser les réseaux et leurs échanges en faisant apparaître un clustering latent. Rappelons que le clustering est une technique qui vise à regrouper les individus (possiblement en grand nombre) en un nombre limité de groupes homogènes afin de faciliter l’interprétation des données. Dans ce cadre, les méthodes statistiques présentent l’avantage d’offrir une segmentation fine des données dont l’interprétation est facilitée par le modèle statistique sous-jacent.
Adapté aux réseaux de taille modérée à grande (de quelques centaines à plusieurs centaines de milliers d’individus), STBM peut analyser des échanges de textes que ce soit des emails, des contenus scientifiques, des tweets, etc. D’un point de vue plus technique, le modèle au cœur de l’algorithme STBM est une généralisation de deux modèles statistiques reconnus : le SBM (Stochastic Block Model) qui permet de modéliser la structure d’un réseau par clustering et le LDA (Latent Dirichlet Allocation) qui permet d’analyser les thèmes abordés dans des textes. STBM est ainsi capable d’étudier conjointement le contenu des échanges et les interactions entre des individus ou des groupes d’individus. À titre d’exemple, STBM a été appliqué à l’analyse du réseau des emails de l’entreprise Enron 2, qui avait connu une faillite très médiatique au début des années 2000, et à l’analyse de réseaux de co-publications scientifiques. Notons que notre plateforme Linkage.fr permet à chacun de faire traiter par STBM ses propres données de réseaux (emails, PubMed, Arxiv, Twitter, …).
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
Écouter les bruissements du web social
À partir de tous les tweets des français liés à la politique, extraits et formatés par Linkfluence, spécialiste de la veille sur les réseaux sociaux, nous nous sommes concentrés sur deux périodes : lundi 17 – mardi 18 avril et lundi 24 – mardi 25 avril 2017, c’est-à-dire quelques jours avant et juste après le premier tour des présidentielles qui avaient lieu le dimanche 23 avril. La plupart des outils permettant d’analyser ce type de données voient les tweets comme un ensemble de documents et ont pour objectif d’étudier le choix des mots, les thèmes de discussion majoritaires, et les sentiments relayés.
Or, les tweets sont, par nature, des données bien plus riches : ils caractérisent des interactions entre des individus. Par exemple, un individu A interagit avec B s’il retweete un message de B ou s’il écrit un message faisant référence à B. Un ensemble de tweets peut ainsi être vu comme un graphe ou un réseau complexe (Figures 1). Malheureusement, les outils d’analyse de réseaux sont limités et ne peuvent pour l’essentiel gérer que des interactions binaires entre les individus (untel interagit avec untel ou non).[/vc_column_text][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column width= »1/2″][vc_single_image image= »11684″ img_size= »600×600″ alignment= »center »][vc_column_text]
Figure 1.1 : Réseau des tweets des français liés à la politique les 17 et 18 avril 2017.
[/vc_column_text][/vc_column][vc_column width= »1/2″][vc_single_image image= »11621″ img_size= »600×600″ alignment= »right »][vc_column_text]
Figure 1.2 : Réseau des tweets des français liés à la politique les 24 et 25 avril 2017.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][vc_column_text]L’analyse des réseaux est un domaine de recherche particulièrement actif dont un des objectifs est l’extraction automatique d’informations pertinentes au regard des interactions observées entre des individus. Les premiers développements, pour les sciences sociales, datent des années 30. Mais l’immense majorité des outils ont ensuite été proposés par des physiciens et des informaticiens. Leur but ? Maximiser un critère bien particulier : la modularité.
La modularité reflète la formation de communautés. Il s’agit d’identifier des groupes d’individus ayant plus de connexions entre eux qu’avec des individus d’autres groupes. Prenons l’exemple des communautés de réseaux sociaux (Facebook, LinkedIn, twitter, Viadeo, etc.). Elles vérifient le principe de transitivité : l’ami de mon ami est mon ami. Mais les réseaux en général et les réseaux sociaux en particulier sont souvent construits à partir d’autres types de groupes que les amis. Certains individus ont, par exemple, une forte influence sur les avis et les comportements de la communauté : cela définit des groupes d’influenceurs et d’influencés. Parfois, c’est la structure même du réseau qui est inversée : on observe alors plus de connexions entre des individus de groupes différents qu’entres des individus d’un même groupe.
Les recherches en mathématiques, et en particulier en statistique, ont fourni ces quinze dernières années plusieurs solutions, notamment SBM, pour palier les limites des outils existants. Ces approches permettent en particulier d’identifier des individus organisés en communautés, mais également en d’autres types d’organisations sociales. La recherche française en statistique a largement contribué aux avancées théoriques et méthodologiques dans ce domaine.
Nous avons développé STBM dans le cadre d’un projet de collaboration entre les laboratoires de mathématiques des universités Paris 1 Panthéon-Sorbonne et Paris Descartes. Cette solution permet d’analyser le réseau social dans ses multiples interactions : il n’est plus vu comme un objet binaire, un individu A interagissant avec un individu B en échangeant un texte donné. L’individu A peut par exemple envoyer plusieurs emails à B : l’interaction de A vers B est alors caractérisée par cet ensemble d’emails.
Ainsi, pour des données de type tweet, une interaction de A vers B rassemble tous les tweets écrits par A faisant directement ou indirectement (retweet) référence à B. Cela permet d’identifier des groupes d’individus en fonction des autres individus auxquels ils s’adressent et des sujets dont ils parlent. Car la méthode permet également de déterminer les thèmes de discussion entre les groupes. Par exemple, le groupe A discute beaucoup avec le groupe B sur le sujet C.
En déduire la recomposition politique en marche
Nous avons appliqué notre méthode pour analyser les tweets des 17-18 avril et 24-25 avril, sur la base des deux réseaux que nous avons construits ces jours-là. Nous avons ainsi pu identifier cinq thèmes de discussion et dix groupes d’individus, et cela dans les deux cas.
Pour la 1ère période (17-18 avril), quatre de ces thèmes correspondent aux tweets des français à propos des principaux candidats. Quant au cinquième thème, il rassemble uniquement les tweets critiquant le système politique en général. Comme nous le verrons, cet aspect critique a été au cœur de cette campagne électorale, relayé par les individus et par tous les partis politiques.
Nous avons également pu étiqueter la tendance politique de chacun des groupes identifiés en examinant leurs comptes Twitter. Cela nous a permis de constater que contrairement à tous les autres partis, le parti socialiste se retrouve isolé. Il ne tweete pas ou peu avec les candidats et les principaux médias, représentés par le groupe central en gris sur la Figure 2. Un isolement sur les réseaux sociaux qui s’est traduit dans les bulletins de vote…[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image= »11639″ img_size= »full » alignment= »center »][vc_column_text]
Figure 2 : représentation agrégée de la Twittosphère politique française des 17 et 18 avril. Chaque nœud caractérise un groupe. Sa taille est proportionnelle au nombre d’individus qu’il contient. La couleur des flèches indique les thèmes majoritaires de discussion Insoumis (bleu), FN (orange), Critique du système (vert), En Marche (rouge).
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]Autre constatation : les poids des partis que nous avons identifiés se sont avérés proches du vote des français (Figure 3) : 24.1% des comptes analysés ont ainsi été classés dans le groupe EM (En Marche) et Emmanuel Macron a obtenu 24.01% des voix.
.[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image= »11625″ img_size= »full » alignment= »center »][vc_column_text]
Figure 3 : poids des partis politiques sur Twitter les 17 et 18 avril.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]Nous avons réalisé une analyse similaire sur la période des 24-25 avril 2017, entre les deux tours de l’élection présidentielle. Notre objectif était notamment d’observer la recomposition du paysage politique sur le réseau Twitter après les résultats du 1er tour (Figure 4). Nous avons pu constater que, sur les cinq thèmes de discussion, deux étaient, cette fois, associés à En Marche : l’un, comme pour les tweets du 17-18 avril, uniquement dédié à EM et un autre rassemblant des discussions mentionnant à la fois EM et les Insoumis (flèche verte). Comme lors de notre analyse avant le premier tour, on observe un thème de discussion uniquement sur le FN et deux thèmes de critiques dont un autour du rejet du système politique en général.[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image= »11643″ img_size= »full » alignment= »center »][vc_column_text]
Figure 4 : représentation agrégée de la Twittosphère politique française des 24 et 25 avril. Chaque nœud caractérise un groupe et sa taille est proportionnelle au nombre d’individus qu’il contient. La couleur des flèches indique les thèmes majoritaires de discussion : FN (rouge), EM-Insoumis (vert), EM (bleu), Critique du système (orange), Critique (violet).
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]Comme pour le premier tour, nous avons pu identifier le poids des partis sur Twitter. Les résultats bruts donnent 66 % pour EM et 34 % pour le FN. À la vue des résultats du 2nd tour, cette estimation est bien sûr troublante. Emmanuel Macron a gagné les élections avec 66,10 % contre 33,90 % pour Marine Le Pen…
Nous avons communiqué ces résultats via un tweet 3 avant le second tour. Selon nos analyses, sur Twitter, les Insoumis semblaient finalement se tourner vers EM à plus de 79 %. Nous observions également une fracture à droite, une part importante des utilisateurs de Twitter actifs proches de François Fillon étant classée FN. Ainsi, contrairement au groupe identifié à droite, passé à hauteur de 17 % au FN, le groupe associé à François Fillon est, quant à lui, passé à plus de 53 % au FN. Les autres utilisateurs de Twitter de droite et issus de LR sont allés majoritairement vers EM.
Nos analyses statistiques nous ont donc, bel et bien, permis d’estimer la recomposition du paysage politique à l’issue du 1er tour des élections présidentielles. C’est une première qui suggère que l’étude des échanges sur les réseaux sociaux permet de suivre certains changements de comportements électoraux. Pour autant, le web social ne peut pas être utilisé aujourd’hui de la sorte comme source de données de sondage, notamment parce qu’une grande partie de la population française ne participe pas à ces réseaux. Mais cela démontre, s’il en était besoin, la puissance d’interprétation de l’analyse de données. Cela révèle aussi les sujets au cœur des préoccupations des français.
1 C. Bouveyron, P. Latouche and R. Zreik, The Stochastic Topic Block Model for the Clustering of Networks with Textual Edges, Statistics and Computing, in press, 2017.
2 Voir https://linkage.fr/blog/Enron-Scandal pour une analyse détaillée.
3 Tweet du vendredi 5 mai : https://twitter.com/latouche_pierre/status/860471570220929024[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row]