L’analyse quantitative des données de sciences humaines et sociales
⏱ 9 min[vc_row][vc_column][vc_column_text]Les chercheurs de sciences humaines et sociales (SHS) explorent leurs données avec des méthodes statistiques depuis des siècles. Ils utilisaient l’analyse de réseaux et la théorie des graphes bien avant que les physiciens ne rebaptisent cela « sciences des réseaux ». Aujourd’hui, les données comme celles des réseaux sociaux numériques sont analysées tant par des chercheurs SHS que par des data scientists et partout l’interdisciplinarité se développe.
« On peut faire commencer l’histoire des statistiques sociales avec les premières tables de mortalité parues en 1665 pour recenser les décès à Londres selon l’âge et établir des probabilités conditionnelles de survie face aux épidémies, raconte Claire Lemercier, historienne à Science Po (Centre de sociologie des organisations). Dès cette époque, les milieux savants remarquent ces nouvelles manières de calculer et l’assurance sur la vie s’empare rapidement de l’outil. »
Depuis, les méthodesVoir par exemple : https://www.scienceshumaines.com/methodes-quantitatives-pour-les-sciences-sociales_fr_15151.html ont évolué, les données aussi, notamment depuis que notre société est numérisée de toutes parts (voir article 1 de ce dossier, « les données de sciences humaines et sociales« ). Outre les méthodes classiques (statistiques descriptives, statistiques inférentiellesLa statistique inférentielle, que l’on distingue traditionnellement de la statistique descriptive, consiste à inférer d’un échantillon aléatoire des propriétés de la population étudiée, essentiellement sur le mode de tests d’hypothèses., analyses de réseaux), des méthodes à base d’apprentissage automatique (machine learning) sont parfois utilisées (voir art 4 de ce dossier, « le machine learning en sciences humaines et sociales« ). Le choix de la méthode dépend de la question posée. « Lorsqu’une source se prête à la quantification, le traitement le plus élaboré n’est pas forcément le meilleur, conseille l’historienne, coauteure d’un ouvrage sur les méthodes quantitatives en histoire (1). Souvent, de simples comptages et tris croisés, assortis des tests de significativité adéquats, suffisent à donner des réponses aux questions posées. »
R devient la règle
L’analyse quantitative est aujourd’hui à la portée des chercheurs de SHS notamment grâce au langage de programmation R (très utilisé aussi par les chercheurs en « sciences dures »). Ce logiciel, libre et donc gratuit, est développé depuis les années 90, ses fonctionnalités évoluent grâce aux extensions développées par chaque communauté. « R est un logiciel très puissant qui permet de réaliser à peu près tous les traitements de données possibles dont, bien entendu, l’analyse de réseaux, affirme Laurent Beauguitte, géographe de l’UMR Géographie-cités. Seul inconvénient, il fonctionne à l’aide de scripts et nécessite donc l’apprentissage d’un langage particulier mais qui, une fois maîtrisé, permet de gagner un temps fou : obtenir toute une série de mesures sur un graphe prend quelques secondes au lieu de dizaines de clics avec un logiciel presse boutons comme Ucinet, Netdraw, Visone ou Pajek. » Outre les tutoriels, ouvrages ou Mooc (2 ,3, 4), l’utilisation de R est de plus en plus enseignée dans les formations de SHS, le plus souvent au niveau master, surtout en sociologie, en géographie ou en sciences politiques, disciplines habituées à la quantification, et lors de stages ou d’écoles d’été.
L’analyse de réseaux et sa théorie des graphes
Côté méthodes, l’analyse de réseaux a connu un essor important en SHS de longue date. Probablement parce qu’elle est assez intuitive. Cet ensemble d’outils d’analyse et de représentation est fondé sur la théorie des graphesLa théorie des graphes est une branche des mathématiques depuis le fameux problème des sept ponts de Königsberg(ou comment, à partir d’un point de départ, ne passer qu’une et une seule fois par chaque pont, et revenir à son point de départ), un problème résolu par Euler en 1759.. Les graphes donnent une représentation des liens et interactions d’un réseau entre les objets qui le constituent (individus, groupes, institutions, textes, particules, etc.) : les objets sont symbolisés par des nœuds ou sommets et leurs relations par des arêtes. On peut ainsi représenter et étudier des individus, des communautés et leur histoire sociale, des mouvements sociaux, mais aussi des réseaux hydrographiques ou techniques (de transport de matière, d’énergie ou d’information) ou encore des réseaux généalogiques en histoire ou des réseaux trophiques en écologie. Cela permet également de revisiter l’histoire des savoirs ou des entreprises et depuis les années 2000 de décrire les réseaux sociaux numériques.
Chercheurs SHS et data scientist travaillent sur ces données main dans la main (voir encadré ci-dessous) ou pas. C’est le cas de Marc Lelarge, chercheur à Inria qui développe des algorithmes de recommandations à partir des graphes sociaux du type Facebook. « Les graphes sont un outil d’abstraction très intéressant pour ce type de données, précise-t-il : ils nous permettent de poser de nouvelles questions sans avoir à fixer un cadre précis alors que les bases de données classiques et les tables de type Excel se limiteraient à une ligne par utilisateur et peu d’informations à renseigner. Mais il n’y a pas besoin d’avoir un gros graphe pour faire des choses intéressantes ! » Il rappelle aussi que l’algorithme d’affectation des étudiants Parcoursup, tout comme celui d’APB utilise un graphe, les nœuds étant les étudiants et les formations.[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_cta h2= » »]
Visualiser l’identité numérique
« Les traces numériques que nous laissons via nos données personnelles sur le web sont bien plus que de simples traces, précise Fanny Georges, sociologue à l’université Paris 3 (IRMeCCeN). Même si ce ne sont que des reformulations sur de nouveaux supports d’expression, ces données sont le fruit d’un processus spécifique d’expression individuelle, lié à l’histoire et au contexte de chacun. L’erreur serait de les analyser de façon brute, en les passant « à la moulinette ». »
Au cours de sa thèse, elle a développé un modèle d’identité numérique très simple, souvent repris. Il a 3 composantes : l’identité déclarative (construite à partir des informations données par l’internaute comme le sexe, l’âge ou le pseudonyme), l’identité agissante (renseignée indirectement par ses activités, la liste de ses « amis » ou ses photos postées) et l’identité calculée (produite ou déduite par le système, autrement dit l’algorithme, comme le nombre d’amis, le temps de connexion, etc.).
« Dans la lignée de ce modèle, grâce à une collaboration quotidienne avec des informaticiens, nous avons sélectionné les données pour produire une visualisation individuelle de l’identité numérique d’un usager des réseaux sociaux numériques (RSN), poursuit-elle. Cela a été possible grâce à une acculturation réciproque. Ce modèle permet d’approfondir la vision des données d’un usager, de les situer les uns par rapport aux autres, de croiser les données. » Cette visualisation, selon une approche qualitative quantifiée, rend compte de la façon dont un usager se présente sur les RSN. Fanny Georges a par exemple utilisé ce modèle pour étudier l’identité numérique des défunts, à partir des traces produites par le défunt de son vivant.
Les liens entre l’utilisateur X (au centre) et ses amis Y (sur la périphérie) sont de trois couleurs : les liens bleus représentent le nombre d’amis en commun ; les liens jaunes, le nombre de groupes partagés ; les liens roses le nombre de photos de X taguées au nom de Y. L’épaisseur des liens traduit l’intensité des relations.
Crédit : https://hal.archives-ouvertes.fr/hal-00410952/document[/vc_cta][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
Une science des réseaux ?
On date l’origine de l’analyse des réseaux aux années 1930 avec la sociométrieLa sociométrie est l’étude des relations interpersonnelles d’un groupe à un moment donné et pour une situation donnée. de J. Moreno, considéré comme précurseur en analyse de réseaux sociaux et en psychologie sociale. Mathématiquement, l’analyse des réseaux repose sur le calcul matriciel et nécessite une importante puissance de calcul. C’est la raison pour laquelle elle se développe surtout depuis les années 1960. « Il ne faut pas faire table rase de cette tradition », prévient Claire Lemercier relayant ainsi le message de collèguesQuelques références sur ce débat en géographie (https://halshs.archives-ouvertes.fr/halshs-01093664), en archéologie (https://www.jstor.org/stable/43654602?seq=1#page_scan_tab_contents ) ou en sociologie (http://journals.sagepub.com/doi/abs/10.1177/0038038507087353 ). de diverses disciplines.
« De fait, depuis l’avènement des réseaux sociaux numériques, la mode est de parler de « sciences des réseaux » (ou network science) alors qu’il ne s’agit en rien d’une nouvelle science, confirme Laurent Beauguitte. Les bases conceptuelles ont peu changé depuis les années 1970 y compris pour ce qu’on appelle désormais les réseaux complexes (ou complex network) qui ne sont que de gros volumes de données. Par contre, certaines méthodes classiques en analyse de réseaux ne sont pas adaptées pour des gros réseaux et cela a entraîné l’apparition de nouvelles techniques, notamment pour la détection de communautés (sous-graphes denses). »
C’est notamment la communauté des physiciens, qui travaille sur les réseaux depuis seulement une vingtaine d’années notamment pour décrire les interactions entre particules et les propriétés des molécules, qui a fait exploser les travaux en analyse de réseaux. De nouvelles publications ont vu le jour comme la nouvelle série IEEE, Transactions on Network Science and Engineering, lancée en 2014. Duncan J. Watts, sociologue à l’université de Columbia (États-Unis), aujourd’hui chez Microsoft, raconte l’histoire de cette science des réseaux avec une certaine ironie dans un ouvrage de référence (5).
Ces dernières années, l’analyse des réseaux a de nouveau le vent en poupe en SHS, notamment en histoire : « Cela permet de produire des indicateurs chiffrés et des schémas de synthèse fondés sur autre chose que l’intuition », justifie Claire Lemercier. L’analyse de réseau est d’ailleurs le thème de nombreuses rencontres comme Connected Past organisées notamment autour de l’archéologie ou le colloque annuel HNR (Historical Network Research). C’est aussi la raison d’être du site Réseaux et histoire (Res-Hist) destiné à favoriser le dialogue entre historiens travaillant sur les réseaux, du programme interdisciplinaire sur la modélisation des réseaux en histoire (Morehist) ou encore du Journal of Historical Network Research (JHNR) créé fin 2017.
Partager les savoirs et non les opposer
Des méthodes de réseaux formels ont été développées dans les différentes disciplines, en sociologie, économie, histoire, plus récemment en physique. « Les développements des physiciens, avec l’énorme force de frappe qui est la leur, ont forcé les autres disciplines à prendre position, raconte Laurent Beauguitte. Mais chacun travaillait de son côté : il y avait très peu de citations communes sur l’analyse des réseaux entre physiciens et chercheurs de SHS au début des années 2000. Cela a changé : l’interdisciplinarité est aujourd’hui de plus en plus courante. Avec l’intérêt de partager un vocabulaire, des méthodes et des outils communs entre SHS et sciences dures. »
« Nous tentons de décloisonner les disciplines, de collaborer pour comprendre comment un informaticien construit ses données, les analyse, comment chacun mobilise ses compétences… » ajoute Laurent Beauguitte, qui est aussi directeur du GDR Analyse de réseaux en SHS (ARSHS), une initiative originale pour rassembler toutes les disciplines autour de ce sujet. On y trouve historiens, informaticiens, sociologues, archéologues, juristes, physiciens, mathématiciens, géomaticiens, économistes, statisticiens… Le GDR a également lancé une nouvelle revue pluridisciplinaire, ARCS dont un des buts est de soutenir les recherches transparentes, reproductibles avec un accès aux données et au script.
« La communauté de chercheurs interdisciplinaires est encore assez restreinte, note Antoine Mazières, post doctorant au Centre Marc Bloch (CMB) à Berlin qui compte une des principales équipes européennes des sciences sociales computationnelles. Parmi les lieux à Paris qui ont cette ambition depuis leur création, il y a notamment le Centre de recherche interdisciplinaire (CRI), le Medialab à Science Po et l’Institut des systèmes complexes (voir encadré ci-dessous, ndlr). Ensuite, les laboratoires de SHS tentent de recruter des profils « quanti » mais c’est souvent compliqué car, d’une part, il sont très demandés, et, d’autre part, les profils interdisciplinaires, en tout cas en sociologie et science politique, peuvent être disqualifiés en amont par le CNULe CNU régit le recrutement et la carrière des professeurs des universités et des maîtres de conférences (Conseil national des universités) qui exige un ancrage disciplinaire traditionnel.»
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_cta h2= » »]
Des plateformes pour modéliser les systèmes complexes de données
Depuis 2005, l’Institut des systèmes complexes Paris Ile-de-France (ISC-PIF) fournit aux chercheurs de toutes disciplines, non spécialistes, des moyens matériels et théoriques pour analyser leurs données massives et en déduire des modèles explicatifs. « Les plateformes d’analyse de données et de simulation que nous déployons, sous licence libre, sont particulièrement adaptées aux chercheurs de SHS, par exemple pour les modélisations de réseaux sociaux numériques ou de systèmes économiques complexes, précise David Chavalarias, directeur de l’ISC-PIF. Nos outils théoriques sont ceux de la physique, des mathématiques, de l’informatique ou de l’analyse de réseaux et nous mettons à disposition des chercheurs de puissantes infrastructures de calcul comme une grille de calcul ou un cloud académique. »
La plateforme OpenMole permet de déterminer les paramètres clés d’une modélisation d’un système complexe comme cela a été fait dans l’ERC Geodivercity (6) (voir article sur Geodivercity, »un projet interdisciplinaire exemplaire en géographie« ) ou encore d’explorer l’ensemble des comportements possibles d’un modèle comme pour la simulation de l’ensemble des bâtis possibles selon les plans locaux d’urbanisation. « Nous apportons aux chercheurs des outils compatibles avec leurs pratiques, poursuit-il. Les économistes ou les géographes n’ont pas l’habitude de coder dans les langages spécifiques pour les simulations à grande échelle. OpenMole fait l’interface entre leur modèle écrit en Python, R, Java, etc. et nos infrastructures de calcul tout en proposant des méthodes état-de-l’art pour explorer les modèles. » Ils peuvent ainsi lancer un modèle des millions de fois et mieux tirer parti des données obtenues, par exemple pour faire une analyse de sensibilité comme le font couramment les physiciens. La prochaine version d’OpenMole « sera disponible en ligne sous forme de service web, promet David Chavalarias. Nous proposons régulièrement des formations gratuites, que ce soit à OpenMole ou à nos autres plateformes : par exemple, Gargantext sert à explorer les grands corpus de textes issus de la presse, du web, des archives académiques et permet de faire des états de l’art ou de la veille concurrentielle ; Multivac est un service web pour analyser en quelques minutes de grosses bases de données, comme des tweets. »[/vc_cta][/vc_column][/vc_row][vc_row][vc_column][vc_empty_space][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
Isabelle Bellin
Pour aller plus loin :
(1) Lemercier Claire, ZalcClaire, Méthodes quantitatives pour l’historien. La Découverte, « Repères », 2008, 128 pages : https://www.cairn.info/methodes-quantitatives-pour-l-historien–9782707153401.htm
(2) Pierre-André Cornillon, François Husson, Nicolas Jégou, Eric Matzner-Lober, Julie Josse, Arnaud Guyader, Laurent Rouvière, Maela Kloareg, Statistiques avec R, Presses universitaires de Rennes, coll. « Pratique de la statistique », 2012, 296 p., ISBN : 978-2-7535-1992-3.
(3) Jean-Herman Guay, Statistiques en sciences humaines avec R, 2014, ISBN : 9782804189341 et site pour les usagers francophones de R en sciences humaines et sociales, http://dimension.usherbrooke.ca/dimension/v2ssrcadre.html
(4) Mooc « Réseaux et graphes en sciences sociales » préparé par l’Université Paris 1 Panthéon-Sorbonne, disponible en septembre sur https://www.fun-mooc.fr/universities/Paris1/
(5) Duncan J. Watts, Six degrees. The science of a connected age, 2004
(6) Rozenblat C. Mélençon G. eds 2013, Methods for Multilevel Analysis and Visualisation of Geographical Networks. Dordrecht, Springer, Methodos Series 11.
[/vc_column_text][/vc_column][/vc_row]