
L’analyse quantitative des données de sciences humaines et sociales
Les chercheurs de sciences humaines et sociales (SHS) explorent leurs données avec des méthodes statistiques depuis des siècles. Ils utilisaient l’analyse de réseaux et la théorie des graphes bien avant que les physiciens ne rebaptisent cela « sciences des réseaux ». Aujourd’hui, les données comme celles des réseaux sociaux numériques sont analysées tant par des chercheurs SHS que par des data scientists et partout l’interdisciplinarité se développe.
« On peut faire commencer l’histoire des statistiques sociales avec les premières tables de mortalité parues en 1665 pour recenser les décès à Londres selon l’âge et établir des probabilités conditionnelles de survie face aux épidémies, raconte Claire Lemercier, historienne à Science Po (Centre de sociologie des organisations). Dès cette époque, les milieux savants remarquent ces nouvelles manières de calculer et l’assurance sur la vie s’empare rapidement de l’outil. »
Depuis, les méthodesVoir par exemple : https://www.scienceshumaines.com/methodes-quantitatives-pour-les-sciences-sociales_fr_15151.html ont évolué, les données aussi, notamment depuis que notre société est numérisée de toutes parts (voir article 1 de ce dossier, « les données de sciences humaines et sociales« ). Outre les méthodes classiques (statistiques descriptives, statistiques inférentiellesLa statistique inférentielle, que l’on distingue traditionnellement de la statistique descriptive, consiste à inférer d’un échantillon aléatoire des propriétés de la population étudiée, essentiellement sur le mode de tests d’hypothèses., analyses de réseaux), des méthodes à base d’apprentissage automatique (machine learning) sont parfois utilisées (voir art 4 de ce dossier, « le machine learning en sciences humaines et sociales« ). Le choix de la méthode dépend de la question posée. « Lorsqu’une source se prête à la quantification, le traitement le plus élaboré n’est pas forcément le meilleur, conseille l’historienne, coauteure d’un ouvrage sur les méthodes quantitatives en histoire (1). Souvent, de simples comptages et tris croisés, assortis des tests de significativité adéquats, suffisent à donner des réponses aux questions posées. »
R devient la règle
L’analyse quantitative est aujourd’hui à la portée des chercheurs de SHS notamment grâce au langage de programmation R (très utilisé aussi par les chercheurs en « sciences dures »). Ce logiciel, libre et donc gratuit, est développé depuis les années 90, ses fonctionnalités évoluent grâce aux extensions développées par chaque communauté. « R est un logiciel très puissant qui permet de réaliser à peu près tous les traitements de données possibles dont, bien entendu, l’analyse de réseaux, affirme Laurent Beauguitte, géographe de l’UMR Géographie-cités. Seul inconvénient, il fonctionne à l’aide de scripts et nécessite donc l’apprentissage d’un langage particulier mais qui, une fois maîtrisé, permet de gagner un temps fou : obtenir toute une série de mesures sur un graphe prend quelques secondes au lieu de dizaines de clics avec un logiciel presse boutons comme Ucinet, Netdraw, Visone ou Pajek. » Outre les tutoriels, ouvrages ou Mooc (2 ,3, 4), l’utilisation de R est de plus en plus enseignée dans les formations de SHS, le plus souvent au niveau master, surtout en sociologie, en géographie ou en sciences politiques, disciplines habituées à la quantification, et lors de stages ou d’écoles d’été.
L’analyse de réseaux et sa théorie des graphes
Côté méthodes, l’analyse de réseaux a connu un essor important en SHS de longue date. Probablement parce qu’elle est assez intuitive. Cet ensemble d’outils d’analyse et de représentation est fondé sur la théorie des graphesLa théorie des graphes est une branche des mathématiques depuis le fameux problème des sept ponts de Königsberg(ou comment, à partir d’un point de départ, ne passer qu’une et une seule fois par chaque pont, et revenir à son point de départ), un problème résolu par Euler en 1759.. Les graphes donnent une représentation des liens et interactions d’un réseau entre les objets qui le constituent (individus, groupes, institutions, textes, particules, etc.) : les objets sont symbolisés par des nœuds ou sommets et leurs relations par des arêtes. On peut ainsi représenter et étudier des individus, des communautés et leur histoire sociale, des mouvements sociaux, mais aussi des réseaux hydrographiques ou techniques (de transport de matière, d’énergie ou d’information) ou encore des réseaux généalogiques en histoire ou des réseaux trophiques en écologie. Cela permet également de revisiter l’histoire des savoirs ou des entreprises et depuis les années 2000 de décrire les réseaux sociaux numériques.
Chercheurs SHS et data scientist travaillent sur ces données main dans la main (voir encadré ci-dessous) ou pas. C’est le cas de Marc Lelarge, chercheur à Inria qui développe des algorithmes de recommandations à partir des graphes sociaux du type Facebook. « Les graphes sont un outil d’abstraction très intéressant pour ce type de données, précise-t-il : ils nous permettent de poser de nouvelles questions sans avoir à fixer un cadre précis alors que les bases de données classiques et les tables de type Excel se limiteraient à une ligne par utilisateur et peu d’informations à renseigner. Mais il n’y a pas besoin d’avoir un gros graphe pour faire des choses intéressantes ! » Il rappelle aussi que l’algorithme d’affectation des étudiants Parcoursup, tout comme celui d’APB utilise un graphe, les nœuds étant les étudiants et les formations.
Une science des réseaux ?
On date l’origine de l’analyse des réseaux aux années 1930 avec la sociométrieLa sociométrie est l’étude des relations interpersonnelles d’un groupe à un moment donné et pour une situation donnée. de J. Moreno, considéré comme précurseur en analyse de réseaux sociaux et en psychologie sociale. Mathématiquement, l’analyse des réseaux repose sur le calcul matriciel et nécessite une importante puissance de calcul. C’est la raison pour laquelle elle se développe surtout depuis les années 1960. « Il ne faut pas faire table rase de cette tradition », prévient Claire Lemercier relayant ainsi le message de collèguesQuelques références sur ce débat en géographie (https://halshs.archives-ouvertes.fr/halshs-01093664), en archéologie (https://www.jstor.org/stable/43654602?seq=1#page_scan_tab_contents ) ou en sociologie (http://journals.sagepub.com/doi/abs/10.1177/0038038507087353 ). de diverses disciplines.
« De fait, depuis l’avènement des réseaux sociaux numériques, la mode est de parler de « sciences des réseaux » (ou network science) alors qu’il ne s’agit en rien d’une nouvelle science, confirme Laurent Beauguitte. Les bases conceptuelles ont peu changé depuis les années 1970 y compris pour ce qu’on appelle désormais les réseaux complexes (ou complex network) qui ne sont que de gros volumes de données. Par contre, certaines méthodes classiques en analyse de réseaux ne sont pas adaptées pour des gros réseaux et cela a entraîné l’apparition de nouvelles techniques, notamment pour la détection de communautés (sous-graphes denses). »
C’est notamment la communauté des physiciens, qui travaille sur les réseaux depuis seulement une vingtaine d’années notamment pour décrire les interactions entre particules et les propriétés des molécules, qui a fait exploser les travaux en analyse de réseaux. De nouvelles publications ont vu le jour comme la nouvelle série IEEE, Transactions on Network Science and Engineering, lancée en 2014. Duncan J. Watts, sociologue à l’université de Columbia (États-Unis), aujourd’hui chez Microsoft, raconte l’histoire de cette science des réseaux avec une certaine ironie dans un ouvrage de référence (5).
Ces dernières années, l’analyse des réseaux a de nouveau le vent en poupe en SHS, notamment en histoire : « Cela permet de produire des indicateurs chiffrés et des schémas de synthèse fondés sur autre chose que l’intuition », justifie Claire Lemercier. L’analyse de réseau est d’ailleurs le thème de nombreuses rencontres comme Connected Past organisées notamment autour de l’archéologie ou le colloque annuel HNR (Historical Network Research). C’est aussi la raison d’être du site Réseaux et histoire (Res-Hist) destiné à favoriser le dialogue entre historiens travaillant sur les réseaux, du programme interdisciplinaire sur la modélisation des réseaux en histoire (Morehist) ou encore du Journal of Historical Network Research (JHNR) créé fin 2017.
Partager les savoirs et non les opposer
Des méthodes de réseaux formels ont été développées dans les différentes disciplines, en sociologie, économie, histoire, plus récemment en physique. « Les développements des physiciens, avec l’énorme force de frappe qui est la leur, ont forcé les autres disciplines à prendre position, raconte Laurent Beauguitte. Mais chacun travaillait de son côté : il y avait très peu de citations communes sur l’analyse des réseaux entre physiciens et chercheurs de SHS au début des années 2000. Cela a changé : l’interdisciplinarité est aujourd’hui de plus en plus courante. Avec l’intérêt de partager un vocabulaire, des méthodes et des outils communs entre SHS et sciences dures. »
« Nous tentons de décloisonner les disciplines, de collaborer pour comprendre comment un informaticien construit ses données, les analyse, comment chacun mobilise ses compétences… » ajoute Laurent Beauguitte, qui est aussi directeur du GDR Analyse de réseaux en SHS (ARSHS), une initiative originale pour rassembler toutes les disciplines autour de ce sujet. On y trouve historiens, informaticiens, sociologues, archéologues, juristes, physiciens, mathématiciens, géomaticiens, économistes, statisticiens… Le GDR a également lancé une nouvelle revue pluridisciplinaire, ARCS dont un des buts est de soutenir les recherches transparentes, reproductibles avec un accès aux données et au script.
« La communauté de chercheurs interdisciplinaires est encore assez restreinte, note Antoine Mazières, post doctorant au Centre Marc Bloch (CMB) à Berlin qui compte une des principales équipes européennes des sciences sociales computationnelles. Parmi les lieux à Paris qui ont cette ambition depuis leur création, il y a notamment le Centre de recherche interdisciplinaire (CRI), le Medialab à Science Po et l’Institut des systèmes complexes (voir encadré ci-dessous, ndlr). Ensuite, les laboratoires de SHS tentent de recruter des profils « quanti » mais c’est souvent compliqué car, d’une part, il sont très demandés, et, d’autre part, les profils interdisciplinaires, en tout cas en sociologie et science politique, peuvent être disqualifiés en amont par le CNULe CNU régit le recrutement et la carrière des professeurs des universités et des maîtres de conférences (Conseil national des universités) qui exige un ancrage disciplinaire traditionnel.»
Isabelle Bellin
Pour aller plus loin :
(1) Lemercier Claire, ZalcClaire, Méthodes quantitatives pour l’historien. La Découverte, « Repères », 2008, 128 pages : https://www.cairn.info/methodes-quantitatives-pour-l-historien–9782707153401.htm
(2) Pierre-André Cornillon, François Husson, Nicolas Jégou, Eric Matzner-Lober, Julie Josse, Arnaud Guyader, Laurent Rouvière, Maela Kloareg, Statistiques avec R, Presses universitaires de Rennes, coll. « Pratique de la statistique », 2012, 296 p., ISBN : 978-2-7535-1992-3.
(3) Jean-Herman Guay, Statistiques en sciences humaines avec R, 2014, ISBN : 9782804189341 et site pour les usagers francophones de R en sciences humaines et sociales, http://dimension.usherbrooke.ca/dimension/v2ssrcadre.html
(4) Mooc « Réseaux et graphes en sciences sociales » préparé par l’Université Paris 1 Panthéon-Sorbonne, disponible en septembre sur https://www.fun-mooc.fr/universities/Paris1/
(5) Duncan J. Watts, Six degrees. The science of a connected age, 2004
(6) Rozenblat C. Mélençon G. eds 2013, Methods for Multilevel Analysis and Visualisation of Geographical Networks. Dordrecht, Springer, Methodos Series 11.