Huma-Num : une infrastructure au service des humanités numériques
⏱ 6 minHuma-Num est une très grande infrastructure de recherche (TGIR) de stockage et de valorisation des données de sciences humaines et sociales (SHS). Créée en 2013, cette plateforme à vocation internationale n’a pas d’équivalent dans le monde en termes d’offres de services et d’outils numériques.
« Malgré ses qualités et son originalité que beaucoup nous envient, Huma-Num n’est pas encore très connue, reconnaît Stéphane Pouyllau, son directeur adjoint. Les chercheurs oublient souvent de la citer dans leurs publications scientifiques, même quand la totalité de leurs données y est stockée… Les statisticiens, y compris ceux de l’Insee ou du ministère de la Santé, commencent tout juste à nous connaître. » Il faut dire qu’il existe un certain nombre d’infrastructures de stockage et traitement de données en sciences humaines et sociales (comme dans les autres champs scientifiques) : depuis dix ans, dans certaines Maisons des sciences de l’homme, liées à des universités, comme à Rennes ou Toulouse, ou de dimension nationale, liées au ministère de la Recherche, comme Progedo.
Des outils pour les sciences humaines et sociales
« Nous veillons à ce que toutes ces infrastructures soient interopérables avec nous pour éviter les incompatibilités, les redondances, précise Stéphane Pouyllau. Outre l’interopérabilité, nos mots d’ordre sont pérennité, visibilité et accès aux données en vue de leurs réutilisations. » Aujourd’hui, Huma-Num gère 25 à 30 % des données des chercheurs en sciences humaines et sociales (SHS). Cela représente environ 1 pétaoctet (soit 1015 octets ou 1 000 To), la moitié de la capacité maximale actuelle. Les données sont hébergées au Centre de Calcul de l’IN2P3-CNRS, à Lyon, et archivées (pour un stockage de plus de vingt ans) au Cines (Centre informatique national de l’Enseignement supérieur).
Que propose cette Très Grande Infrastructure de recherche (TGIR On compte 22 TGIR en France.) ? D’abord, comme l’indique ce label, Huma-Num relève d’une stratégie gouvernementale, et a une vocation internationale, à l’instar de TGIR très connues comme le LHC en physique des particules. Huma-Num a vocation à être au service des chercheurs en SHS pour les aider à stocker, préserver, traiter et valoriser les données de leurs recherches, à les diffuser et favoriser les échanges. L’infrastructure met à leur disposition les services classiques de stockage, archivage, préservation de leurs données, mais aussi une offre combinée de services pour les aider à gérer et valoriser leurs données tout au long de leur cycle de vie.
Huma-Num héberge quelques 1 000 projets de recherche. Environ deux tiers sont des projets ANR (Agence nationale de la recherche), liés à des universités, des Maisons des sciences de l’homme, etc. et environ un tiers sont des projets internationaux, européens ou bilatéraux. « Nous en hébergions 150 il y a trois ans, relève Stéphane Pouyllau, fier de cette progression. Notre originalité est que notre organisation et notre développement sont basés sur un dialogue avec les chercheurs au sein de consortiums, pour structurer ces communautés de chercheurs en matière d’outillage numérique, et pour leur proposer les services spécifiques pérennes dont ils ont besoin. »
Adapté aux communautés de recherche
Huma-Num réunit actuellement huit consortiums sur des thématiques principalement disciplinaires, telles que l’histoire, l’ethnologie ou la géographie, mais aussi sur les données 3D. « À titre d’exemple, le consortium 3D identifie en ce moment toutes les données 3D hébergées sur Huma-Num concernant Notre-Dame-de-Paris, et en intègre d’autres, pour aider à la reconstruction de la cathédrale, raconte Stéphane Pouyllau. Associer ainsi services de base et outils adaptés à des communautés de recherche est particulièrement efficace. Et unique au monde. » Seule une organisation jacobine, centralisée, portée par une très forte volonté politique, rend possible de telles infrastructures stratégiques de recherche. Comment imaginer mélanger ses données entre universités privées, et en concurrence, comme c’est souvent le cas dans les pays anglo-saxons ? « Les centres qui se développent ailleurs sont à plus petite échelle, liés à un länderen Allemagne, une université aux États-Unis ou au Canada, comme au Crihn (Centre de recherche interdisciplinaire pour humanités numériques) de Montréal, avec lequel nous travaillons », remarque-t-il.
Quelles sont les données en question ? Des données de SHS, particulièrement variées donc ! Des corpus de données scientifiques comme des bases de données d’enquêtes, y compris issus de capteurs telles que des mesures de trafic sur des routes, des corpus patrimoniaux d’images, de photos, de manuscrits numérisés, des données archéologiques et historiques, parfois en 3D, voire 4D, parfois des données statistiques. « On a de plus en plus d’ensembles de données non structurées, ou semi-structurées, depuis trois ans, précise Stéphane Pouyllau. C’est par exemple le cas avec les données du projet Open Jerusalem. Cette vaste coopération internationale regroupe plus de 190 historiens de 28 pays, pour faire l’inventaire, et réunir, tous les manuscrits sur Jérusalem, dans toutes les langues. Huma-Num est une des infrastructures européennes mise à profit pour permettre à ces chercheurs de coopérer. Nous développons des boîtes à outils pour les aider à valoriser leurs données, rendre les documents interopérables, relier les personnalités historiques citées dans les documents. »
L’interopérabilité est un des credo d’Huma-Num. « C’est une des conditions pour pouvoir travailler avec d’autres infrastructures, que ce soit à l’échelle nationale ou internationale, confirme Stéphane Pouyllau. L’infrastructure doit être seamless (sans couture) pour les chercheurs, ils doivent pouvoir s’échanger des données, faire des calculs distribués sans contrainte. Cela suppose entre autres des formats de données standards, ce qui est une gageure en SHS, vu les différences liées aux langues, aux aires culturelles. Nous sommes parvenus à limiter ces formats à une dizaine ; il y en avait une cinquantaine il y a dix ans. » Preuve que le numérique est désormais intégré aussi dans ces disciplines, même si quelques traditions conservatrices perdurent dans les méthodes de travail de certains.
Des services qui servent d’exemple en Europe
Parmi les services innovants offerts par Huma-Num, citons Nakala et Isidore. « Nakala permet de déposer ses données, de les documenter pour mieux les partager, et de les valoriser, explique Stéphane Pouyllau. Ce dispositif permet d’ajouter des métadonnées aux documents pour constituer des corpus de fichiers reliés entre eux, et d’utiliser des référentiels scientifiques interfacés avec des référentiels internationaux. Les chercheurs peuvent aussi créer en quelques clics leur propre plateforme de données, un petit site web, qui leur permet de les citer dans une publication ou de les présenter lors d’un colloque. » Un des projets H2020 en cours, baptisé SSHOC, a pour but d’étendre ce type de pratiques interopérables à l’échelle européenne en interconnectant les différents réservoirs de données de façon dynamique avec des méthodes de type deep learning pour y puiser de nouveaux corpus de données.
Quant à Isidore, c’est un « assistant sémantique de recherche ». Il combine un moteur de recherche académique (dédié aux seules données SHS validées) et un réseau social couplé à un système d’identification automatique des auteurs et thèmes de recherche : « Chaque chercheur peut créer son espace personnel, y regrouper ses publications, ses livres, ses carnets de recherche, blogs, etc. provenant de Nakala ou de tout autre entrepôt de données tant pour les montrer que pour être mis en relation avec d’autres chercheurs dans ces mêmes thématiques, détaille Stéphane Pouyllau. Nous continuons d’améliorer ce moteur de recommandations qui permet d’identifier les synergies autour de sujets, de données, de référentiels utilisés. » Cela marche dans les deux sens : le système a accès aux données de l’article et le chercheur a accès, à partir de ses propres données, à la littérature scientifique qui utilise ces mêmes données. Il connaît ainsi toutes les équipes qui travaillent sur son sujet dans le monde. De tels systèmes, qui existent depuis longtemps par exemple en astronomie, sont très nouveaux en SHS.
« À ce sujet, nous coordonnons un projet H2020 baptisé Triple, réunissant dix-huit partenaires de douze pays européens, ajoute Stéphane Pouyllau. Sur les principes d’Isidore, nous y développons un outil d’expertise en SHS à destination des chercheurs pour renforcer leurs collaborations et les échanges scientifiques, y compris interdisciplinaires mais aussi pour la société civile (institutions publiques, journalistes, entreprises, citoyens). Cela permettra, par exemple, en cas de crise majeure, comme actuellement avec le Covid-19, d’identifier les chercheurs travaillant sur le sujet. » Le projet a débuté en octobre 2019 pour 42 mois. Il couvrira l’ensemble des disciplines avec un accès à neuf langues. Des perspectives d’envergure.
Pour en savoir plus :
Olivier Baude, Adeline Joffres, Nicolas Larrousse, Stéphane Pouyllau. Huma-Num : Une infrastructure française pour les Sciences Humaines et Sociales. Stratégie, organisation et fonctionnement. DH 2017, Aug 2017, Montréal, Canada. hal-02151240
Isabelle Bellin