

L’open data des données juridiques se fait attendre
⏱ 7 minBien loin des promesses de numérisation des données de justice en 2016, une faible part est aujourd’hui en open data. Plonger dans le monde des documents juridiques permet de comprendre pourquoi leur publication est complexe à mettre en œuvre. Et pourquoi l’attente se prolongera probablement encore plusieurs années.
Les Legaltech, créées en nombre en France à partir de 2016, misaient sur une abondante matière première juridique gratuite pour développer des intelligences artificielles (IA)… Elles en sont pour leurs frais ! Car si en pratique les jugements sont publics, seule une infime partie est accessible. La mise en application des promesses d’open data des données juridiques, inscrites dans la Loi pour une République numérique (loi Lemaire, promulguée en octobre 2016) se fait toujours attendre, le décret d’application de l’article L. 111-13 du code de l’organisation judiciaire n’étant toujours pas publié.
« Beaucoup de choses devraient s’éclaircir d’ici quelques mois avec la parution, attendue, de ce décret d’application, espère Édouard Rottier, responsable du bureau des diffusions numériques du service de documentation, des études et du rapport (SDER) de la Cour de cassation. L’open data est un projet essentiel pour la Cour de cassation. Sa mise en œuvre est complexe, notamment dans le contexte du Règlement général sur la protection des données (RGPD), qui renforce la protection des données personnelles. Le calendrier a également été retardé du fait des modifications introduites par la loi de programmation et de réforme de la justice du 23 mars 2019. Pour autant, les conclusions du rapport Cadiet (mission d’étude confiée à Loïc Cadiet, professeur à l’École de droit de la Sorbonne) remis en novembre 2017, restent d’actualité. »
Quelles sont les données juridiques disponibles ?
En droit, on distingue trois types de données : les textes normatifs (lois, décrets…), la jurisprudenceLa jurisprudence désigne l’ensemble des décisions de justice relatives à une question juridique donnée. Elle rassemble des décisions précédemment rendues, qui illustrent la manière dont un problème juridique a été résolu. et la doctrine juridique (l’ensemble des opinions données par les universitaires et les juristes – la doctrine n’est pas une « source de droit » mais elle fait autorité). Cette dernière est publiée le plus souvent par des éditeurs juridiques privés (comme Dalloz, Francis Lefebvre, Les Éditions Législatives, Lexis Nexis, Wolters Kluwer France, etc.). Elle est très peu en libre accès, mis à part les thèses et mémoires de droit. « Ces fonds, comme on les appelle, sont le Graal, fait remarquer Emmanuel Barthe, documentaliste juridique et blogueur (voir Precisement.org). Ils contiennent les recommandations implicites qui dictent l’importance de telle loi ou telle jurisprudence. On pourrait s’inspirer de la doctrine pour faire de bonnes IA juridiques, en exploitant notamment les liens hypertextes entre celle-ci et la jurisprudence. » Quant à l’open data des fonds publics (textes normatifs et jurisprudence), ils sont d’ores et déjà accessibles pour les textes normatifs, de façon quasi exhaustive, sur Legifrance ; en revanche, la jurisprudence n’est en open data que de façon très partielle.


© Livre blanc sur l’open data jurisprudentiel (OpenLaw, 2016), sous licence CC-BY-SA 4.0.
Quelles données en open data ?
Concrètement, très peu de décisions de première instance sont publiées alors que presque toutes les données des cours suprêmes (Cour de cassation, Conseil d’État) sont en open data. Et en appel, environ les deux tiers des 250 000 décisions administratives publiées chaque année sont en open data (depuis 2012, sur Legifrance). En revanche, pas plus de 3 % des quelques 150 000 décisions civiles d’appel contenues dans Jurica sont publiées, soit bien moins de 1 % des près de 3,8 millions de décisions rendues sur une année par les juridictions judiciaires.
Loin du big data, au total, près d’un million de décisions sont donc téléchargeables par tout un chacun avec un avertissement qui interdit de ré-identifier les personnes concernées, sous peine de tomber sous le coup de la loi. Pour le reste, seuls les éditeurs juridiques traditionnels et quelques start-up sont abonnés au flux complet de Jurica et d’Ariane. Ils retraitent les documents reçus, les nettoient, les convertissent au format XML, les enrichissent de métadonnées comme des liens vers leur doctrine. En général, ils offrent ensuite un accès payant à leurs propres bases. En février 2018, selon une enquête de Juriconnexion, une association qui regroupe tous les utilisateurs d’informations juridiques, Lexis Nexis annonçait disposer de 2,9 millions de décisions, Dalloz de 2 millions, Lexbase de 3,6 millions et Doctrine, de près de 8 millions… chiffre invérifiable et mis en doute par beaucoup.
Des données exploitables ?
Quand les Legaltechs peuvent-elles espérer bénéficier, comme promis, de toutes les données juridiques en open data, de quoi entraîner leurs moteurs de recherche et outils d’analyse automatique [lire le 1er article de ce dossier « Le marché convoité de la valorisation des données juridiques » NDLR] ? C’est en bonne voie pour la justice administrative, on l’a vu, et les données sont relativement bien structurées. Concernant la justice judiciaire, cela risque d’être beaucoup plus long, notamment en première instance. Et toutes ces données sont textuelles, brutes en général avec quelques métadonnées comme la date, le nom de la juridiction.
Pourquoi une telle différence d’un ordre de juridiction à l’autre ? Car le pouvoir et les moyens de la justice administrative sont sans commune mesure avec ceux de l’ordre judiciaire qui doit, en outre, faire face à plus de dix fois plus de décisions à traiter. Résultat : Le Conseil d’État, qui gère directement les applications informatiques de l’ensemble des juridictions administratives, a d’ores-et-déjà la maîtrise d’une base complète de l’ensemble de ses décisions, alors qu’aucune base de données ne regroupe pour l’instant les décisions pénales ou les décisions civiles de première instance.
« À part la jurisprudence administrative où les décisions sont en général rédigées de façon régulière et structurée ainsi que les textes normatifs, les données juridiques sont difficilement exploitables pour l’instant, considère Emmanuel Barthe. Reprendre, numériser et anonymiser ces fonds mal structurés est une tâche considérable. Ce n’est guère mieux pour les nouvelles décisions de justice : quantité de juridictions ne produisent pas de décisions dans un format numérique natif et encore moins balisé. C’est inutilisable pour un traitement ultérieur. Lorsqu’elles sont informatisées, chaque chambre étant autonome, il n’y a pas d’unité bureautique ; plusieurs logiciels de traitement de texte sont utilisés. Le retard informatique est important. Il faut numériser toute la chaîne pénale, baliser les décisions en XML nativement (avec une centaine de champs minimum), inclure des liens vers d’autres fichiers XML pour qu’elles puissent être aisément structurées et anonymisées afin d’être publiées en open data immédiatement. Il faudra peut-être dix à vingt ans pour y parvenir… »
« Notre enjeu à terme est d’aboutir à du Linked open data en mettant à disposition des données structurées et interopérables, indique Édouard Rottier. Pour cela, nous entendons mettre en œuvre l’identifiant européen de la jurisprudence (ou ECLI pour European Case Law Identifier) qui comporte un ensemble uniforme de métadonnées. À l’avenir, les décisions devraient être nativement structurées, dès leur traitement initial, lorsque les nouveaux applicatifs développés par le ministère de la justice seront déployés en juridiction. Pour l’instant, pour les décisions d’appel, nous recevons un simple fichier Wordperfect accompagné d’un fichier XML comprenant quelques métadonnées basiques. C’est à partir de cela que l’on met à disposition un fichier XML pseudonymisé sur Legifrance (voir encadré). Le machine learning nous aide à pallier l’absence de structuration des documents, notamment en ce qui concerne les opérations de pseudonymisation. »
Le travail en amont au ministère de la Justice est donc considérable. Dans un récent article, fin 2018, Arnaud Mazier, chef du service des systèmes d’information et de communication (SSIC) du ministère de la Justice reconnaissait que « WordPerfect fonctionne toujours, et il a beaucoup d’utilisateurs. C’est le reflet de ce ministère : nous avons quatre suites bureautiques (open Office, Office, Libre office et Microsoft WordPerfect)./…/ Ce que l’on vise, c’est passer en format numérique natif les chaînes de décisions civiles et pénales. Ce sont les décisions des tribunaux d’instance et de grande instance qui posent problème : remonter tout ce flux pose de réelles difficultés techniques. »