L’open data des données juridiques se fait attendre

11 juillet 2019

A la Une, DAP, Dossiers thématiques, Legal Tech, News

L’open data des données juridiques se fait attendre

⏱ 7 min

Bien loin des promesses de numérisation des données de justice en 2016, une faible part est aujourd’hui en open data. Plonger dans le monde des documents juridiques permet de comprendre pourquoi leur publication est complexe à mettre en œuvre. Et pourquoi l’attente se prolongera probablement encore plusieurs années.

Les Legaltech, créées en nombre en France à partir de 2016, misaient sur une abondante matière première juridique gratuite pour développer des intelligences artificielles (IA)… Elles en sont pour leurs frais ! Car si en pratique les jugements sont publics, seule une infime partie est accessible. La mise en application des promesses d’open data des données juridiques, inscrites dans la Loi pour une République numérique (loi Lemaire, promulguée en octobre 2016) se fait toujours attendre, le décret d’application de l’article L. 111-13 du code de l’organisation judiciaire n’étant toujours pas publié.

« Beaucoup de choses devraient s’éclaircir d’ici quelques mois avec la parution, attendue, de ce décret d’application, espère Édouard Rottier, responsable du bureau des diffusions numériques du service de documentation, des études et du rapport (SDER) de la Cour de cassation. L’open data est un projet essentiel pour la Cour de cassation. Sa mise en œuvre est complexe, notamment dans le contexte du Règlement général sur la protection des données (RGPD), qui renforce la protection des données personnelles. Le calendrier a également été retardé du fait des modifications introduites par la loi de programmation et de réforme de la justice du 23 mars 2019. Pour autant, les conclusions du rapport Cadiet (mission d’étude confiée à Loïc Cadiet, professeur à l’École de droit de la Sorbonne) remis en novembre 2017, restent d’actualité. »

Quelles sont les données juridiques disponibles ?

En droit, on distingue trois types de données : les textes normatifs (lois, décrets…), la jurisprudenceLa jurisprudence désigne l’ensemble des décisions de justice relatives à une question juridique donnée. Elle rassemble des décisions précédemment rendues, qui illustrent la manière dont un problème juridique a été résolu. et la doctrine juridique (l’ensemble des opinions données par les universitaires et les juristes – la doctrine n’est pas une « source de droit » mais elle fait autorité). Cette dernière est publiée le plus souvent par des éditeurs juridiques privés (comme Dalloz, Francis Lefebvre, Les Éditions Législatives, Lexis Nexis, Wolters Kluwer France, etc.). Elle est très peu en libre accès, mis à part les thèses et mémoires de droit. « Ces fonds, comme on les appelle, sont le Graal, fait remarquer Emmanuel Barthe, documentaliste juridique et blogueur (voir Precisement.org). Ils contiennent les recommandations implicites qui dictent l’importance de telle loi ou telle jurisprudence. On pourrait s’inspirer de la doctrine pour faire de bonnes IA juridiques, en exploitant notamment les liens hypertextes entre celle-ci et la jurisprudence. » Quant à l’open data des fonds publics (textes normatifs et jurisprudence), ils sont d’ores et déjà accessibles pour les textes normatifs, de façon quasi exhaustive, sur Legifrance ; en revanche, la jurisprudence n’est en open data que de façon très partielle.

Les bases de données administratives et judiciaires

L’ordre administratif est consulté dès qu’une personne publique est en cause, par exemple une administration, une collectivité ou un service de l’État (lors de contentieux qui peuvent concerner des permis de construire, des expropriations, des refus de titre de séjour, l’expulsion d’un étranger, des contestations relatives aux impôts directs, etc.). Il est composé des tribunaux administratifs (TA), des cours d’appel administratives (CAA) et du Conseil d’État. Il a réglé près de 250 000 affaires en 2017. La juridiction administrative alimente quatre bases de décisions [voir infographie tirée d’un livre blanc sur l’open data jurisprudentiel, NDLR] : deux exclusivement internes, Ariane et Ariane archives, et deux d’accès public : Jade, diffusée sur Legifrance et data.gouv.fr, et Ariane web, diffusée sur le site internet du Conseil d’État.

L’ordre judiciaire comprend, quant à lui, des juridictions du fond (tribunaux d’instance, tribunaux de grande instance, tribunaux de commerce, conseils de prud’hommes, cours d’appel…) et la Cour de cassation, qui est juge de la bonne application de la loi. En 2017, ces juridictions ont rendu plus de 2,6 millions de décisions civiles (litiges entre personnes privées, comme les particuliers et les entreprises, notamment sur les impayés, les divorces, l’autorité parentale, des licenciements, etc.) et plus d’un million de décisions pénales. « Le SDER tient deux bases de données de jurisprudence, rappelle Édouard Rottier :

– La base Jurinet (851 566 décisions au 2 juillet 2019) alimente Legifrance et trois bases en open data (CASS, INCA et CAPP). L’ensemble des arrêts rendus par la Cour de cassation est mis à disposition du public dans les bases CASS (arrêts « publiés« ,les plus importants) et INCA (arrêts « non publiés« ), à l’exception des décisions qui ne comprennent aucune motivation spéciale (rejets non spécialement motivés et non-admissions). La base CAPP rassemble des décisions des juridictions du fond d’un intérêt particulier.

– Jurica, la plus importante base en volume (1 979 818 décisions en stock au 2 juillet 2019) comprend l’ensemble des décisions civiles motivées des cours d’appel (environ 150 000 arrêts par an depuis 2005). En application d’une autorisation de la CNIL, cette base est accessible aux magistrats sur l’intranet « Justice« , aux universitaires qui le demandent dans le cadre de conventions de recherche, et par un système d’abonnement. Elle pourra faire l’objet d’une diffusion en open data dès que le cadre juridique sera défini. »

Quelles données en open data ?

Concrètement, très peu de décisions de première instance sont publiées alors que presque toutes les données des cours suprêmes (Cour de cassation, Conseil d’État) sont en open data. Et en appel, environ les deux tiers des 250 000 décisions administratives publiées chaque année sont en open data (depuis 2012, sur Legifrance). En revanche, pas plus de 3 % des quelques 150 000 décisions civiles d’appel contenues dans Jurica sont publiées, soit bien moins de 1 % des près de 3,8 millions de décisions rendues sur une année par les juridictions judiciaires.

Loin du big data, au total, près d’un million de décisions sont donc téléchargeables par tout un chacun avec un avertissement qui interdit de ré-identifier les personnes concernées, sous peine de tomber sous le coup de la loi. Pour le reste, seuls les éditeurs juridiques traditionnels et quelques start-up sont abonnés au flux complet de Jurica et d’Ariane. Ils retraitent les documents reçus, les nettoient, les convertissent au format XML, les enrichissent de métadonnées comme des liens vers leur doctrine. En général, ils offrent ensuite un accès payant à leurs propres bases. En février 2018, selon une enquête de Juriconnexion, une association qui regroupe tous les utilisateurs d’informations juridiques, Lexis Nexis annonçait disposer de 2,9 millions de décisions, Dalloz de 2 millions, Lexbase de 3,6 millions et Doctrine, de près de 8 millions… chiffre invérifiable et mis en doute par beaucoup.

Des données exploitables ?

Quand les Legaltechs peuvent-elles espérer bénéficier, comme promis, de toutes les données juridiques en open data, de quoi entraîner leurs moteurs de recherche et outils d’analyse automatique [lire le 1^erarticle de ce dossier « Le marché convoité de la valorisation des données juridiques » NDLR] ? C’est en bonne voie pour la justice administrative, on l’a vu, et les données sont relativement bien structurées. Concernant la justice judiciaire, cela risque d’être beaucoup plus long, notamment en première instance. Et toutes ces données sont textuelles, brutes en général avec quelques métadonnées comme la date, le nom de la juridiction.

Pourquoi une telle différence d’un ordre de juridiction à l’autre ? Car le pouvoir et les moyens de la justice administrative sont sans commune mesure avec ceux de l’ordre judiciaire qui doit, en outre, faire face à plus de dix fois plus de décisions à traiter. Résultat : Le Conseil d’État, qui gère directement les applications informatiques de l’ensemble des juridictions administratives, a d’ores-et-déjà la maîtrise d’une base complète de l’ensemble de ses décisions, alors qu’aucune base de données ne regroupe pour l’instant les décisions pénales ou les décisions civiles de première instance.

« À part la jurisprudence administrative où les décisions sont en général rédigées de façon régulière et structurée ainsi que les textes normatifs, les données juridiques sont difficilement exploitables pour l’instant, considère Emmanuel Barthe. Reprendre, numériser et anonymiser ces fonds mal structurés est une tâche considérable. Ce n’est guère mieux pour les nouvelles décisions de justice : quantité de juridictions ne produisent pas de décisions dans un format numérique natif et encore moins balisé. C’est inutilisable pour un traitement ultérieur. Lorsqu’elles sont informatisées, chaque chambre étant autonome, il n’y a pas d’unité bureautique ; plusieurs logiciels de traitement de texte sont utilisés. Le retard informatique est important. Il faut numériser toute la chaîne pénale, baliser les décisions en XML nativement (avec une centaine de champs minimum), inclure des liens vers d’autres fichiers XML pour qu’elles puissent être aisément structurées et anonymisées afin d’être publiées en open data immédiatement. Il faudra peut-être dix à vingt ans pour y parvenir… »

« Notre enjeu à terme est d’aboutir à du Linked open data en mettant à disposition des données structurées et interopérables, indique Édouard Rottier. Pour cela, nous entendons mettre en œuvre l’identifiant européen de la jurisprudence (ou ECLI pour European Case Law Identifier) qui comporte un ensemble uniforme de métadonnées. À l’avenir, les décisions devraient être nativement structurées, dès leur traitement initial, lorsque les nouveaux applicatifs développés par le ministère de la justice seront déployés en juridiction. Pour l’instant, pour les décisions d’appel, nous recevons un simple fichier Wordperfect accompagné d’un fichier XML comprenant quelques métadonnées basiques. C’est à partir de cela que l’on met à disposition un fichier XML pseudonymisé sur Legifrance (voir encadré). Le machine learning nous aide à pallier l’absence de structuration des documents, notamment en ce qui concerne les opérations de pseudonymisation. »

Le travail en amont au ministère de la Justice est donc considérable. Dans un récent article, fin 2018, Arnaud Mazier, chef du service des systèmes d’information et de communication (SSIC) du ministère de la Justice reconnaissait que « WordPerfect fonctionne toujours, et il a beaucoup d’utilisateurs. C’est le reflet de ce ministère : nous avons quatre suites bureautiques (open Office, Office, Libre office et Microsoft WordPerfect)./…/ Ce que l’on vise, c’est passer en format numérique natif les chaînes de décisions civiles et pénales. Ce sont les décisions des tribunaux d’instance et de grande instance qui posent problème : remonter tout ce flux pose de réelles difficultés techniques. »

Pseudonymisation à défaut d’anonymisation

« Il est impossible d’anonymiser avec certitude l’ensemble des décisions de justice, explique Édouard Rottier, à savoir de garantir qu’une ré-identification est impossible. Des éléments complémentaires, sur Internet ou ailleurs, des recoupements d’informations permettront souvent de reconnaître certaines personnes dont le nom a pourtant été occulté. » Sans compter que les noms des avocats, magistrats et greffiers doivent subsister dans les décisions. On parle donc de pseudonymisation. Cela consiste à occulter un ensemble d’éléments identifiants (par exemple en remplaçant un nom par une chaîne de caractères aléatoires). Cela limite le risque de ré-identification mais ne les rend pas anonymes. Jusqu’à une période assez récente, Legifrance s’en chargeait pour le compte de la Cour de cassation.

« Depuis janvier 2018, la pseudonymisation a été internalisée, poursuit Édouard Rottier, avec un logiciel qui repère les éléments identifiants (noms, adresses, e-mail, téléphones, comptes bancaires, numéro INSEE, etc.) selon une approche par règles. Il faut encore néanmoins systématiquement relire toutes les décisions pour corriger les erreurs. Pour pouvoir répondre aux enjeux de l’open data de l’ensemble des décisions de justice, nous développons depuis quelques mois une approche machine learning dans le cadre du projet Open Justice (programme Entrepreneurs d’intérêt général). Notre moteur de recherche d’éléments identifiants devrait être opérationnel mi-novembre 2019. Deux data scientists y travaillent, et nous avons tous les ingrédients pour y parvenir, notamment les décisions annotées (lors des opérations de correction de la pseudonymisation) et bientôt de puissants serveurs GPU. Nous souhaitons pérenniser ces compétences de data science en interne car, au-delà de ce projet, notre but est de faire ressortir des informations pertinentes de la jurisprudence et ainsi favoriser son utilisation pour nos besoins internes et dans l’intérêt général. Nous développons par exemple un moteur de recherche de la jurisprudence pour le site internet de la Cour de cassation. »

Isabelle Bellin

Vous avez aimé cet article, abonnez-vous à notre newsletter gratuite pour être informé des dernières publications.

Termes liés :

Menu

L’open data des données juridiques se fait attendre

Quelles sont les données juridiques disponibles ?

Les bases de données administratives et judiciaires

Quelles données en open data ?

Des données exploitables ?

Pseudonymisation à défaut d’anonymisation

Isabelle Bellin

Retrouver les autres articles du dossier “Legal Tech” :

Tout savoir sur…

L’open data des données juridiques se fait attendre

Quelles sont les données juridiques disponibles ?

Les bases de données administratives et judiciaires

Quelles données en open data ?

Des données exploitables ?

Pseudonymisation à défaut d’anonymisation

Isabelle Bellin

Retrouver les autres articles du dossier “Legal Tech” :

Posts you'd might like

L’apprentissage profond permet de lire dans notre cerveau… ce qu’il voit

Cette IA hybride apprend à jouer au sudoku… et à concevoir des protéines

Canicules, orages violents : l’IA apprend à prévoir les épisodes météo extrêmes

Des réseaux de neurones “informés par la physique”, pour modéliser et simuler des systèmes complexes

Faut-il créer un GIEC de l’intelligence artificielle ? Entretien avec Raja Chatila

ChatGPT a-t-il accouché d’une souris ? Entretien avec Jean-Gabriel Ganascia

Cette IA hybride apprend à jouer au sudoku…
et à concevoir des protéines

Faut-il créer un GIEC de l’intelligence artificielle ?
Entretien avec Raja Chatila

ChatGPT a-t-il accouché d’une souris ?
Entretien avec Jean-Gabriel Ganascia