« La data est un des actifs de l’entreprise »
⏱ 6 minSNCF Réseau, gestionnaire des infrastructures de la SNCF, met en place la gouvernance de ses données depuis 2015. L’organisation est aujourd’hui fonctionnelle. Retour d’expérience avec le Chief Data Operator de l’entreprise.
Racontez-nous la genèse de cette nouvelle organisation de SNCF Réseau autour de ses données, dans le cadre de laquelle, en juin 2017, vous devenez le premier Chief Data Officer (CDO).
Stéphane de Paris : En 2015, SNCF Réseau a décidé de mettre en place une gestion plus efficace de ses actifs matériels, de quoi mieux superviser les usages du réseau, anticiper son vieillissement, optimiser sa maintenance et mieux prévoir les dépenses à long terme. Il est vite apparu que la clé de ce nouvel asset management [un gestionnaire d’actifs, NDLR] reposait sur des données de qualité et sur la façon de les gérer. Autrement dit, pour maîtriser nos actifs physiques, nous avons compris qu’il fallait avant tout maîtriser nos actifs immatériels. L’idée que la data était un actif de l’entreprise avait donc fait son chemin quand, à la mi 2017, le data office que je dirige a été créé. Et lorsqu’en juillet 2018, les directions de la SNCF ont été totalement refondues, j’ai été propulsé à la tête d’un département « Données » au sein d’une direction baptisée « Actifs industriels et données », elle-même au sein de la direction de la stratégie. Preuve qu’au plus haut niveau de l’entreprise les data étaient considérées au même niveau que les actifs physiques. Ce sponsoring fort est très important dans la mise en place de la nouvelle organisation.
Comme dans beaucoup d’entreprises, c’était votre direction des systèmes d’information (DSI) qui avait, jusque-là, la main sur les données. Comment l’avez-vous réorganisé selon cette nouvelle gouvernance ?
S. P. : Redonner la maîtrise des données aux métiers, tant celles qu’ils génèrent que celles qu’ils consomment, supposait effectivement une modification de nos organisations et l’attribution de nouveaux rôles. Bien entendu, la direction que nous avons prise pour assurer le partage des données a un impact sur notre système d’informations. Nous avons d’abord cartographié les principaux types de données de SNCF Réseau et nous les avons affectées à 10 « filières » : l’une pour réunir les données concernant la description du réseau, une autre, son état, une autre son entretien, etc. Puis nous avons commencé à créer ce qu’on a appelé des gisements, des bases de données hyper structurées où sont stockées ces données. Ces gisements seront à terme les seuls points de partage de données de notre SI. Ainsi, au lieu d’échanger des données selon différents référentiels propres à chaque application avec des niveaux de précision et des règles de gestion spécifiques, nous partagerons des données communes, au bon niveau de qualité pour répondre aux usages et structurées selon une grammaire spécifique [le modèle Ariane, voir plus loin, NDLR]. Depuis deux ans et demi, nous urbanisons notre SI avec ces gisements tout en assurant une compatibilité ascendante avec notre SI historique.
Pouvez-vous illustrer la démarche sur un exemple de donnée ?
S. P. : Bien sûr ! D’abord, chez SNCF Réseau, nous parlons « d’objet métier ». Un exemple ? La masse du train. Pour documenter au mieux cet objet métier, cataloguer ses usages actuels mais aussi futurs et pouvoir partager cette donnée avec le plus grand nombre selon les divers besoins identifiés, cette masse est déclinée dans l’entreprise en tant que masse théorique, mais aussi mesurée ou encore facturée, et chaque valeur est renseignée avec une série d’attributs comme une unité, un niveau de précision spécifique, etc. Sachant que nos objets métiers se comptent par milliers, voire dizaines des milliers. On ne les a pas encore tous identifiés.
Cette façon de renseigner chaque donnée est un point clé. Mais qui décide de quoi ?
S. P. : L’organisation humaine est fondamentale. Pour cela, durant l’été 2017, nous avons créé de nouvelles responsabilités, de nouvelles missions : des rôles de responsables de filières, de responsables de données et de référents métiers. Vous remarquerez qu’on ne parle pas de propriétaire de la donnée : nos données appartiennent à l’entreprise, pas à celui qui créé la donnée. Cela invite plus facilement au partage. Les responsables de filières (ils sont donc dix, un par filière) sont les chefs d’orchestre de notre gouvernance : c’est eux qui priorisent les objets métiers critiques sur lesquels travailler en priorité selon les besoins stratégiques de SNCF Réseau. Le principe général est que pour chaque objet métier, il y a un seul responsable qui synthétise toutes les informations des différents référents métiers, met tout le monde d’accord sur une définition commune, liste les usages, fixe les niveaux de sensibilité de cet objet métier, les niveaux de précision… Les responsables de données sont donc les chevilles ouvrières de notre organisation. Leur mission est pérenne, à la différence de celle des référents métier, les porteurs des cas d’usage, qui ne sont sollicités qu’au moment où l’on traite de l’objet métier, pour dire tout ce qu’ils ont à dire sur l’usage qu’ils en font. Dans le cas d’objets métiers complexes ou structurants pour SNCF Réseau, on aura parfois dix à douze référents métiers autour de la table. Ceux-ci nous permettent de faire une cartographie des usages la plus précise possible pour bien modéliser l’objet en question.
Cette étape de modélisation est un autre point fondamental. Comment procédez-vous ?
S. P. : Nous utilisons notre modèle, baptisé Ariane, pour assurer la transcription de toutes les informations métiers dans nos gisements. C’est une entité hébergée par la DSI, l’urbanisme data, qui se charge de cette étape. C’est elle qui a la main sur les principes de modélisation imaginés en son sein au début des années 2010, même si leur mise en œuvre n’est effective que depuis quelques années. Cette modélisation a pour but de rendre les objets métier « intelligents » en assurant des liens entre eux. Prenons l’exemple de l’objet métier « Mesure » décliné selon des spécialités (mesure de géométrie de la voie, de puissance…) : chaque objet métier peut être mesuré dans différentes unités, avec des incertitudes spécifiques, le système qui a pris la mesure est également indiqué ainsi que la date, l’heure et l’équipement utilisé. Dés lors, on peut « déclassifier » sans supprimer des données suite à un problème identifié sur tel équipement, reconsidérer telle mesure si une nouvelle méthode apparaît, etc. Chaque mesure est contextualisée et directement exploitable par les data scientists et nos SI. Le Data Office est chargé de mettre en place les procédures de contrôle de la qualité des données dans nos différents gisements. On est à l’opposé du Data Lake, où toutes les données sont stockées en l’état, et où il faut des heures pour les nettoyer et les comprendre avant de pouvoir les utiliser. En bout de gisement, on fournit un « carburant haute performance », plutôt qu’un « pétrole brut » – que l’on retrouve en sortie de Data Lake -, qui pour être consommé a besoin d’être traité, raffiné.
Comment définissez-vous les règles d’accessibilité à vos données ?
S. P. : Nous avons créé une entité pour assurer la protection de notre patrimoine informationnel : elle rassemble la direction juridique, le responsable sécurité de la DSI et le data office. Concrètement, nous classons les données selon leur sensibilité, puis, selon ces critères, elles sont stockées avec des méthodes de pseudonymisation, d’anonymisation, de cryptage… Le principe est le partage par défaut des données en interne. Certaines données peuvent être partagées à l’externe (sous certaines conditions), certaines en open data, d’autres soumises au secret industriel et commercial ou à la RGPD et évidemment, celles qui sont confidentielles ou relèvent de la sécurité ou de la défense ne sont pas partagées. C’est le data office qui répond aux demandes de données internes ou externes et étudie les possibilités de valorisation.
Où en êtes-vous aujourd’hui ?
S. P. : Nous avons mis sur pied l’organisation. Toutes nos filières ont aujourd’hui au moins un responsable de données et nous avons mis en partage plus de 650 jeux de données. Nous poursuivons l’identification de l’ensemble de nos objets métier critiques. Puis il nous faudra encore quelques années pour tous les modéliser. Cette étape prend beaucoup de temps : il faut rassembler les acteurs, définir les objets pour s’assurer d’un langage commun, les modéliser, implémenter cela dans un gisement, créer le web service pour accéder à la donnée… Les principales contraintes sont budgétaires (pour urbaniser le SI) et humaines : il nous a fallu beaucoup d’animations, de présentations, de pédagogie pour convaincre. Les bases sont désormais fixées, et nous poursuivons la démarche d’acculturation jusqu’aux étages de production avec pour ambition d’embarquer, via notamment notre portail d’accès à la donnée d’entreprise (le Datalab), l’ensemble des collaborateurs de SNCF Réseau dans l’aventure Data.
Propos recueillis par Isabelle Bellin