« L’ADN est un support d’avenir pour archiver les mégadonnées »
⏱ 3 minL’une des solutions les plus prometteuses dans le futur pour stocker à long terme les mégadonnées générées par l’humanité sera d’utiliser… l’ADN ! Cette technologie moléculaire pourrait même être économiquement viable entre 2025 et 2040, explique François Képès, ancien directeur de recherches au CNRS et membre de l’Académie des technologies, qui a rendu un rapport sur le sujet.
Pourquoi l’archivage mondial des données pose-t-il problème aujourd’hui ?
François Képès : D’abord, ce que l’on appelle la sphère globale des données (SGD), c’est-à-dire toutes les données accumulées par l’humanité, double tous les 2 à 3 ans. Dans vingt ans, en 2040, elle aura donc augmenté d’un facteur 1000 ! Le problème est donc de savoir comment conserver toutes ces données qui sont déjà hébergées dans des millions de data centers dans le monde… Concrètement, cela pose des soucis de terrains disponibles, d’électricité pour les alimenter – et notamment les refroidir – et d’approvisionnement en ressources rares, comme le silicium de qualité électronique par exemple. Il faut donc trouver des solutions.
Pourquoi cette question du stockage de données est-elle cruciale pour les data sciences ?
F.K. : Les sciences des données, à l’image de l’intelligence artificielle, se nourrissent justement de données – les big data – qu’il faut à tout prix sauvegarder. A titre d’exemple, le CERN (Conseil européen pour la recherche nucléaire) a déjà accumulé plus de 100 pétaoctets de données issues d’expériences scientifiques, qui doivent absolument être conservées pour les futures générations de physiciens. C’est un cas d’école, car ces données doivent à la fois rester intactes et être conservées très longtemps.
En quoi l’ADN serait une alternative prometteuse pour stocker les mégadonnées ?
F.K. : D’après le rapport de l’Académie des technologies que nous avons rendu sur le sujet, la molécule d’ADN – qui est utilisée dans ce cas en dehors du vivant comme une simple molécule chimique de synthèse – présente des propriétés très intéressantes. D’abord, elle permet de stocker des informations avec des densités 10 millions de fois supérieures aux supports traditionnels. Si bien qu’en 2040, toutes les données de la planète pourraient potentiellement tenir dans un camion ! De plus, sa longévité est 10 000 fois supérieure : l’ADN est stable à température ambiante pendant plusieurs millénaires, et ce sans consommer d’énergie. Il peut être aisément dupliqué, par des techniques de biologie existantes, ou bien détruit. Certains calculs peuvent même être réalisés avec des fragments d’ADN. Et cette technologie ne deviendra pas obsolète car il s’agit de notre matériel héréditaire.
Comment fait-on concrètement pour archiver des données dans l’ADN ?
F.K. : Le principe repose sur 5 étapes. D’abord, il faut coder par ordinateur un fichier de données binaires dans l’alphabet de l’ADN qui, lui, possède quatre lettres : A, T, C et G qui sont ses 4 briques élémentaires. Ensuite, il faut « écrire » ce nouveau code en synthétisant chimiquement la molécule d’ADN via une technique de biologie moléculaire, puis la stocker dans une capsule de la taille d’une pile-bouton. Pour faire l’opération inverse et accéder ensuite à ces données, il faut alors « lire » l’ADN en utilisant une technique de séquençage bien connue, puis décoder l’information. Un prototype fonctionne déjà depuis 2019 dans les laboratoires de Microsoft aux États-Unis. Techniquement, tout cela fonctionne très bien.
Quelles sont les limites de cette technique ?
F.K. : Le principal handicap réside dans le coût et la lenteur des procédés. Il faudrait en effet une évolution d’un facteur 1000 pour le coût et la vitesse de lecture de l’ADN, et surtout de 100 millions pour l’écriture. C’est pourquoi cette approche n’est pas encore économiquement viable… Mais les progrès des technologies ADN sont bien plus rapides que ceux de l’électronique et de l’informatique !
A quelle échéance l’archivage de données dans l’ADN pourrait devenir réalité ?
F.K. : Notre rapport conclut que cette technologie a le potentiel de devenir économiquement viable entre 2025 et 2040. Dans un futur proche, son usage se cantonnera d’abord à des marchés de niches, c’est-à-dire ceux pour lesquels les données sont sensibles et nécessitent d’être conservées longtemps. Par exemple, cela peut intéresser des organismes comme le CERN (Conseil européen pour la recherche nucléaire), la BNF (Bibliothèque nationale de France) ou encore l’INA (Institut national de l’audiovisuel).
Propos recueillis par Laure Blancard