Deux millions de milliards de milliards de bits d’ici à 2025. L’explosion d’Internet et des réseaux sans fil a entraîné une accumulation extrême de données. « Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune », décrit Marc Antonini, directeur de recherche CNRS au laboratoire d’Informatique, signaux et systèmes de Sophia Antipolis (I3S)1. Une inflation démesurée qui force les géants d’Internet à multiplier les data centers, de plus en plus souvent implantés dans des zones froides à cause de leurs besoins gigantesques en refroidissement.
Toutes les données du monde dans une boîte à chaussures
Dans la quête de systèmes de stockage plus adaptés, la chimie et les molécules du vivant intéressent différents chercheurs. Marc Antonini se penche ainsi sur l’ADN, dont un seul gramme peut théoriquement contenir jusqu’à 455 exabits d’informations, soit 455 milliards de milliards de bits. Toutes les données du monde tiendraient alors dans une boîte à chaussures.
- « Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune ».
Avec un tel besoin et l’amélioration des techniques de séquençage, l’idée séduit de plus en plus. « L’ADN a l’avantage d’être extrêmement compact et de résister au passage du temps, avance Marc Antonini. On parvient à séquencer de l’ADN de mammouths vieux de dizaines de milliers d’années, alors que les systèmes sur disque dur doivent être recopiés par sécurité tous les cinq ans, et ceux sur bande magnétique tous les vingt ans. » Des procédés laborieux et énergivores que l’ADN pourrait remplacer.
Marc Antonini et son équipe travaillent ainsi sur OligoArchive, un projet de trois ans financé à hauteur de trois millions d’euros par la Commission européenne, qui rassemble l’I3S, l’Institut de pharmacologie moléculaire et cellulaire (IPMC)2, l’école d’ingénieurs Eurecom, l’Imperial College à Londres (Royaume-Uni) et enfin la start-up irlandaise HelixWorks Technologies Limited. Ensemble, ils visent à obtenir une preuve de concept pour chaque étape du stockage sur ADN : synthétiser et stocker les données, puis être capable de les extraire le plus efficacement possible. Le projet ambitionne de construire un disque ADN : un prototype de bout en bout pleinement fonctionnel qui montre que l’ADN pourrait un jour remplacer les technologies actuelles de stockage d’archives sur bandes magnétiques.
Parmi les principaux écueils à surmonter : le prix. Qu’il soit naturel ou synthétique, l’ADN est composé de séquences de quatre nucléotides, aussi appelés bases. Les systèmes de stockage les utilisent dans un système quaternaire, contrairement au système binaire des ordinateurs. À l’heure actuelle cependant, synthétiser deux cents nucléotides coûte un dollar, sachant qu’encoder une seule image réclame plusieurs milliers de nucléotides. Cela empêche de convertir la masse gigantesque de données à laquelle nous faisons face.
Des données chaudes et froides
Plusieurs solutions existent pour contourner le problème, comme déjà de ne pas tout conserver sur ADN. On distingue en effet les données froides des données chaudes. « Les données froides sont celles auxquelles on n’accède que rarement, voire jamais, comme les vieilles photos numérisées accumulées sur le cloud ou des archives administratives, explique Marc Antonini. Ce stock grandit de 60 % chaque année, alors que les capacités de stockage des systèmes actuels ne s’améliorent que de 20 %, ce qui pousse à construire toujours plus de centres. »
- (Stocker des données froides sur ADN synthétique) serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées.
Ces données froides n’ont cependant pas besoin d’être accessibles avec l’immédiateté des éléments utilisés au quotidien. Elles sont ainsi d’excellentes candidates pour des formes alternatives de stockage, comme sur ADN synthétique, car elles demandent moins d’encodages et de décodages successifs. « Ce serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées, souligne Marc Antonini. L’incendie du studio Universal en 2008 l’a malheureusement montré, de nombreux masters d’enregistrements ont été définitivement perdus car ils n’avaient pas été dupliqués. »
L’équipe d’OligoArchive étudie des solutions pour réduire les coûts : diminuer la quantité de nucléotides nécessaires pour stocker une même quantité d’information. Comme nous l’avons vu, l’ADN se compose de quatre nucléotides différents appelés A, C, G et T. Une première technique simple de codage ADN consiste à leur attribuer chacun deux chiffres binaires : A pour 0 0, C pour 0 1, G pour 1 0 et enfin T pour 1 1. On parle alors de transcodage.
Contourner les règles du vivant
Cependant, si le code ADN synthétique généré pour représenter une donnée numérique ne contient aucune information génétique compréhensible par le monde du vivant, il reste soumis à certaines de ses règles. Par exemple, si un nucléotide est répété trop de fois de manière ininterrompue, son séquençage va subir un certain nombre d’erreurs. Le transcodage ne permet ni de gérer cela facilement ni de contrôler la longueur, et donc le coût, des séquences ADN générées. Pour pallier ces problèmes, les chercheurs proposent d’intégrer un système de codage directement au niveau de la compression des données numériques. Le challenge consiste à créer des séquences de code ADN capables de contenir, en moyenne, encore plus de données numériques sur un même nombre de nucléotides. Ceci réduirait les coûts de synthèse. L’équipe conçoit également des algorithmes qui corrigent automatiquement les erreurs liées au processus de séquençage du code ADN lors du décodage.
Images numériques après codage et synthèse sur ADN. À gauche, séquençage et décodage au moyen d’une solution de compression non adaptée ; à droite, séquençage et décodage au moyen de la solution de compression développée par le projet OligoArchive. Laboratoire I3S
« Lorsque l’on parle au téléphone, les canaux de codage ont parfois des problèmes de bruit qui hachent, voire coupent la communication, prend comme exemple Marc Antonini. Le bruit introduit par le séquençage de l’ADN produit en quelque sorte le même phénomène. Nous devons donc rendre l’encodage plus robuste et nous travaillons aujourd’hui dans cette direction. Nous aimerions de plus standardiser les systèmes de compression au-delà de notre groupe d’étude, et nous participons pour cela au comité de standardisation international JPEG. » L’équipe se donne trois ans pour apporter ses premières preuves de concept, et ainsi ouvre la voie à un usage concret du stockage sur ADN artificiel. ♦