RTFlash

Edito : L’ADN : le stockage ultime de l'information ?

Le Web n’a que trente ans mais il a déjà aussi profondément transformé notre monde que l’invention de l’imprimerie, en 1450, ou celle du téléphone (1876), de la radio (1895 ), de la télévision (1926) ou de l’ordinateur (1943), autant de ruptures technologiques majeures qu’il a d’ailleurs intégrées et fusionnées dans son réseau planétaire.

L’année dernière, sur les 7,7 milliards d'humains, 5,1 milliards possédaient un téléphone mobile et 4,4 milliards utilisaient régulièrement l’Internet (soit presque six terriens sur dix). En un an, le nombre d'utilisateurs du web s'est accru de 9,1 %, tandis que la population mondiale n'a progressé que de 1,1 %. Les réseaux sociaux ont eux aussi vu leur public s'accroître et comptent 3,5 milliards d'adeptes, soit 45 % de l'humanité. Et cette révolution numérique va encore s’accélérer : on estime qu’à l’horizon 2030, plus de sept milliards d’humaines – huit sur dix – seront connectés à l’Internet, dont un milliard d’Indiens, ce qui fera de cet immense pays, en plein essor économique, la première puissance numérique du Monde.

D’ici cette échéance, deux autres révolutions techno-économiques vont venir décupler la puissance et les potentialités du Net. D’abord la 5G, qui va permettre, d’ici dix ans, d’acheminer les informations numériques à un débit 100 fois plus rapide, en moyenne,  qu’aujourd’hui. Seconde révolution, l’Internet des objets, qui va attribuer une adresse IP à la plupart des objets qui composent notre quotidien, voitures, appareils ménagers, immeubles, vêtements. Selon Strategy Analytics, il y aurait déjà 25 milliards d’objets  connectés à Internet (Internet of Things- IoT) en 2020, et ce nombre, dopé par la montée en puissance de la 5G, pourrait dépasser les 100 milliards en 2030…

En 2010, le monde ne produisait que deux zettaoctets de données numériques, soit l'équivalent de deux milliards de téraoctets. En 2020, ce chiffre dépassera les 50 zettaoctets, il attendra 175 zettaoctets en 2025, et 600 zettaoctets vers 2030. Résultat de cette explosion informationnelle : plus de la moitié de toute l’information produite par l’humanité depuis ses origines l’a été depuis moins de trois ans.

Comment continuer à stocker l’immense masse d’informations produites par notre civilisation, sachant que, si l’Internet était un pays, il serait le 3ème consommateur d’électricité au monde, avec environ avec 1500 TWH par an, derrière la Chine et les Etats-Unis. Au total, le Web, avec ses myriades de serveurs et d’ordinateurs, consomme déjà plus de 6 % de la production mondiale d’électricité, et cette consommation pourrait tripler d’ici 2030, sans ruptures technologiques profondes, ce qui n’est pas envisageable, tant pour des raisons économiques qu’environnementales.

Pour relever ce défi technologique, chercheurs et ingénieurs rivalisent d’imagination dans le monde entier et ne cessent de concevoir des mémoires physiques toujours plus performantes, qu’elles soient optiques, magnétiques ou électroniques. Mais ces systèmes physiques, bien qu’ils consomment de moins en moins d’énergie, doivent être multipliés pour faire face à la croissance quasi-exponentielle des demandes diverses de stockage numérique, à court et long terme. En outre, tous ces supports physiques ont une durée de vie très courte, même en prenant beaucoup de précautions et ils sont à la fois victimes de l’usure du temps et de la succession de plus en plus rapide des formats et des technologies, souvent incompatibles entre eux. C’est pourquoi, depuis une dizaine d’années, les chercheurs redoublent d’efforts pour préparer un grand saut technologique, celui du stockage biologique, sur ADN. Cette structure de base du vivant, découverte en 1953 par James Watson et Francis Crick et Rosalyd Franklin, trop longtemps oubliée, l’ADN, a dix milliards de fois la capacité d’un CD. Il ne consomme pas d’électricité et surtout, il peut, même dans des conditions climatiques sévères, se conserver pendant des millions d’années.

En 2012, une équipe de chercheurs de Harvard a réussi à encoder sur ADN un livre de 300 pages, illustrations comprises (Voir Science). En 2016, les équipes du Molecular Information Systems Lab (MISL) de l'Université de Washington et de Microsoft ont réussi à encoder un clip vidéo d'environ 200 Mo sur de l'ADN ; ils sont depuis parvenus à un nouveau record de 1 Go. En 2017, des chercheurs du New York Genome Center et de l'Université de Columbia ont réussi à coder un petit film dans son intégralité. Au total, ils ont stocké 2 mégaoctets de données dans 72.000 brins d'ADN. Mais surtout, ils ont ensuite été capables de les lire en streaming, car il ne s’agit pas seulement de conserver l’information, il faut également pouvoir la lire facilement et rapidement. Cette approche permet déjà de stocker quelque 215 pétaoctets (215 millions de milliards d'octets) de données dans un seul gramme d'ADN, ce qui représente environ deux cent fois tout le contenu de la Bibliothèque Nationale de France (Voir Science).

Début 2018, les chercheurs du Waterford Institute of Technology (WIT) ont, de leur côté, fait la démonstration d'encodage et de décodage d'un message dans une bactérie E.coli. Cette équipe dirigée par Yutaka Takahashi, en collaboration avec les ingénieurs de Microsoft (Voir Microsoft) est parvenue à fabriquer une machine capable de transformer automatiquement des données numériques (suites de 0 et de 1) en séquences ADN (bases azotées A, C, T et G). Fait remarquable, ce prototype a coûté moins de 10 000 euros. Il a été réalisé à l’aide de récipients en verre où sont fabriqués des brins d'ADN synthétiques, et un séquenceur d'Oxford Nanopore a permis de reconvertir ces données en informations numériques.

A l’occasion d’une présentation de cette technologie qui a fait sensation, le dispositif élaboré par le WIT a réussi à traduire le mot « hello » en ADN. L'algorithme de Microsoft a d’abord converti les bits en bases ADN, qui sont obtenus à l'aide d'un synthétiseur en ajoutant des produits chimiques. Les cinq octets de « hello » (01001000 01000101 01001100 01001100 01001111) ont ainsi pu être stockés dans 1 mg d'ADN.

Il reste que, pour l'instant, ce processus de stockage est bien trop lent pour être exploité commercialement. Mais les chercheurs affirment qu’il n’existe aucun obstacle insurmontable pour rendre cette vitesse de conversion et de lecture plus rapide  « Notre objectif est de mettre au point un système qui, pour l'utilisateur final, ressemble à n'importe quel autre service de stockage cloud, où les données sont envoyées dans un datacenter ADN, puis sont reconverties en bits lorsque le client en a besoin », explique Karin Strauss, chercheuse principale chez Microsoft.

Selon Microsoft, la totalité de l'information contenue dans un datacenter pourrait tenir dans un volume de la taille d'un dé et la totalité des données produites par l’Humanité, depuis les origines, jusqu’en 2030, pourraient être stockée dans un volume pas plus gros qu’un réfrigérateur. Mais plus encore que sa capacité inouïe de stockage, l’ADN recèle un autre avantage décisif : il reste stable et exploitable pendant des centaines de milliers d’années, contre seulement quelques décennies pour les mémoires magnétiques et électroniques, et au mieux quelques siècles, pour les mémoires de masses en verre spécial. Microsoft estime ainsi qu'il faudra atteindre une vitesse de conversion d'environ 100 Mo par seconde pour être viable commercialement. Le coût de la fabrication d'ADN doit également baisser.

En 2019, des scientifiques irlandais de l’Institut irlandais de technologie de Waterford ont par ailleurs mis au point une solution innovante permettant de stocker des données dans de l’ADN et d’utiliser des bactéries pour archiver jusqu’à un zettaoctet dans un gramme d’ADN (Voir WIT). La technique utilise des molécules d’ADN à double contrainte appelées plasmides pour coder des données qui sont stockées dans la souche Novablue de la bactérie E Coli. Les données stockées peuvent être transférées en libérant une souche HB101 mobile de E Coli qui utilise un processus appelé conjugaison pour extraire les données. Bien que cette méthode soit très fiable, elle reste également lente et coûteuse mais il ne fait guère de doute, qu’au rythme où cette technologie progresse, elle permettra bien plus vite qu’on ne croit un stockage massif, rapide et surtout d’une durabilité à toute épreuve de nos données numériques les plus précieuses.

C’est dans ce contexte que la biotech française DNA Script a annoncé, il y a quelques jours, avoir reçu un financement du gouvernement américain pour mettre au point une technologie de stockage des données dans l’ADN. En partenariat avec des chercheurs du Massachusetts Institute of Technology (MIT), d’Harvard, et d’Illumina – le géant américain du séquençage génétique –, elle a quatre ans pour développer sa technologie originale qui utilise des enzymes génétiquement modifiées et pour concevoir une machine capable d’encoder dans une molécule un téraoctet de données – l’équivalent de 250 films – en vingt-quatre heures pour un coût maximal de 1 000 dollars (902 euros). Le but : développer des technologies de stockage d'information moins coûteuses et moins énergivores en utilisant de l'ADN de synthèse (Voir Business Wire).

Il est vrai que les enjeux économiques et écologiques de ces recherches sont considérables. On estime en effet que le coût de construction d’un centre de données de l’ordre de l’exaoctet est d’environ 100 millions de dollars, sans compter les frais de maintenance et d’exploitation. Par ailleurs, les différents supports de stockage actuels ont une obsolescence rapide et coûteuse et doivent être dupliqués au moins une fois par décennie pour garantir l’intégrité des données. L’ADN, en revanche, s’il est conservé dans de bonnes conditions, peut rester stable et exploitable pendant des durées qui défient l’entendement. Des chercheurs ont par exemple réussi à décrypter le génome d’un cheval vieux de 700 000 ans.

Si cet ambitieux programme de recherche aboutit, le stockage moléculaire sur ADN pourrait être disponible commercialement d’ici dix ans. Il serait réservé dans un premier temps à l’archivage de données particulièrement précieuses, comme des informations portant sur la localisation des déchets nucléaires ou de zones de contamination chimique ou biologique majeures, autant de données qui doivent absolument être transmises intactes pendant de très nombreux siècles. A plus long terme, 20 ou 25 ans, cette technologie de stockage sur ADN se diffuserait dans le grand public et les entreprises, permettant de stocker et de récupérer des masses inimaginables d’informations pour un coût marginal très faible.

La France est également bien consciente de l’importance de cet enjeu technologique et économique. Le CNRS, entre autres, mène des recherches très intéressantes pour inscrire et lire l’information en utilisant des polymères de synthèse. Jean-François Lutz et son équipe travaillent par exemple sur une méthode qui consiste à associer deux monomères artificiels, qu’on définit arbitrairement comme 0 et 1. L’idée est de contrôler l’ordre dans lequel se lient ces monomères, en imaginant des techniques permettant d’attacher les blocs de monomère un à un. «  Avec cette méthode, on réussit à écrire quelques mots et on devrait pouvoir coder une phrase entière d’ici quelques mois et écrire l’équivalent d’un livre d’ici quatre ans », préciseJean-François Lutz.

Mais si l’ADN va permettre une véritable révolution en matière de stockage de l’information, il pourrait bien également devenir le moteur d’un nouveau type d’ordinateur, radicalement différent dans son principe de fonctionnement des machines électroniques binaires qui dominent l’informatique depuis 80 ans. Il y a quelques semaines, des chercheurs de l’Université de Rochester, dans l’État de New York, sont parvenus à développer un ordinateur à base d’ADN et à le faire fonctionner pour calculer la racine carrée des nombres 1, 4, 9, 16, 25, 36 et ce jusqu’à 900 (Voir New Scientist).

Pour réaliser cette prouesse, les chercheurs ont utilisé 32 brins d’ADN pour former un « bio-ordinateur » afin de stocker et de traiter les informations de l’ordinateur. Cette machine utilise le phénomène d’hybridation, qui se produit lorsque deux brins d’ADN se lient pour former de l’ADN double brin. L’ordinateur peut « calculer la racine carrée d’un nombre binaire de 10 bits (au sein de l’entier décimal 900) en concevant des séquences d’ADN et en programmant des réactions de déplacement de brin d’ADN. Les signaux d’entrée sont optimisés grâce à la rétroaction de sortie pour améliorer les performances dans les opérations logiques plus complexes » précise l’étude. Selon Chunlei Guo, qui dirige ces recherches, « L’informatique ADN en est encore à ses balbutiements, mais elle est très prometteuse, à l’instar de l’ordinateur quantique, pour résoudre des problèmes qui sont trop difficiles, voire impossibles à gérer par les ordinateurs actuels à base de silicium ».

On le voit à la lumière de toutes ces passionnantes recherches, le « bio-ordinateur », utilisant l’ADN à la fois pour le stockage d’informations et le calcul complexe, ne fait plus partie, désormais, de la science-fiction et sera probablement une réalité avant le milieu de ce siècle. Pour se préparer à cette rupture technologique et sociétale majeure, notre pays, qui possède des compétences mondialement reconnues dans le domaine des sciences physiques, des mathématiques et des sciences de la vie, doit sans tarder lancer un ambitieux plan de recherche sur 20 ans, visant à maîtriser, à l’horizon 2040, l’ensemble de ces extraordinaires technologies informatiques à base d’ADN, qui s’annoncent toute aussi révolutionnaires que l’informatique quantique.

René TRÉGOUËT

Sénateur honoraire

Fondateur du Groupe de Prospective du Sénat

e-mail : tregouet@gmail.com

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

  • L'IA révolutionne l'étude des maladies neurodégénératives

    L'IA révolutionne l'étude des maladies neurodégénératives

    Les maladies neurodégénératives telles que les maladies d’Alzheimer, de Parkinson et de Huntington sont un enjeu grandissant en matière de santé et touchent des millions de personnes dans le monde. ...

  • L’IA qui apprend et se souvient

    L’IA qui apprend et se souvient

    Des chercheurs de l’Université de Sydney et de Californie ont conçu un réseau neuronal physique qui a réussi à apprendre et à se souvenir ‘à la volée’, d’une manière inspirée et similaire à celle ...

  • La quête vers l’ordinateur quantique progresse à grand pas...

    Edito : La quête vers l’ordinateur quantique progresse à grand pas...

    Le 20 juin dernier, Microsoft annonçait sa « feuille de route » vers un ordinateur quantique opérationnel d'ici 10 ans. Microsoft et son équipe ont travaillé sur la création de qubits topologiques. ...

Recommander cet article :

back-to-top