RTFlash

Vivant

Des génomes entiers assemblés sur de simples ordinateurs portables

Des étapes cruciales ont été franchies, depuis la publication en 2003 du premier génome humain complet, fruit d’une collaboration internationale. Pourtant, l’assemblage du génome humain nécessite encore aujourd’hui plusieurs jours de traitement et une puissance informatique considérable. Les technologies de séquençage de troisième génération permettent un séquençage de haute qualité et produisent des téraoctets de séquences génomiques, chacune comportant des dizaines de milliers de paires de bases. L'assemblage du génome à partir de données massives reste une tâche difficile, du fait de comparaisons de séquences par paires, à mener parmi une multitude de combinaisons possibles.

S’inspirant du traitement automatique de la langue naturelle, des chercheurs de l’Institut Pasteur et du Massachusetts Institute of Technology (MIT) ont utilisé la théorie des graphes pour développer un nouveau logiciel de traitement, appelé « minimizer-space de Bruijn graph (mdBG) », incorporant des courtes séquences nucléotidiques, appelées « minimiseurs », plutôt que des nucléotides uniques.

Ce logiciel a ensuite été utilisé pour assembler des données brutes : l’application s’est faite d’abord sur les séquences génomiques de drosophiles Drosophila melanogaster, puis sur le génome humain. Les génomes ainsi obtenus ont été produits en un temps record (10 minutes au lieu de plus de 24h) avec une économie d’énergie considérable. Le mdBG nécessite en effet environ 33 fois moins de temps et 8 fois moins de mémoire vive (RAM), comparé aux autres assembleurs de génomes.

« Il a été possible d’assembler rapidement des génomes et métagénomes entiers, de haute qualité, et pour la première fois sans devoir recourir à des ordinateurs puissants », explique Rayan Chikhi, responsable de l’unité Algorithmes pour les séquences biologiques à l'Institut Pasteur et co-auteur de l’étude. « Cette innovation est cruciale pour estimer par exemple les modifications du microbiote intestinal, dans un contexte pathologique et/ou lié aux infections bactériennes, telle que la septicémie. Surtout, elle permet de traiter plus rapidement et in fine de sauver des vies » continue Bonnie Berger, professeur de mathématiques au Computer Science et AI Lab du MIT et co-auteure de ces travaux.

En appliquant le mdBG à l’analyse de plus de 600 000 génomes bactériens (issus d’une collection compilée par l’European Bioinformatics Institute), les chercheurs ont en effet pu identifier en 13 minutes tous les gènes de résistance aux antimicrobiens de ces bactéries, un processus qui prenait jusqu’alors 7 heures par requête, via l’alignement standard des séquences. Grâce à cette technologie, les chercheurs vont maintenant pouvoir séquencer des génomes de manières plus efficace et plus rapide, en utilisant du matériel informatique accessible (ordinateur portable). Le logiciel est disponible en open-source et partagé à l’ensemble de la communauté scientifique.

Article rédigé par Georges Simmonds pour RT Flash

Institut Pasteur

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top