RTFlash

Le Décrypthon accélère la comparaison de 500 000 protéines grâce aux internautes

En informatique aussi, l'union fait la force. Depuis la mi- mars, plus de 55 000 internautes ont mis les capacités de calcul inemployées de leur ordinateur à la disposition du projet Décrypthon, pour comparer une à une les 500 000 protéines identifiées à ce jour dans le monde vivant. Lancé à l'occasion du Téléthon 2001 par l'Association française contre les myopathies (AFM) et IBM, Le Décrypthon s'appuie sur les prouesses de l'informatique distribuée. Appelée grid computing par les Anglo-Saxons, celle-ci consiste à tirer profit des capacités de calcul de simples PC, reliés à des serveurs via Internet, plutôt que de dépendre de gros ordinateurs dont l'utilisation est extrêmement coûteuse. Ces internautes ont téléchargé un petit programme (5,6 Mo), qui permet de comparer les protéines entre elles. Au total, il faudra effectuer 125 milliards de comparaisons, ce qui, pour un ordinateur personnel standard, prendrait environ 1 170 années. La distribution du calcul en petites unités - des paquets de séquences de 600 protéines - permet d'aller beaucoup plus vite : 27,3 % des opérations ont déjà été effectuées, et "on va plus vite que prévu", se réjouit Guillaume Decap, chef du projet chez IBM France. Le but de ces comparaisons ? "Construire des familles de protéines similaires", répond William Saurin, fondateur de la société Genomining, qui gère la base de données issue du Décrypthon. "L'idée est d'établir la similarité entre les protéines de différents organismes, pour inférer les fonctions qu'elles commandent. Et de déterminer les sous-régions des protéines qui ont conservé une influence semblable au cours de l'évolution." Ainsi pourra-t-on nourrir une discipline, la protéomique, qui a pour objet de déterminer les fonctions des protéines et pour ambition de fournir de nouveaux moyens thérapeutiques. La comparaison de protéines se prête à merveille au calcul distribué. "L'opération de base consiste à comparer deux séquences, le calcul est bien défini, sans relation avec d'autres calculs simples", note William Saurin. L'algorithme utilisé, dit de Smith-Waterman, datant de 1981, est utilisé quotidiennement par les généticiens. Il permet d'évaluer la similarité de sous-régions de différentes protéines en calculant le nombre minimal de transformations nécessaires pour changer une séquence en une autre. "Il fournit un niveau moyen de similarité pour chaque paire de protéines comparées", indique le chercheur. Techniquement, les PC de ces internautes effectuent les calculs lorsque leur puce n'est pas sollicitée par d'autres tâches. Ils adressent le résultat, via Internet, à une vingtaine de serveurs qui leur fournissent en retour un nouveau paquet de données à traiter. Pour autant, le recours à des internautes volontaires, certes volatils, ou à des machines disparates, est de plus en plus fréquent. Le projet Seti@home de recherche d'intelligence extraterrestre a ouvert la voie. Napster et ses clones qui permettent d'échanger de la musique et des données multimédias sur le Web en sont une autre forme. Les grands de l'informatique s'y intéressent. Intel s'est ainsi associé à United Devices et à l'université d'Oxford pour chercher des molécules anticancéreuses susceptibles d'agir sur quatre protéines-cibles impliquées dans le développement des tumeurs. Lancé en avril 2001, le projet Cancer research a rapidement fédéré plus d'un million d'ordinateurs, et permis de scanner plus de 3,5 milliards de molécules, aboutissant à la présélection de quelque 800 000 molécules, dont 10 % à 30 % pourraient avoir une action - encore à déterminer - sur deux protéines-cibles. Le projet, qui totalise 80 000 années de calcul, a été étendu à 12 protéines-cibles.

Le Monde : http://www.lemonde.fr/article/0,5987,3244--268825-,00.html

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top