Vivant
- Santé, Médecine et Sciences du Vivant
- Biologie & Biochimie
Vers une conception de nouvelles protéines par apprentissage statistique
- Tweeter
-
-
0 avis :
Au cours de l'évolution, les protéines explorent l'espace des séquences fonctionnelles. L'interaction entre mutations aléatoires du génome et sélection naturelle des organismes a permis l’apparition de milliers de protéines ayant des séquences d'acides aminés distinctes, mais des fonctions biologiques ou des structures tridimensionnelles équivalentes. Grâce aux techniques modernes de séquençage des génomes, de plus en plus de ces séquences sont connues. La base de données Uniprot rassemble, par exemple, plus de 200 millions de séquences distinctes, mais seulement environ 0,25 % de ces séquences ont une structure ou une fonction connue expérimentalement.
Les approches informatiques basées sur la science des données, la physique statistique et/ou l'intelligence artificielle gagnent rapidement en importance pour explorer cette richesse croissante de données et en extraire des informations biologiques. Récemment, un exemple impressionnant a été donné par AlphaFold soutenu par Google Deepmind, qui arrive à prédire les structures des protéines à partir des séquences avec une précision sans précédent. Dans ce contexte, les modèles dits "génératifs" suscitent également un intérêt croissant, de par leur capacité à générer de manière computationnelle des séquences artificielles d'acides aminés statistiquement équivalentes à leurs homologues naturels. Il a récemment été démontré que la modélisation générative offre un nouveau paradigme pour concevoir et optimiser de nouvelles protéines en utilisant les bases de données existantes, avec des enjeux économiques importants.
Une équipe de recherche de l’Institut de biologie Paris-Seine (IBPS – Sorbonne Université/CNRS) dirigée par Martin Weigt, enseignant-chercheur à Sorbonne Université, a proposé, en collaboration avec des chercheurs du Laboratoire de physique de l’ENS (LPENS, École normale supérieure/CNRS/SU/Université de Paris) et de l’École Polytechnique de Turin, une nouvelle méthode plus performante pour l’apprentissage de modèles génératifs. Cette approche dite "autorégressive", proche de familles connues de protéines et de leurs séquences pour ajuster un modèle statistique, permet à la fois de proposer de nouvelles séquences protéiques et de donner des informations sur la structure et la fonction des protéines associées.
Grâce à son efficacité, cette méthode peut être utilisée sur des milliers de familles de protéines, y compris celles ayant de très longues séquences. Elle permet de générer et d’évaluer de nouvelles séquences, qui n’ont jamais été trouvées dans la nature auparavant. Selon l’équipe de chercheurs, ces séquences artificielles seront importantes pour l'optimisation et la conception de grandes protéines de fonctionnalité donnée (par exemple, des enzymes efficaces et thermostables), question où la recherche fondamentale rejoint des enjeux technologiques et biomédicaux.
Article rédigé par Georges Simmonds pour RT Flash
Noter cet article :
Vous serez certainement intéressé par ces articles :
Comment un régime pauvre en glucides peut favoriser le cancer colorectal
Une étude de l'université de Toronto a montré qu'un régime comprenant une réduction drastique des glucides (fruits, pommes de terre, blé, riz, maïs, lentilles, haricots secs...), de type "low carb", ...
Des microprotéines pour bloquer la croissance tumorale
Une équipe de cancérologues et de biologistes de l’Hospital del Mar Medical Research Institute (IMIM, Barcelone) a découvert des microprotéines exclusivement présentes dans les tumeurs, qui ...
Les fibres alimentaires réguleraient l'expression de certains gènes
Des chercheurs de l'Ecole de Médecine de Stanford ont montré le rôle bénéfique des fibres alimentaires qui peuvent parfois modifier le fonctionnement de nos gènes. Les fibres sont bien connues pour ...
Recommander cet article :
- Nombre de consultations : 0
- Publié dans : Biologie & Biochimie
- Partager :