L’open source de logiciels de structure de protéines porte déjà ses fruits

Humphreys et. al.
Il est maintenant relativement trivial de déterminer l’ordre des acides aminés dans une protéine. Cependant, comprendre comment cet ordre se traduit par une structure tridimensionnelle compliquée qui remplit une fonction spécifique est extrêmement difficile. Mais après des décennies de lents progrès, le groupe DeepMind AI de Google a annoncé qu’il avait fait d’énormes progrès pour résoudre le problème. En juillet, le système, appelé AlphaFold, est devenu open source. Dans le même temps, un groupe de chercheurs universitaires a publié son propre logiciel de repliement des protéines, appelé RoseTTAFold, construit en partie à l’aide d’idées dérivées des travaux de DeepMind.
Quelle est l’efficacité de ces outils ? Même s’ils ne sont pas aussi bons que certaines des statistiques suggérées, il est clair qu’ils sont bien meilleurs que tout ce que nous avons jamais eu. Alors, comment les scientifiques les utiliseront-ils ?
Nous avons obtenu une réponse partielle cette semaine, alors qu’une grande collaboration de recherche a mis le logiciel en liberté sur un problème connexe : comment ces structures tridimensionnelles individuelles se réunissent pour former les grands complexes multiprotéiques qui remplissent certaines des fonctions les plus importantes en biologie .
Au-delà de la 3D
De nombreuses protéines individuelles fonctionnent très bien par elles-mêmes, mais certains aspects de la biologie nécessitent la coordination minutieuse de multiples changements chimiques effectués sous la forme d’une série d’étapes séquentielles ordonnées. Et pour ces processus, il est souvent plus facile pour les protéines qui doivent se coordonner de faire partie d’un seul complexe. Par exemple, le complexe qui fait des copies de nos chromosomes se compose généralement de plus d’une douzaine de protéines. Le photosystème I, qui fait partie du processus photosynthétique des plantes, est d’échelle similaire. Le ribosome, qui traduit l’information contenue dans les ARN messagers en la séquence d’acides aminés des protéines, peut nécessiter plus de 75 protéines chez certaines espèces.
L’assemblage de ces complexes et d’autres nécessite le repliement approprié de leurs protéines composantes dans les bonnes formes tridimensionnelles, le problème pour lequel AlphaFold et RoseTTAFold ont été conçus. Une fois ce repliement terminé, cependant, les protéines doivent interagir les unes avec les autres, s’assemblant dans la bonne orientation et stabilisant ces interactions par des contacts entre leurs acides aminés (ce qui signifie qu’une charge positive sur une protéine correspondrait à une charge négative sur son partenaire, etc.).
Dans une certaine mesure, les informations obtenues à partir d’AlphaFold et de RoseTTAFold devraient être utiles pour cette application, car la résolution des structures individuelles des protéines devrait nous renseigner sur les surfaces qui pourraient interagir. Mais les méthodes utilisées par les algorithmes se sont avérées particulièrement utiles pour l’assemblage de complexes multiprotéiques.
RoseTTAFold, par exemple, résout les structures des protéines en partie en coupant leur séquence d’acides aminés en morceaux plus petits et en résolvant chacun d’eux avant de les assembler en une protéine plus complète. Mais les créateurs du système ont découvert que si RoseTTAFold recevait des morceaux de deux protéines différentes qui interagissent, il assemblerait volontiers les deux protéines d’une manière qui capturerait également leurs interactions, y compris la bonne orientation et le bon espacement.
L’évolution donne et retire
L’autre caractéristique utile est que les deux algorithmes s’appuient fortement sur l’évolution pour faire leurs prédictions structurelles. Une étape clé pour chacun consiste à identifier de nombreuses protéines liées par une descendance commune et susceptibles de partager une structure commune. Ces protéines fournissent des contraintes importantes sur les structures possibles au sein d’une famille donnée de séquences apparentées. Certains acides aminés interfèrent par exemple avec la formation de la structure hélicoïdale.
Les complexes protéiques peuvent faire face à des contraintes similaires, mais il existe une différence importante. Disons que la protéine A a un acide aminé avec une charge positive qui interagit avec une charge négative sur la protéine B. Si une mutation change A pour qu’il ait maintenant une charge négative, l’interaction entre les deux serait considérablement affaiblie. Mais la protéine B pourrait compenser ce problème si une mutation échangeait sa charge négative contre une charge positive.
Suivre les paires de protéines au fur et à mesure qu’elles changent au cours de l’évolution peut fournir une indication pour savoir si des changements dans l’une sont compensés par des changements dans l’autre. L’absence de ces types de changements peut nous indiquer que les protéines sont peu susceptibles d’interagir.
Pour que l’analyse reste exploitable par le calcul, les chercheurs ont simplement associé chaque protéine à tout le reste du génome. Ils ont trouvé des interactions par paires et ont ensuite utilisé ces interactions pour construire des complexes plus grands. Cependant, même la connaissance de paires potentielles d’interactions laissait des complexes limités à un petit nombre de protéines ; et tenter de construire quelque chose d’aussi gros que l’ADN polymérase aurait submergé le matériel informatique auquel les chercheurs avaient accès.