Les algorithmes de repliement des protéines de l’IA résolvent des structures plus rapidement que jamais

Les procaryotes et les eucaryotes répondent aux chocs thermiques et à d'autres formes de stress environnemental

Prédire les structures des protéines à partir de leurs séquences faciliterait la conception de médicaments.Crédit : Edward Kinsman/Science Photo Library

La course pour résoudre l’un des plus grands défis de la biologie – prédire les structures 3D des protéines à partir de leurs séquences d’acides aminés – s’intensifie, grâce à de nouvelles approches d’intelligence artificielle (IA).

À la fin de l’année dernière, DeepMind, la société d’IA de Google, a présenté un algorithme appelé AlphaFold, qui combinait deux techniques émergentes dans le domaine et a battu les concurrents établis dans une compétition sur la prédiction de la structure des protéines par une marge surprenante. En avril de cette année, un chercheur américain a révélé un algorithme qui utilise une approche totalement différente. Il affirme que son IA est jusqu’à un million de fois plus rapide pour prédire les structures que celle de DeepMind, même si elle n’est probablement pas aussi précise dans toutes les situations.

Plus largement, les biologistes se demandent comment l’apprentissage profond – la technique d’IA utilisée par les deux approches – pourrait être appliqué à la prédiction des arrangements protéiques, qui dictent en fin de compte la fonction d’une protéine. Ces approches sont moins coûteuses et plus rapides que les techniques de laboratoire existantes, comme la cristallographie aux rayons X, et les connaissances acquises pourraient aider les chercheurs à mieux comprendre les maladies et à concevoir des médicaments. « Il y a beaucoup d’excitation quant à l’évolution possible des choses maintenant », déclare John Moult, biologiste à l’Université du Maryland à College Park et fondateur du concours biennal, appelé Critical Assessment of protein Structure Prediction (CASP), où les équipes sont mises au défi de concevoir des programmes informatiques qui prédisent les structures des protéines à partir de séquences.

Approche innovante

Le créateur du dernier algorithme, Mohammed AlQuraishi, biologiste à la Harvard Medical School de Boston, dans le Massachusetts, n’a pas encore comparé directement la précision de sa méthode avec celle d’AlphaFold – et il soupçonne qu’AlphaFold battrait sa technique en précision lorsque des protéines avec des séquences similaires à celle analysée sont disponibles comme référence. Mais il affirme que parce que son algorithme utilise une fonction mathématique pour calculer les structures des protéines en une seule étape – plutôt qu’en deux étapes comme AlphaFold, qui utilise les structures similaires comme travail préparatoire dans la première étape – il peut prédire les structures en quelques millisecondes plutôt qu’en heures ou en jours.

« L’approche d’AlQuraishi est très prometteuse. Elle s’appuie sur les avancées de l’apprentissage profond ainsi que sur certaines nouvelles astuces qu’AlQuraishi a inventées », déclare Ian Holmes, biologiste informatique à l’université de Californie à Berkeley. « Il est possible qu’à l’avenir, son idée puisse être combinée avec d’autres pour faire progresser le domaine », ajoute Jinbo Xu, informaticien au Toyota Technological Institute de Chicago (Illinois), qui a concouru au CASP13.

Au cœur du système d’AlQuraishi se trouve un réseau neuronal, un type d’algorithme inspiré du câblage du cerveau qui apprend à partir d’exemples. Il est alimenté par des données connues sur la façon dont les séquences d’acides aminés correspondent aux structures des protéines, puis apprend à produire de nouvelles structures à partir de séquences inconnues. La nouveauté de son réseau réside dans sa capacité à créer de telles correspondances de bout en bout ; d’autres systèmes utilisent un réseau neuronal pour prédire certaines caractéristiques d’une structure, puis un autre type d’algorithme pour rechercher laborieusement une structure plausible qui intègre ces caractéristiques. Le réseau d’AlQuraishi prend des mois à former, mais une fois formé, il peut transformer une séquence en une structure presque immédiatement.

Son approche, qu’il baptise réseau géométrique récurrent, prédit la structure d’un segment d’une protéine en partie sur la base de ce qui le précède et le suit. Cela ressemble à la façon dont l’interprétation par les gens d’un mot dans une phrase peut être influencée par les mots environnants ; ces interprétations sont à leur tour influencées par le mot focal.

Des difficultés techniques ont fait que l’algorithme d’AlQuraishi n’a pas obtenu de bons résultats lors du CASP13. Il a publié les détails de l’IA dans Cell Systems en avril1 et a mis son code à la disposition du public sur GitHub, en espérant que d’autres s’inspireront de ce travail. (Les structures de la plupart des protéines testées dans le cadre du CASP13 n’ont pas encore été rendues publiques, de sorte qu’il n’a pas encore pu comparer directement sa méthode avec celle d’AlphaFold.)

Réseaux neuronaux

AlphaFold a concouru avec succès au CASP13 et a fait sensation lorsqu’il a surpassé tous les autres algorithmes sur des cibles difficiles de près de 15 %, selon une mesure.

AlphaFold fonctionne en deux étapes. Comme les autres approches utilisées dans le concours, il commence par ce qu’on appelle des alignements de séquences multiples. Elle compare la séquence d’une protéine avec des séquences similaires dans une base de données pour révéler des paires d’acides aminés qui ne se trouvent pas l’un à côté de l’autre dans une chaîne, mais qui ont tendance à apparaître en tandem. Cela suggère que ces deux acides aminés sont situés à proximité l’un de l’autre dans la protéine repliée. DeepMind a entraîné un réseau neuronal à prendre de telles paires et à prédire la distance entre deux acides aminés appariés dans la protéine repliée.

En comparant ses prédictions avec les distances mesurées précisément dans les protéines, il a appris à faire de meilleures suppositions sur la façon dont les protéines se replieraient. Un réseau neuronal parallèle a prédit les angles des articulations entre les acides aminés consécutifs dans la chaîne de protéines repliées.

Mais ces étapes ne peuvent pas prédire une structure par elles-mêmes, car l’ensemble exact de distances et d’angles prédits pourrait ne pas être physiquement possible. Donc, dans une deuxième étape, AlphaFold a créé un arrangement de pliage physiquement possible – mais presque aléatoire – pour une séquence. Au lieu d’un autre réseau neuronal, il a utilisé une méthode d’optimisation appelée descente de gradient pour affiner itérativement la structure afin qu’elle se rapproche des prédictions (pas tout à fait possibles) de la première étape.

Quelques autres équipes ont utilisé l’une des approches, mais aucune n’a utilisé les deux. Dans la première étape, la plupart des équipes ont simplement prédit le contact par paires d’acides aminés, et non la distance. Dans la deuxième étape, la plupart ont utilisé des règles d’optimisation complexes au lieu de la descente de gradient, qui est presque automatique.

« Ils ont fait un excellent travail. Ils ont environ un an d’avance sur les autres groupes », déclare Xu.

Directives futures

DeepMind doit encore publier tous les détails sur AlphaFold – mais d’autres groupes ont depuis commencé à adopter les tactiquesdémontrées par DeepMind et d’autres équipes de pointe lors de CASP13. Jianlin Cheng, informaticien à l’université du Missouri à Columbia, affirme qu’il modifiera ses réseaux neuronaux profonds pour qu’ils présentent certaines caractéristiques de ceux d’AlphaFold, par exemple en ajoutant davantage de couches au réseau neuronal lors de la phase de prédiction de la distance. Le fait d’avoir plus de couches – un réseau plus profond – permet souvent aux réseaux de traiter l’information plus profondément, d’où le nom d’apprentissage profond.

« Nous avons hâte de voir des systèmes similaires mis en œuvre », déclare Andrew Senior, l’informaticien de DeepMind qui a dirigé l’équipe d’AlphaFold.

Moult a déclaré qu’il y avait beaucoup de discussions à CASP13 sur la façon dont l’apprentissage profond pourrait être appliqué au repliement des protéines. Peut-être pourrait-il aider à affiner les prédictions de structure approximative ; rendre compte du degré de confiance de l’algorithme dans une prédiction de repliement ; ou modéliser les interactions entre les protéines.

Et bien que les prédictions computationnelles ne soient pas encore assez précises pour être largement utilisées dans la conception de médicaments, la précision croissante permet d’autres applications, comme comprendre comment une protéine mutée contribue à la maladie ou savoir quelle partie d’une protéine transformer en vaccin pour l’immunothérapie. « Ces modèles commencent à être utiles », affirme Moult.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *