Prevedere le strutture delle proteine dalle loro sequenze potrebbe aiutare la progettazione di farmaci.Credit: Edward Kinsman/Science Photo Library
La corsa per risolvere una delle più grandi sfide della biologia – prevedere le strutture 3D delle proteine dalle loro sequenze di aminoacidi – si sta intensificando, grazie a nuovi approcci di intelligenza artificiale (AI).
Alla fine dell’anno scorso, la società di AI di Google DeepMind ha debuttato un algoritmo chiamato AlphaFold, che ha combinato due tecniche che stavano emergendo nel campo e ha battuto i concorrenti stabiliti in una competizione sulla previsione della struttura delle proteine con un margine sorprendente. E nell’aprile di quest’anno, un ricercatore statunitense ha rivelato un algoritmo che utilizza un approccio totalmente diverso. Egli sostiene che la sua IA è fino a un milione di volte più veloce nel predire le strutture rispetto a quella di DeepMind, anche se probabilmente non è così accurata in tutte le situazioni.
Più in generale, i biologi si stanno chiedendo in che altro modo l’apprendimento profondo – la tecnica IA utilizzata da entrambi gli approcci – potrebbe essere applicata alla predizione delle disposizioni delle proteine, che in definitiva dettano la funzione di una proteina. Questi approcci sono più economici e più veloci delle tecniche di laboratorio esistenti, come la cristallografia a raggi X, e la conoscenza potrebbe aiutare i ricercatori a capire meglio le malattie e progettare farmaci. “C’è molto entusiasmo su dove le cose potrebbero andare ora”, dice John Moult, un biologo dell’Università del Maryland a College Park e il fondatore del concorso biennale, chiamato Critical Assessment of protein Structure Prediction (CASP), dove le squadre sono sfidate a progettare programmi per computer che prevedono strutture proteiche dalle sequenze.
Approccio innovativo
Il creatore dell’ultimo algoritmo, Mohammed AlQuraishi, un biologo della Harvard Medical School di Boston, Massachusetts, non ha ancora confrontato direttamente la precisione del suo metodo con quella di AlphaFold – e sospetta che AlphaFold batterebbe la sua tecnica in precisione quando sono disponibili come riferimento proteine con sequenze simili a quella analizzata. Ma dice che poiché il suo algoritmo usa una funzione matematica per calcolare le strutture delle proteine in un solo passo – piuttosto che in due passi come AlphaFold, che usa le strutture simili come base nel primo passo – può prevedere le strutture in millisecondi piuttosto che ore o giorni.
“L’approccio di AlQuraishi è molto promettente. Si basa sui progressi nell’apprendimento profondo così come su alcuni nuovi trucchi che AlQuraishi ha inventato”, dice Ian Holmes, un biologo computazionale all’Università della California, Berkeley. “Potrebbe essere possibile che, in futuro, la sua idea possa essere combinata con altre per far progredire il campo”, dice Jinbo Xu, un informatico del Toyota Technological Institute di Chicago, Illinois, che ha partecipato al CASP13.
Al centro del sistema di AlQuraishi c’è una rete neurale, un tipo di algoritmo ispirato al cablaggio del cervello che impara dagli esempi. Viene alimentato con dati noti su come le sequenze di amminoacidi mappano le strutture proteiche e poi impara a produrre nuove strutture da sequenze non familiari. La parte nuova della sua rete sta nella sua capacità di creare tali mappature end-to-end; altri sistemi usano una rete neurale per prevedere certe caratteristiche di una struttura, poi un altro tipo di algoritmo per cercare faticosamente una struttura plausibile che incorpori quelle caratteristiche. La rete di AlQuraishi impiega mesi per addestrarsi, ma una volta addestrata, può trasformare una sequenza in una struttura quasi immediatamente.
Il suo approccio, che egli chiama rete geometrica ricorrente, predice la struttura di un segmento di una proteina in parte sulla base di ciò che viene prima e dopo. Questo è simile a come l’interpretazione di una parola in una frase può essere influenzata dalle parole circostanti; queste interpretazioni sono a loro volta influenzate dalla parola focale.
Le difficoltà tecniche hanno fatto sì che l’algoritmo di AlQuraishi non abbia dato buoni risultati al CASP13. Ha pubblicato i dettagli dell’IA in Cell Systems in aprile1 e ha reso il suo codice pubblicamente disponibile su GitHub, sperando che altri possano costruire sul lavoro. (Le strutture della maggior parte delle proteine testate in CASP13 non sono ancora state rese pubbliche, quindi non ha ancora potuto confrontare direttamente il suo metodo con AlphaFold.)
Reti neurali
AlphaFold ha gareggiato con successo a CASP13 e ha fatto scalpore quando ha superato tutti gli altri algoritmi su obiettivi difficili di quasi il 15%, secondo una misura.
AlphaFold funziona in due fasi. Come altri approcci utilizzati nella competizione, inizia con qualcosa chiamato allineamenti di sequenze multiple. Confronta la sequenza di una proteina con quelle simili in un database per rivelare coppie di aminoacidi che non si trovano uno accanto all’altro in una catena, ma che tendono ad apparire in tandem. Ciò suggerisce che questi due aminoacidi sono situati uno vicino all’altro nella proteina ripiegata. DeepMind ha addestrato una rete neurale per prendere tali accoppiamenti e prevedere la distanza tra due aminoacidi accoppiati nella proteina ripiegata.
Confrontando le sue previsioni con le distanze misurate con precisione nelle proteine, ha imparato a fare ipotesi migliori su come le proteine si sarebbero piegate. Una rete neurale parallela ha previsto gli angoli delle giunzioni tra aminoacidi consecutivi nella catena proteica ripiegata.
Ma questi passi non possono prevedere una struttura da soli, perché l’esatta serie di distanze e angoli previsti potrebbe non essere fisicamente possibile. Così, in un secondo passo, AlphaFold ha creato una disposizione di ripiegamento fisicamente possibile – ma quasi casuale – per una sequenza. Invece di un’altra rete neurale, ha usato un metodo di ottimizzazione chiamato discesa del gradiente per raffinare iterativamente la struttura in modo che si avvicinasse alle previsioni (non proprio possibili) del primo passo.
Alcuni altri team hanno usato uno degli approcci, ma nessuno li ha usati entrambi. Nel primo passo, la maggior parte delle squadre ha semplicemente previsto il contatto in coppie di aminoacidi, non la distanza. Nella seconda fase, la maggior parte ha usato regole di ottimizzazione complesse invece della discesa del gradiente, che è quasi automatica.
“Hanno fatto un ottimo lavoro. Sono circa un anno avanti agli altri gruppi”, dice Xu.
Direzioni future
DeepMind deve ancora rilasciare tutti i dettagli su AlphaFold – ma altri gruppi hanno iniziato ad adottare le tattiche dimostrate da DeepMind e da altri team leader a CASP13. Jianlin Cheng, un informatico dell’Università del Missouri a Columbia, dice che modificherà le sue reti neurali profonde per avere alcune caratteristiche di AlphaFold, per esempio aggiungendo più strati alla rete neurale nella fase di previsione della distanza. Avere più strati – una rete più profonda – spesso permette alle reti di elaborare le informazioni più profondamente, da cui il nome deep learning.
“Non vediamo l’ora di vedere sistemi simili messi in uso”, dice Andrew Senior, l’informatico di DeepMind che ha guidato il team di AlphaFold.
Moult ha detto che ci sono state molte discussioni al CASP13 su come altro apprendimento profondo potrebbe essere applicato al ripiegamento delle proteine. Forse potrebbe aiutare a raffinare le previsioni della struttura approssimativa; riferire quanto l’algoritmo è fiducioso in una previsione di ripiegamento; o modellare le interazioni tra le proteine.
E anche se le previsioni computazionali non sono ancora abbastanza accurate da essere ampiamente utilizzate nella progettazione di farmaci, la crescente precisione consente altre applicazioni, come la comprensione di come una proteina mutata contribuisce alla malattia o sapere quale parte di una proteina trasformare in un vaccino per l’immunoterapia. “Questi modelli stanno cominciando ad essere utili”, dice Moult.