Algoritmii AI de pliere a proteinelor rezolvă structurile mai repede ca niciodată

Procariotele și eucariotele răspund la șocul termic și la alte forme de stres de mediu

Predicerea structurilor proteinelor pornind de la secvențele lor ar ajuta la proiectarea medicamentelor.Credit: Edward Kinsman/Science Photo Library

Cercetarea uneia dintre cele mai mari provocări ale biologiei – prezicerea structurilor 3D ale proteinelor pornind de la secvențele lor de aminoacizi – se intensifică, datorită noilor abordări de inteligență artificială (AI).

La sfârșitul anului trecut, firma de inteligență artificială DeepMind a Google a debutat cu un algoritm numit AlphaFold, care a combinat două tehnici emergente în domeniu și a învins cu o marjă surprinzătoare concurenții consacrați într-o competiție privind predicția structurii proteinelor. Iar în luna aprilie a acestui an, un cercetător american a dezvăluit un algoritm care folosește o abordare total diferită. El susține că inteligența sa artificială este de până la un milion de ori mai rapidă la prezicerea structurilor decât cea a DeepMind, deși, probabil, nu este la fel de precisă în toate situațiile.

În sens mai larg, biologii se întreabă cum ar mai putea fi aplicată învățarea profundă – tehnica de inteligență artificială utilizată de ambele abordări – la prezicerea aranjamentelor proteice, care, în cele din urmă, dictează funcția unei proteine. Aceste abordări sunt mai ieftine și mai rapide decât tehnicile de laborator existente, cum ar fi cristalografia cu raze X, iar cunoștințele obținute ar putea ajuta cercetătorii să înțeleagă mai bine bolile și să conceapă medicamente. „Există o mulțime de entuziasm cu privire la direcția în care ar putea să se îndrepte lucrurile acum”, spune John Moult, biolog la Universitatea Maryland din College Park și fondator al competiției bienale, numită CASP (Critical Assessment of protein Structure Prediction), în cadrul căreia echipele sunt provocate să proiecteze programe de calculator care să prezică structurile proteinelor pornind de la secvențe.

Abordare inovatoare

Creatorul celui mai recent algoritm, Mohammed AlQuraishi, biolog la Harvard Medical School din Boston, Massachusetts, nu a comparat încă în mod direct acuratețea metodei sale cu cea a AlphaFold – și bănuiește că AlphaFold ar depăși tehnica sa în ceea ce privește acuratețea atunci când sunt disponibile ca referință proteine cu secvențe similare celei analizate. Dar el spune că, deoarece algoritmul său folosește o funcție matematică pentru a calcula structurile proteinelor într-un singur pas – mai degrabă decât în doi pași ca AlphaFold, care folosește structurile similare ca bază în primul pas – poate prezice structuri în milisecunde, mai degrabă decât în ore sau zile.

„Abordarea lui AlQuraishi este foarte promițătoare. Ea se bazează pe progresele în învățarea profundă, precum și pe unele trucuri noi pe care AlQuraishi le-a inventat”, spune Ian Holmes, biolog computaționalist la Universitatea din California, Berkeley. „Ar fi posibil ca, în viitor, ideea sa să poată fi combinată cu altele pentru a avansa în domeniu”, spune Jinbo Xu, un informatician de la Institutul Tehnologic Toyota din Chicago, Illinois, care a concurat la CASP13.

În centrul sistemului lui AlQuraishi se află o rețea neuronală, un tip de algoritm inspirat de cablajul creierului care învață din exemple. Acesta este alimentat cu date cunoscute despre modul în care secvențele de aminoacizi se corelează cu structurile proteice și apoi învață să producă structuri noi din secvențe necunoscute. Partea inedită a rețelei sale constă în capacitatea sa de a crea astfel de corespondențe de la un capăt la altul; alte sisteme folosesc o rețea neuronală pentru a prezice anumite caracteristici ale unei structuri, apoi un alt tip de algoritm pentru a căuta laborios o structură plauzibilă care să încorporeze acele caracteristici. Rețeaua lui AlQuraishi are nevoie de luni pentru a se antrena, dar odată antrenată, poate transforma o secvență într-o structură aproape imediat.

Abordarea sa, pe care o numește rețea geometrică recurentă, prezice structura unui segment al unei proteine parțial pe baza a ceea ce vine înainte și după el. Acest lucru este similar cu modul în care interpretarea unui cuvânt dintr-o propoziție de către oameni poate fi influențată de cuvintele din jur; aceste interpretări sunt la rândul lor influențate de cuvântul focal.

Dificultăți tehnice au făcut ca algoritmul lui AlQuraishi să nu aibă performanțe bune la CASP13. El a publicat detalii despre AI în Cell Systems în aprilie1 și a făcut public codul său pe GitHub, sperând că și alții se vor baza pe această lucrare. (Structurile pentru majoritatea proteinelor testate în cadrul CASP13 nu au fost făcute publice încă, așa că el încă nu a putut compara direct metoda sa cu AlphaFold.)

Rețele neuronale

AlphaFold a concurat cu succes la CASP13 și a creat agitație atunci când a depășit toți ceilalți algoritmi pe obiective dificile cu aproape 15%, conform unei măsurători.

AlphaFold funcționează în doi pași. Ca și alte abordări folosite în competiție, începe cu ceva numit alinieri de secvențe multiple. Acesta compară secvența unei proteine cu cele similare dintr-o bază de date pentru a descoperi perechi de aminoacizi care nu se află unul lângă altul într-un lanț, dar care tind să apară în tandem. Acest lucru sugerează că acești doi aminoacizi sunt localizați unul lângă celălalt în proteina pliată. DeepMind a antrenat o rețea neuronală pentru a lua astfel de perechi și a prezice distanța dintre doi aminoacizi împerecheați în proteina pliată.

Prin compararea predicțiilor sale cu distanțele măsurate cu precizie în proteine, a învățat să facă presupuneri mai bune despre cum se vor plia proteinele. O rețea neuronală paralelă a prezis unghiurile îmbinărilor dintre aminoacizii consecutivi din lanțul proteic pliat.

Dar acești pași nu pot prezice o structură prin ei înșiși, deoarece setul exact de distanțe și unghiuri prezise ar putea să nu fie posibil din punct de vedere fizic. Astfel, într-o a doua etapă, AlphaFold a creat un aranjament de pliere fizic posibil – dar aproape aleatoriu – pentru o secvență. În loc de o altă rețea neuronală, a folosit o metodă de optimizare numită coborâre a gradientului pentru a rafina iterativ structura astfel încât să se apropie de predicțiile (nu tocmai posibile) din prima etapă.

Alte câteva echipe au folosit una dintre abordări, dar niciuna nu le-a folosit pe amândouă. În prima etapă, majoritatea echipelor au prezis doar contactul în perechi de aminoacizi, nu și distanța. În a doua etapă, majoritatea au folosit reguli complexe de optimizare în loc de coborârea gradientului, care este aproape automată.

„Au făcut o treabă excelentă. Sunt cu aproximativ un an înaintea celorlalte grupuri”, spune Xu.

Direcții viitoare

DeepMind nu a publicat încă toate detaliile despre AlphaFold – dar alte grupuri au început de atunci să adopte tacticile demonstrate de DeepMind și de alte echipe de frunte la CASP13. Jianlin Cheng, informatician la Universitatea Missouri din Columbia, spune că își va modifica rețelele neuronale profunde pentru a avea unele caracteristici ale celor de la AlphaFold, de exemplu prin adăugarea mai multor straturi la rețeaua neuronală în etapa de predicție a distanței. Faptul de a avea mai multe straturi – o rețea mai profundă – permite adesea rețelelor să proceseze informațiile mai profund, de unde și denumirea de învățare profundă.

„Așteptăm cu nerăbdare să vedem sisteme similare puse în aplicare”, spune Andrew Senior, informatician la DeepMind care a condus echipa AlphaFold.

Moult a spus că au existat multe discuții la CASP13 despre cum ar putea fi aplicată învățarea profundă la plierea proteinelor. Poate că ar putea ajuta la rafinarea predicțiilor de structură aproximativă; să raporteze cât de încrezător este algoritmul într-o predicție de pliere; sau să modeleze interacțiunile dintre proteine.

Și, deși predicțiile computaționale nu sunt încă suficient de precise pentru a fi utilizate pe scară largă în proiectarea medicamentelor, acuratețea tot mai mare permite alte aplicații, cum ar fi înțelegerea modului în care o proteină mutantă contribuie la boală sau cunoașterea părții unei proteine care trebuie transformată într-un vaccin pentru imunoterapie. „Aceste modele încep să fie utile”, spune Moult.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *