A fehérjék szerkezetének előrejelzése a szekvenciájukból segítené a gyógyszerek tervezését.Credit: Edward Kinsman/Science Photo Library
A biológia egyik legnagyobb kihívásának – a fehérjék 3D-szerkezetének az aminosav-szekvenciákból történő előrejelzése – megoldására irányuló verseny egyre intenzívebbé válik az új mesterségesintelligencia (AI) megközelítéseknek köszönhetően.
A múlt év végén a Google mesterséges intelligenciával foglalkozó DeepMind cége bemutatta az AlphaFold nevű algoritmust, amely két, a területen feltörekvő technikát kombinált, és a fehérjeszerkezetek előrejelzésével kapcsolatos versenyben meglepő fölénnyel győzte le a bevált versenyzőket. Idén áprilisban pedig egy amerikai kutató egy teljesen más megközelítést alkalmazó algoritmust mutatott be. Azt állítja, hogy mesterséges intelligenciája akár egymilliószor gyorsabb a struktúrák előrejelzésében, mint a DeepMindé, bár valószínűleg nem minden helyzetben olyan pontos.
Tágabb értelemben a biológusok azon tűnődnek, hogyan lehetne még a mélytanulást – a mindkét megközelítés által használt mesterséges intelligencia technikát – alkalmazni a fehérje elrendezésének előrejelzésére, amely végső soron a fehérje működését határozza meg. Ezek a megközelítések olcsóbbak és gyorsabbak, mint a meglévő laboratóriumi technikák, például a röntgenkrisztallográfia, és a tudás segíthet a kutatóknak a betegségek jobb megértésében és a gyógyszerek tervezésében. “Nagy az izgalom azzal kapcsolatban, hogy hová fejlődhetnek a dolgok” – mondja John Moult, a College Park-i Maryland Egyetem biológusa, a kétévente megrendezésre kerülő, Critical Assessment of protein Structure Prediction (CASP) nevű verseny alapítója, ahol a csapatoknak olyan számítógépes programokat kell tervezniük, amelyek szekvenciákból jelzik előre a fehérjék szerkezetét.
Innovatív megközelítés
A legújabb algoritmus megalkotója, Mohammed AlQuraishi, a massachusettsi Bostonban található Harvard Medical School biológusa még nem hasonlította össze közvetlenül a módszerének pontosságát az AlphaFoldéval – és gyanítja, hogy az AlphaFold az ő technikáját veri pontosságban, ha az elemzetthez hasonló szekvenciájú fehérjék állnak rendelkezésre referenciaként. De azt mondja, hogy mivel az algoritmusa egy matematikai függvényt használ a fehérjeszerkezetek kiszámításához egyetlen lépésben – és nem két lépésben, mint az AlphaFold, amely az első lépésben a hasonló szerkezeteket használja alapként -, órák vagy napok helyett ezredmásodpercek alatt képes megjósolni a szerkezeteket.
“AlQuraishi megközelítése nagyon ígéretes. A mélytanulásban elért eredményekre, valamint néhány új, AlQuraishi által kitalált trükkre épül” – mondja Ian Holmes, a Berkeley-i Kaliforniai Egyetem számítógépes biológusa. “Elképzelhető, hogy a jövőben az ő ötlete kombinálható másokkal, hogy továbbfejlődjön a terület” – mondja Jinbo Xu, az Illinois állambeli Chicagóban található Toyota Technológiai Intézet informatikusa, aki a CASP13-on versenyzett.”
Az AlQuraishi rendszerének középpontjában egy neurális hálózat áll, egy olyan algoritmustípus, amelyet az agyi huzalozás ihletett, és amely példákból tanul. A rendszert ismert adatokkal táplálják arról, hogy az aminosav-szekvenciák hogyan illeszkednek a fehérjeszerkezetekhez, majd megtanul új struktúrákat létrehozni ismeretlen szekvenciákból. A hálózat újszerűsége abban rejlik, hogy képes ilyen leképezéseket végponttól végpontig létrehozni; más rendszerek neurális hálózatot használnak arra, hogy megjósolják egy szerkezet bizonyos jellemzőit, majd egy másik típusú algoritmus segítségével fáradságosan keresnek egy olyan plauzibilis szerkezetet, amely magában foglalja ezeket a jellemzőket. AlQuraishi hálózatának betanítása hónapokat vesz igénybe, de ha egyszer betanította, szinte azonnal képes egy szekvenciát struktúrává alakítani.
Az általa rekurrens geometriai hálózatnak nevezett megközelítés részben az előtte és utána következők alapján jósolja meg egy fehérje egy szegmensének szerkezetét. Ez hasonló ahhoz, ahogyan egy mondatban az emberek egy szó értelmezését befolyásolhatják a környező szavak; ezeket az értelmezéseket pedig a fókuszban lévő szó befolyásolja.
Technikai nehézségek miatt AlQuraishi algoritmusa nem teljesített jól a CASP13-on. A mesterséges intelligencia részleteit áprilisban publikálta a Cell Systems című szaklapban1 , és a kódját nyilvánosan elérhetővé tette a GitHubon, remélve, hogy mások is építhetnek a munkájára. (A CASP13-on tesztelt fehérjék többségének szerkezetét még nem hozták nyilvánosságra, így még mindig nem tudta közvetlenül összehasonlítani a módszerét az AlphaFolddal.)
Neurális hálózatok
Az AlphaFold sikeresen versenyzett a CASP13-on, és nagy feltűnést keltett, amikor egy mérés szerint közel 15%-kal felülmúlta az összes többi algoritmust a kemény célpontokon.
Az AlphaFold két lépésben működik. A versenyen használt többi megközelítéshez hasonlóan többszörös szekvencia-illesztésekkel kezd. Összehasonlítja egy fehérje szekvenciáját egy adatbázisban található hasonló szekvenciákkal, hogy olyan aminosavpárokat fedezzen fel, amelyek nem egymás mellett helyezkednek el egy láncban, hanem hajlamosak egymás mellett megjelenni. Ez arra utal, hogy ez a két aminosav egymáshoz közel helyezkedik el az összehajtogatott fehérjében. A DeepMind egy neurális hálózatot képzett ki arra, hogy az ilyen párosítások alapján megjósolja a távolságot két párosított aminosav között a hajtogatott fehérjében.
Azáltal, hogy előrejelzéseit összehasonlította a fehérjékben pontosan mért távolságokkal, megtanult jobb becsléseket tenni a fehérjék összehajtásáról. Egy párhuzamos neurális hálózat megjósolta az egymás után következő aminosavak közötti illesztési szögeket a hajtogatott fehérjeláncban.
De ezek a lépések önmagukban nem képesek megjósolni egy szerkezetet, mert a megjósolt távolságok és szögek pontos halmaza fizikailag nem feltétlenül lehetséges. Ezért egy második lépésben az AlphaFold egy fizikailag lehetséges – de majdnem véletlenszerű – hajtogatási elrendezést hozott létre egy szekvencia számára. Egy másik neurális hálózat helyett egy gradiens süllyedésnek nevezett optimalizálási módszert használt a szerkezet iteratív finomítására, hogy az közelítsen az első lépésből származó (nem teljesen lehetséges) előrejelzésekhez.
Más csapatok is használták az egyik megközelítést, de egyik sem használta mindkettőt. Az első lépésben a legtöbb csapat csupán az aminosavpárok érintkezését jósolta meg, a távolságot nem. A második lépésben a legtöbb csapat komplex optimalizálási szabályokat használt a szinte automatikus gradiens süllyedés helyett.
“Nagyszerű munkát végeztek. Körülbelül egy évvel a többi csoport előtt járnak” – mondja Xu.”
Jövőbeli irányok
A DeepMind még nem hozta nyilvánosságra az AlphaFold összes részletét – de más csoportok azóta elkezdték átvenni a DeepMind és más vezető csoportok által a CASP13-on bemutatott taktikákat. Jianlin Cheng, a kolumbiai Missouri Egyetem informatikusa azt mondja, hogy saját mély neurális hálózatait úgy fogja módosítani, hogy azok az AlphaFold néhány tulajdonságával rendelkezzenek, például úgy, hogy a távolság-előrejelző szakaszban több réteggel bővíti a neurális hálózatot. A több réteg – egy mélyebb hálózat – gyakran lehetővé teszi a hálózatok számára, hogy mélyebben dolgozzák fel az információt, innen ered a mélytanulás elnevezés.
“Alig várjuk, hogy hasonló rendszereket alkalmazzanak” – mondja Andrew Senior, a DeepMind informatikusa, aki az AlphaFold csapatát vezette.
Moult szerint a CASP13-on sok vita folyt arról, hogyan lehetne még a mélytanulást alkalmazni a fehérjék hajtogatására. Talán segíthetne a közelítő szerkezet-előrejelzések finomításában; jelenthetné, hogy az algoritmus mennyire biztos egy hajtogatási előrejelzésben; vagy modellezhetné a fehérjék közötti kölcsönhatásokat.
És bár a számítógépes előrejelzések még nem elég pontosak ahhoz, hogy széles körben használják a gyógyszertervezésben, a növekvő pontosság más alkalmazásokat is lehetővé tesz, például annak megértését, hogy egy mutálódott fehérje hogyan járul hozzá a betegségekhez, vagy hogy tudjuk, egy fehérje melyik részét kell vakcinává alakítani az immunterápiához. “Ezek a modellek kezdenek hasznosak lenni” – mondja Moult.