Závod o rozlousknutí jedné z největších výzev biologie – předpovídání 3D struktur proteinů z jejich aminokyselinových sekvencí – se zintenzivňuje díky novým přístupům umělé inteligence.
Na konci loňského roku debutovala společnost DeepMind, která se zabývá umělou inteligencí a patří společnosti Google, s algoritmem nazvaným AlphaFold, který kombinoval dvě techniky, jež se v této oblasti objevovaly, a v soutěži o předpovídání struktury proteinů překvapivě porazil zavedené soupeře. A letos v dubnu odhalil americký výzkumník algoritmus, který využívá zcela odlišný přístup. Tvrdí, že jeho umělá inteligence je v předpovídání struktur až milionkrát rychlejší než algoritmus společnosti DeepMind, i když pravděpodobně ne ve všech situacích stejně přesná.
V širším měřítku si biologové kladou otázku, jak jinak by se dalo hluboké učení – technika umělé inteligence používaná oběma přístupy – použít při předpovídání uspořádání proteinů, které v konečném důsledku určuje jejich funkci. Tyto přístupy jsou levnější a rychlejší než stávající laboratorní techniky, jako je rentgenová krystalografie, a získané poznatky by mohly vědcům pomoci lépe porozumět nemocem a navrhovat léky. „Je tu spousta vzrušení z toho, kam by se věci mohly posunout,“ říká John Moult, biolog z Marylandské univerzity v College Parku a zakladatel soutěže, která se koná každé dva roky a nazývá se Critical Assessment of protein Structure Prediction (CASP) a v níž mají týmy za úkol navrhnout počítačové programy, které předpovídají struktury proteinů ze sekvencí.
Inovativní přístup
Tvůrce nejnovějšího algoritmu Mohammed AlQuraishi, biolog z Harvard Medical School v Bostonu ve státě Massachusetts, zatím přímo neporovnal přesnost své metody s metodou AlphaFold – a předpokládá, že AlphaFold by jeho techniku v přesnosti porazil, pokud by byly k dispozici referenční proteiny se sekvencemi podobnými analyzovanému. Říká však, že díky tomu, že jeho algoritmus používá matematickou funkci k výpočtu struktury bílkovin v jediném kroku – a nikoli ve dvou krocích jako AlphaFold, který v prvním kroku používá podobné struktury jako podklad – může předpovídat struktury v milisekundách, nikoli v hodinách nebo dnech.
„AlQuraishiho přístup je velmi slibný. Vychází z pokroků v hlubokém učení a také z některých nových triků, které AlQuraishi vymyslel,“ říká Ian Holmes, počítačový biolog z Kalifornské univerzity v Berkeley. „Je možné, že v budoucnu bude možné jeho nápad zkombinovat s dalšími a posunout tak obor kupředu,“ říká Jinbo Xu, počítačový vědec z Toyota Technological Institute v Chicagu ve státě Illinois, který soutěžil na CASP13.
Jádrem AlQuraishiho systému je neuronová síť, typ algoritmu inspirovaný zapojením mozku, který se učí z příkladů. Je krmen známými údaji o tom, jak aminokyselinové sekvence mapují struktury proteinů, a poté se učí vytvářet nové struktury z neznámých sekvencí. Novinka jeho sítě spočívá ve schopnosti vytvářet takové mapování od konce ke konci; jiné systémy používají neuronovou síť k předpovídání určitých vlastností struktury a pak jiný typ algoritmu k pracnému hledání věrohodné struktury, která tyto vlastnosti zahrnuje. AlQuraishiho síť se trénuje měsíce, ale jakmile je jednou vycvičena, dokáže téměř okamžitě přeměnit sekvenci na strukturu.
Jeho přístup, který nazývá rekurentní geometrická síť, předpovídá strukturu jednoho úseku proteinu částečně na základě toho, co je před ním a za ním. Je to podobné tomu, jak může být lidská interpretace slova ve větě ovlivněna okolními slovy; tyto interpretace jsou zase ovlivněny ústředním slovem.
Technické potíže způsobily, že AlQuraishiho algoritmus nedosáhl na konferenci CASP13 dobrých výsledků. Podrobnosti o umělé inteligenci publikoval v dubnu v časopise Cell Systems1 a svůj kód zveřejnil na serveru GitHub v naději, že na jeho práci navážou další. (Struktury většiny proteinů testovaných v CASP13 zatím nebyly zveřejněny, takže zatím nemohl přímo porovnat svou metodu s AlphaFoldem.)
Neuronové sítě
AlphaFold úspěšně soutěžil na CASP13 a vzbudil rozruch, když podle jednoho měření překonal všechny ostatní algoritmy u tvrdých cílů o téměř 15 %.
AlphaFold pracuje ve dvou krocích. Stejně jako ostatní přístupy použité v soutěži začíná něčím, co se nazývá vícenásobné zarovnání sekvencí. Porovnává sekvenci proteinu s podobnými sekvencemi v databázi, aby odhalil dvojice aminokyselin, které neleží vedle sebe v řetězci, ale mají tendenci se vyskytovat v tandemu. To naznačuje, že tyto dvě aminokyseliny se ve složeném proteinu nacházejí blízko sebe. DeepMind vycvičil neuronovou síť, aby vzala takové dvojice a předpověděla vzdálenost mezi dvěma párovými aminokyselinami ve složeném proteinu.
Při porovnávání svých předpovědí s přesně změřenými vzdálenostmi v proteinech se naučila lépe odhadovat, jak se budou proteiny skládat. Paralelní neuronová síť předpověděla úhly spojů mezi po sobě jdoucími aminokyselinami ve skládaném proteinovém řetězci.
Tyto kroky však nemohou samy o sobě předpovědět strukturu, protože přesný soubor předpovězených vzdáleností a úhlů nemusí být fyzikálně možný. V druhém kroku tedy AlphaFold vytvořil fyzikálně možné – ale téměř náhodné – uspořádání skládání sekvence. Místo další neuronové sítě použil optimalizační metodu zvanou gradientní sestup k iterativnímu zpřesnění struktury tak, aby se blížila (ne zcela možným) předpovědím z prvního kroku.
Několik dalších týmů použilo jeden z přístupů, ale žádný nepoužil oba. V prvním kroku většina týmů pouze předpověděla kontakt v párech aminokyselin, nikoliv vzdálenost. Ve druhém kroku většina použila složitá optimalizační pravidla namísto gradientního sestupu, který je téměř automatický.
„Odvedli skvělou práci. Jsou asi o rok napřed před ostatními skupinami,“ říká Xu.
Budoucí směry
DeepMind zatím nezveřejnil všechny podrobnosti o AlphaFold – ale ostatní skupiny mezitím začaly přebírat taktiku, kterou DeepMind a další přední týmy předvedly na CASP13. Jianlin Cheng, počítačový vědec z University of Missouri v Kolumbii, říká, že upraví své hluboké neuronové sítě tak, aby měly některé vlastnosti AlphaFold, například přidáním více vrstev do neuronové sítě ve fázi předpovídání vzdálenosti. Více vrstev – hlubší síť – často umožňuje sítím zpracovávat informace hlouběji, odtud název hluboké učení.
„Těšíme se, až se podobné systémy uplatní,“ říká Andrew Senior, počítačový vědec ze společnosti DeepMind, který vedl tým AlphaFold.
Moult uvedl, že na konferenci CASP13 se hodně diskutovalo o tom, jak jinak by se hluboké učení mohlo uplatnit při skládání proteinů. Možná by mohlo pomoci zpřesnit přibližné předpovědi struktury; informovat o tom, jak jistý je algoritmus v předpovědi skládání; nebo modelovat interakce mezi proteiny.
A ačkoli počítačové předpovědi zatím nejsou dostatečně přesné, aby se daly široce využít při navrhování léků, zvyšující se přesnost umožňuje další aplikace, například pochopit, jak zmutovaný protein přispívá k onemocnění, nebo vědět, kterou část proteinu proměnit ve vakcínu pro imunoterapii. „Tyto modely začínají být užitečné,“ říká Moult.