Wyścig w celu rozwiązania jednego z największych wyzwań biologii – przewidywania trójwymiarowych struktur białek na podstawie ich sekwencji aminokwasowych – nasila się dzięki nowym metodom sztucznej inteligencji (AI).
Pod koniec ubiegłego roku należąca do Google firma DeepMind zadebiutowała algorytmem o nazwie AlphaFold, który łączył dwie techniki pojawiające się w tej dziedzinie i pokonał uznanych rywali w konkursie na przewidywanie struktury białek z zaskakującym marginesem. W kwietniu tego roku amerykański badacz ujawnił algorytm, który wykorzystuje zupełnie inne podejście. Twierdzi on, że jego SI jest do miliona razy szybsza w przewidywaniu struktur niż DeepMind, choć prawdopodobnie nie jest tak dokładna we wszystkich sytuacjach.
W szerszym ujęciu biolodzy zastanawiają się, jak jeszcze głębokie uczenie – technika SI wykorzystywana przez oba podejścia – może być zastosowane do przewidywania układów białek, które ostatecznie dyktują funkcję białka. Te podejścia są tańsze i szybsze niż istniejące techniki laboratoryjne, takie jak krystalografia rentgenowska, a wiedza może pomóc naukowcom lepiej zrozumieć choroby i projektować leki. „John Moult, biolog z University of Maryland w College Park i założyciel odbywającego się co dwa lata konkursu o nazwie Krytyczna Ocena Przewidywania Struktury Białka (CASP), w którym zespoły mają za zadanie zaprojektować programy komputerowe przewidujące struktury białek na podstawie sekwencji.
Innowacyjne podejście
Twórca najnowszego algorytmu, Mohammed AlQuraishi, biolog z Harvard Medical School w Bostonie, Massachusetts, nie porównał jeszcze bezpośrednio dokładności swojej metody z AlphaFold – i podejrzewa, że AlphaFold pokonałby jego technikę pod względem dokładności, gdy białka o sekwencjach podobnych do analizowanej są dostępne jako punkt odniesienia. Ale twierdzi, że ponieważ jego algorytm wykorzystuje funkcję matematyczną do obliczania struktur białkowych w jednym kroku – a nie w dwóch krokach, jak AlphaFold, który wykorzystuje podobne struktury jako podstawę w pierwszym kroku – może przewidzieć struktury w ciągu milisekund, a nie godzin lub dni.
„Podejście AlQuraishiego jest bardzo obiecujące. Opiera się na postępach w głębokim uczeniu, a także na nowych sztuczkach, które wymyślił AlQuraishi” – mówi Ian Holmes, biolog obliczeniowy z Uniwersytetu Kalifornijskiego w Berkeley. „Możliwe, że w przyszłości jego pomysł będzie można połączyć z innymi, aby rozwinąć tę dziedzinę” – mówi Jinbo Xu, informatyk z Toyota Technological Institute w Chicago, Illinois, który brał udział w CASP13.
Rdzeniem systemu AlQuraishiego jest sieć neuronowa, rodzaj algorytmu zainspirowanego okablowaniem mózgu, który uczy się na przykładach. Jest ona zasilana znanymi danymi o tym, jak sekwencje aminokwasów mapują struktury białek, a następnie uczy się tworzyć nowe struktury z nieznanych sekwencji. Nowatorska część jego sieci polega na zdolności do tworzenia takich mapowań end-to-end; inne systemy wykorzystują sieć neuronową do przewidywania pewnych cech struktury, a następnie inny rodzaj algorytmu do żmudnego poszukiwania prawdopodobnej struktury, która zawiera te cechy. Trening sieci AlQuraishiego trwa miesiące, ale po jego zakończeniu jest ona w stanie przekształcić sekwencję w strukturę niemal natychmiast.
Jego podejście, które nazywa on rekurencyjną siecią geometryczną, przewiduje strukturę jednego segmentu białka częściowo na podstawie tego, co pojawia się przed i po nim. Jest to podobne do tego, jak na interpretację słowa w zdaniu mogą wpływać otaczające je słowa; na te interpretacje z kolei wpływa słowo centralne.
Trudności techniczne sprawiły, że algorytm AlQuraishiego nie sprawdził się dobrze na CASP13. W kwietniu opublikował on szczegóły dotyczące AI w Cell Systems1 i udostępnił swój kod publicznie na GitHubie, mając nadzieję, że inni będą bazować na tej pracy. (Struktury większości białek testowanych w CASP13 nie zostały jeszcze upublicznione, więc wciąż nie był w stanie bezpośrednio porównać swojej metody z AlphaFold.)
Sieci neuronowe
AlphaFold z powodzeniem konkurował na CASP13 i wywołał poruszenie, kiedy przewyższył wszystkie inne algorytmy na twardych celach o prawie 15%, według jednej z miar.
AlphaFold działa w dwóch krokach. Podobnie jak inne podejścia stosowane w konkursie, zaczyna od czegoś, co nazywa się wielokrotnym dopasowywaniem sekwencji. Porównuje sekwencję białka z podobnymi w bazie danych, aby ujawnić pary aminokwasów, które nie leżą obok siebie w łańcuchu, ale które mają tendencję do pojawiania się w tandemie. Sugeruje to, że te dwa aminokwasy znajdują się blisko siebie w złożonym białku. DeepMind wytrenował sieć neuronową, aby wziąć takie pary i przewidzieć odległość między dwoma sparowanymi aminokwasami w złożonym białku.
Poprzez porównanie swoich przewidywań z dokładnie zmierzonymi odległościami w białkach, nauczył się lepiej zgadywać, jak białka będą się składać. Równoległa sieć neuronowa przewidywała kąty połączeń między kolejnymi aminokwasami w złożonym łańcuchu białkowym.
Ale te kroki nie mogą same w sobie przewidzieć struktury, ponieważ dokładny zestaw przewidywanych odległości i kątów może nie być fizycznie możliwy. Dlatego w drugim kroku AlphaFold stworzył fizycznie możliwy – ale prawie losowy – układ składania sekwencji. Zamiast kolejnej sieci neuronowej użyto metody optymalizacji zwanej zstępowaniem gradientowym, aby iteracyjnie dopracować strukturę tak, aby była bliska (nie do końca możliwym) przewidywaniom z pierwszego kroku.
Kilka innych zespołów użyło jednego z podejść, ale żaden nie użył obu. W pierwszym kroku, większość zespołów przewidywała jedynie kontakt w parach aminokwasów, a nie odległość. W drugim kroku, większość użyła złożonych reguł optymalizacji zamiast zejścia gradientowego, które jest niemal automatyczne.
„Wykonali świetną pracę. Wyprzedzili inne grupy o około rok” – mówi Xu.
Przyszłe kierunki
DeepMind nie ujawnił jeszcze wszystkich szczegółów na temat AlphaFold – ale inne grupy zaczęły już stosować taktyki zademonstrowane przez DeepMind i inne wiodące zespoły na CASP13. Jianlin Cheng, informatyk z Uniwersytetu Missouri w Kolumbii, twierdzi, że zmodyfikuje swoje głębokie sieci neuronowe tak, aby posiadały pewne cechy sieci AlphaFold, na przykład poprzez dodanie większej liczby warstw do sieci neuronowej na etapie przewidywania odległości. Posiadanie większej liczby warstw – głębszej sieci – często pozwala sieciom na głębsze przetwarzanie informacji, stąd nazwa deep learning.
„Z niecierpliwością czekamy, aby zobaczyć podobne systemy w użyciu”, mówi Andrew Senior, informatyk z DeepMind, który kierował zespołem AlphaFold.
Moult powiedział, że na CASP13 było wiele dyskusji na temat tego, jak jeszcze deep learning może być zastosowany do fałdowania białek. Być może pomogłoby to udoskonalić przybliżone przewidywania struktury; informować o tym, jak pewny jest algorytm w przewidywaniu fałdowania; lub modelować interakcje między białkami.
I chociaż przewidywania obliczeniowe nie są jeszcze na tyle dokładne, aby mogły być szeroko stosowane w projektowaniu leków, rosnąca dokładność pozwala na inne zastosowania, takie jak zrozumienie, w jaki sposób zmutowane białko przyczynia się do choroby lub wiedza, którą część białka przekształcić w szczepionkę do immunoterapii. „Te modele zaczynają być użyteczne” – mówi Moult.