Vävlingen för att lösa en av biologins största utmaningar – att förutsäga proteiners 3D-strukturer utifrån deras aminosyrasekvenser – intensifieras tack vare nya metoder för artificiell intelligens (AI).
I slutet av förra året presenterade Googles AI-företag DeepMind en algoritm kallad AlphaFold, som kombinerade två tekniker som var på frammarsch på området och slog etablerade konkurrenter i en tävling om förutsägelse av proteinstrukturer med en överraskande marginal. I april i år avslöjade en amerikansk forskare en algoritm som använder en helt annan metod. Han hävdar att hans AI är upp till en miljon gånger snabbare på att förutsäga strukturer än DeepMinds, även om den förmodligen inte är lika exakt i alla situationer.
I ett vidare perspektiv undrar biologer hur djupinlärning – den AI-teknik som används i båda metoderna – skulle kunna användas för att förutsäga proteinarrangemang, som i slutändan dikterar ett proteins funktion. Dessa metoder är billigare och snabbare än befintliga laboratorietekniker som röntgenkristallografi, och kunskapen skulle kunna hjälpa forskare att bättre förstå sjukdomar och utforma läkemedel. ”Det är mycket spännande att se vart saker och ting kan ta vägen nu”, säger John Moult, biolog vid University of Maryland i College Park och grundare av den vartannat år återkommande tävlingen, kallad Critical Assessment of protein Structure Prediction (CASP), där lag utmanas att utforma datorprogram som förutspår proteinstrukturer utifrån sekvenser.
Innovativt tillvägagångssätt
Den senaste algoritmens skapare, Mohammed AlQuraishi, biolog vid Harvard Medical School i Boston, Massachusetts, har ännu inte direkt jämfört noggrannheten hos hans metod med AlphaFold – och han misstänker att AlphaFold skulle slå hans teknik i noggrannhet när proteiner med sekvenser som liknar den som analyseras är tillgängliga som referens. Men han säger att eftersom hans algoritm använder en matematisk funktion för att beräkna proteinstrukturer i ett enda steg – snarare än i två steg som AlphaFold, som använder liknande strukturer som grundarbete i det första steget – kan den förutsäga strukturer på millisekunder snarare än timmar eller dagar.
”AlQuraishis metod är mycket lovande. Den bygger på framsteg inom djupinlärning samt några nya knep som AlQuraishi har uppfunnit”, säger Ian Holmes, datorbiolog vid University of California, Berkeley. ”Det kan vara möjligt att hans idé i framtiden kan kombineras med andra för att utveckla området”, säger Jinbo Xu, datavetare vid Toyota Technological Institute i Chicago, Illinois, som tävlade i CASP13.
Kärnan i AlQuraishis system är ett neuralt nätverk, en typ av algoritm som är inspirerad av hjärnans ledningar och som lär sig från exempel. Det matas med kända data om hur aminosyrasekvenser kartlägger proteinstrukturer och lär sig sedan att producera nya strukturer från okända sekvenser. Den nya delen av hans nätverk ligger i dess förmåga att skapa sådana kartläggningar från början till slut. Andra system använder ett neuralt nätverk för att förutsäga vissa egenskaper hos en struktur och sedan en annan typ av algoritm för att mödosamt söka efter en trovärdig struktur som innehåller dessa egenskaper. AlQuraishis nätverk tar månader att träna, men när det väl är tränat kan det omvandla en sekvens till en struktur nästan omedelbart.
Hans tillvägagångssätt, som han kallar ett återkommande geometriskt nätverk, förutsäger strukturen hos ett segment av ett protein delvis på grundval av vad som kommer före och efter det. Detta liknar hur människors tolkning av ett ord i en mening kan påverkas av omgivande ord; dessa tolkningar påverkas i sin tur av det centrala ordet.
Tekniska svårigheter innebar att AlQuraishis algoritm inte presterade bra vid CASP13. Han publicerade detaljer om AI:n i Cell Systems i april1 och gjorde sin kod allmänt tillgänglig på GitHub, i hopp om att andra ska bygga vidare på arbetet. (Strukturerna för de flesta av de proteiner som testades i CASP13 har ännu inte offentliggjorts, så han har fortfarande inte kunnat jämföra sin metod direkt med AlphaFold.)
Neurala nätverk
AlphaFold tävlade framgångsrikt i CASP13 och skapade uppståndelse när den presterade nästan 15 % bättre än alla andra algoritmer på hårda mål, enligt en mätning.
AlphaFold fungerar i två steg. Liksom andra metoder som användes i tävlingen börjar den med något som kallas flera sekvensanpassningar. Den jämför ett proteins sekvens med liknande sekvenser i en databas för att avslöja par av aminosyror som inte ligger bredvid varandra i en kedja, men som tenderar att förekomma i tandem. Detta tyder på att dessa två aminosyror ligger nära varandra i det veckade proteinet. DeepMind tränade ett neuralt nätverk för att ta sådana parbildningar och förutsäga avståndet mellan två parbildade aminosyror i det veckade proteinet.
Då DeepMind jämförde sina förutsägelser med exakt uppmätta avstånd i proteiner lärde det sig att göra bättre gissningar om hur proteiner skulle veckas. Ett parallellt neuralt nätverk förutspådde vinklarna på lederna mellan på varandra följande aminosyror i den veckade proteinkedjan.
Men dessa steg kan inte förutsäga en struktur i sig själva, eftersom den exakta uppsättningen av avstånd och vinklar som förutsägs kanske inte är fysiskt möjlig. Så i ett andra steg skapade AlphaFold ett fysiskt möjligt – men nästan slumpmässigt – vikningsarrangemang för en sekvens. I stället för ytterligare ett neuralt nätverk använde den en optimeringsmetod som kallas gradient descent för att iterativt förfina strukturen så att den kom nära de (inte helt möjliga) förutsägelserna från det första steget.
Ett fåtal andra team använde sig av ett av tillvägagångssätten, men inget av dem använde sig av båda. I det första steget förutspådde de flesta grupperna bara kontakten i par av aminosyror, inte avståndet. I det andra steget använde de flesta komplexa optimeringsregler i stället för gradient descent, som är nästan automatisk.
”De gjorde ett utmärkt arbete. De ligger ungefär ett år före de andra grupperna”, säger Xu.
Framtida riktningar
DeepMind har ännu inte släppt alla detaljer om AlphaFold – men andra grupper har sedan dess börjat anta taktiker som DeepMind och andra ledande grupper demonstrerade vid CASP13. Jianlin Cheng, datavetare vid University of Missouri i Columbia, säger att han kommer att modifiera sina djupa neurala nätverk så att de har vissa av AlphaFolds egenskaper, till exempel genom att lägga till fler lager till det neurala nätverket i avståndsförutsägelsefasen. Att ha fler lager – ett djupare nätverk – gör det ofta möjligt för nätverken att bearbeta information djupare, därav namnet djup inlärning.
”Vi ser fram emot att se liknande system tas i bruk”, säger Andrew Senior, datavetare vid DeepMind som ledde AlphaFold-teamet.
Moult sa att det fanns en hel del diskussioner vid CASP13 om hur annan djup inlärning skulle kunna tillämpas på proteinveckning. Kanske skulle det kunna hjälpa till att förfina ungefärliga strukturprediktioner, rapportera om hur säker algoritmen är på en vikningsprediktion eller modellera interaktioner mellan proteiner.
Och även om beräkningsmässiga förutsägelser ännu inte är tillräckligt exakta för att kunna användas i stor utsträckning vid utformning av läkemedel möjliggör den ökande noggrannheten andra tillämpningar, t.ex. för att förstå hur ett muterat protein bidrar till sjukdom eller för att veta vilken del av ett protein som ska omvandlas till ett vaccin för immunterapi. ”De här modellerna börjar bli användbara”, säger Moult.