De wedloop om een van de grootste uitdagingen in de biologie op te lossen – het voorspellen van de 3D-structuren van eiwitten aan de hand van hun aminozuurvolgorde – wordt steeds intensiever, dankzij nieuwe kunstmatige-intelligentie (AI)-benaderingen.
Eind vorig jaar debuteerde Google’s AI-bedrijf DeepMind met een algoritme genaamd AlphaFold, dat twee technieken combineerde die in opkomst waren op dit gebied en dat gevestigde mededingers in een wedstrijd over het voorspellen van eiwitstructuren met een verrassende marge versloeg. En in april van dit jaar onthulde een Amerikaanse onderzoeker een algoritme dat een totaal andere aanpak gebruikt. Hij beweert dat zijn AI tot een miljoen keer sneller is in het voorspellen van structuren dan die van DeepMind, hoewel die waarschijnlijk niet in alle situaties even nauwkeurig is.
In bredere zin vragen biologen zich af hoe deep learning – de AI-techniek die door beide benaderingen wordt gebruikt – nog meer kan worden toegepast bij de voorspelling van eiwitarrangementen, die uiteindelijk de functie van een eiwit dicteren. Deze benaderingen zijn goedkoper en sneller dan bestaande laboratoriumtechnieken zoals röntgenkristallografie, en de kennis zou onderzoekers kunnen helpen om ziekten beter te begrijpen en geneesmiddelen te ontwerpen. “John Moult, bioloog aan de Universiteit van Maryland in College Park en oprichter van de tweejaarlijkse wedstrijd Critical Assessment of protein Structure Prediction (CASP), waarin teams worden uitgedaagd om computerprogramma’s te ontwerpen die eiwitstructuren voorspellen op basis van sequenties, zegt: “Er is veel opwinding over waar het nu heen zou kunnen gaan.
Innovatieve aanpak
De bedenker van het nieuwste algoritme, Mohammed AlQuraishi, bioloog aan de Harvard Medical School in Boston, Massachusetts, heeft de nauwkeurigheid van zijn methode nog niet direct vergeleken met die van AlphaFold – en hij vermoedt dat AlphaFold zijn techniek in nauwkeurigheid zou verslaan wanneer eiwitten met een vergelijkbare sequentie als het geanalyseerde eiwit als referentie beschikbaar zijn. Maar hij zegt dat omdat zijn algoritme een wiskundige functie gebruikt om eiwitstructuren in één stap te berekenen – in plaats van in twee stappen zoals AlphaFold, dat de vergelijkbare structuren gebruikt als grondwerk in de eerste stap – het structuren kan voorspellen in milliseconden in plaats van uren of dagen.
“AlQuraishi’s aanpak is zeer veelbelovend. Het bouwt voort op de vooruitgang in deep learning en ook op enkele nieuwe trucs die AlQuraishi heeft uitgevonden”, zegt Ian Holmes, een computerbioloog aan de University of California, Berkeley. “Het zou mogelijk kunnen zijn dat zijn idee in de toekomst kan worden gecombineerd met anderen om het veld vooruit te helpen,” zegt Jinbo Xu, een computerwetenschapper aan het Toyota Technological Institute in Chicago, Illinois, die meedeed aan CASP13.
De kern van AlQuraishi’s systeem is een neuraal netwerk, een type algoritme dat is geïnspireerd op de bedrading van de hersenen en dat leert van voorbeelden. Het wordt gevoed met bekende gegevens over hoe aminozuursequenties zich verhouden tot eiwitstructuren en leert dan om nieuwe structuren te produceren uit onbekende sequenties. Andere systemen gebruiken een neuraal netwerk om bepaalde kenmerken van een structuur te voorspellen en vervolgens een ander soort algoritme om moeizaam te zoeken naar een plausibele structuur waarin die kenmerken zijn verwerkt. Het kost maanden om het netwerk van AlQuraishi te trainen, maar als het eenmaal getraind is, kan het een sequentie vrijwel onmiddellijk omzetten in een structuur.
De aanpak van AlQuraishi, die hij een recurrent geometrisch netwerk noemt, voorspelt de structuur van een segment van een eiwit deels op basis van wat er voor en na komt. Dit is vergelijkbaar met de manier waarop de interpretatie van een woord in een zin kan worden beïnvloed door omliggende woorden; deze interpretaties worden op hun beurt weer beïnvloed door het centrale woord.
Technische problemen zorgden ervoor dat AlQuraishi’s algoritme het niet goed deed op CASP13. Hij publiceerde de details van de AI in Cell Systems in april1 en maakte zijn code openbaar op GitHub, in de hoop dat anderen op het werk zullen voortbouwen. (De structuren van de meeste in CASP13 geteste eiwitten zijn nog niet openbaar gemaakt, dus hij heeft zijn methode nog niet direct kunnen vergelijken met AlphaFold.)
Neurale netwerken
AlphaFold deed met succes mee aan CASP13 en zorgde voor ophef toen het alle andere algoritmen op harde doelen met bijna 15% overtrof, volgens één meting.
AlphaFold werkt in twee stappen. Net als andere benaderingen die in de competitie zijn gebruikt, begint het met iets dat meervoudige sequentie-uitlijningen wordt genoemd. Het vergelijkt de sequentie van een eiwit met soortgelijke eiwitten in een database om aminozuurparen te ontdekken die niet naast elkaar in een keten liggen, maar vaak in een tandem voorkomen. Dit suggereert dat deze twee aminozuren zich in de buurt van elkaar bevinden in het gevouwen eiwit. DeepMind trainde een neuraal netwerk om dergelijke koppelingen te nemen en de afstand tussen twee gekoppelde aminozuren in het gevouwen eiwit te voorspellen.
Door zijn voorspellingen te vergelijken met nauwkeurig gemeten afstanden in eiwitten, leerde het betere gissingen te doen over hoe eiwitten zich zouden opvouwen. Een parallel neuraal netwerk voorspelde de hoeken van de verbindingen tussen opeenvolgende aminozuren in de gevouwen eiwitketen.
Maar deze stappen kunnen op zichzelf geen structuur voorspellen, omdat de exacte set van afstanden en hoeken die voorspeld wordt misschien niet fysisch mogelijk is. Dus in een tweede stap creëerde AlphaFold een fysisch mogelijke – maar bijna willekeurige – vouwvolgorde voor een sequentie. In plaats van een ander neuraal netwerk, gebruikte het een optimalisatiemethode genaamd gradiënt afdaling om de structuur iteratief te verfijnen, zodat deze dicht in de buurt kwam van de (niet helemaal mogelijke) voorspellingen uit de eerste stap.
Een paar andere teams gebruikten een van de benaderingen, maar geen enkele gebruikte beide. In de eerste stap voorspelden de meeste teams alleen contact in paren van aminozuren, niet afstand. In de tweede stap gebruikten de meeste teams complexe optimalisatieregels in plaats van gradiënt-afname, wat bijna automatisch gaat.
“Ze hebben geweldig werk geleverd. Ze lopen ongeveer een jaar voor op de andere groepen,” zegt Xu.
Toekomstige richtingen
DeepMind moet nog alle details over AlphaFold vrijgeven – maar andere groepen zijn inmiddels begonnen met het overnemen van tactieken die zijn gedemonstreerd door DeepMind en andere toonaangevende teams op CASP13. Jianlin Cheng, een computerwetenschapper aan de Universiteit van Missouri in Columbia, zegt dat hij zijn diepe neurale netwerken zal aanpassen om enkele kenmerken van die van AlphaFold te hebben, bijvoorbeeld door meer lagen toe te voegen aan het neurale netwerk in de fase van het voorspellen van afstanden. Meer lagen – een dieper netwerk – stelt netwerken vaak in staat om informatie dieper te verwerken, vandaar de naam deep learning.
“We kijken ernaar uit om soortgelijke systemen in gebruik te zien,” zegt Andrew Senior, de computerwetenschapper bij DeepMind die het AlphaFold-team leidde.
Moult zei dat er veel discussie was op CASP13 over hoe deep learning anders zou kunnen worden toegepast op eiwitvouwing. Misschien kan het helpen om structuurvoorspellingen bij benadering te verfijnen; rapporteren over hoe zeker het algoritme is in een vouwvoorspelling; of interacties tussen eiwitten modelleren.
En hoewel computationele voorspellingen nog niet nauwkeurig genoeg zijn om op grote schaal te worden gebruikt bij het ontwerpen van medicijnen, maakt de toenemende nauwkeurigheid andere toepassingen mogelijk, zoals begrijpen hoe een gemuteerd eiwit bijdraagt aan ziekte of weten welk deel van een eiwit moet worden omgezet in een vaccin voor immunotherapie. “Deze modellen beginnen bruikbaar te worden,” zegt Moult.