Das Rennen um eine der größten Herausforderungen der Biologie – die Vorhersage der 3D-Strukturen von Proteinen anhand ihrer Aminosäuresequenzen – wird dank neuer Ansätze der künstlichen Intelligenz (KI) immer intensiver.
Ende letzten Jahres stellte Googles KI-Firma DeepMind einen Algorithmus namens AlphaFold vor, der zwei auf dem Gebiet aufkommende Techniken kombinierte und etablierte Konkurrenten in einem Wettbewerb zur Vorhersage von Proteinstrukturen mit einem überraschenden Vorsprung schlug. Und im April dieses Jahres stellte ein US-Forscher einen Algorithmus vor, der einen völlig anderen Ansatz verfolgt. Er behauptet, seine KI sei bis zu einer Million Mal schneller bei der Vorhersage von Strukturen als die von DeepMind, obwohl sie wahrscheinlich nicht in allen Situationen so genau ist.
Bereits jetzt fragen sich Biologen, wie Deep Learning – die KI-Technik, die von beiden Ansätzen verwendet wird – auf die Vorhersage von Proteinanordnungen angewendet werden könnte, die letztlich die Funktion eines Proteins bestimmen. Diese Ansätze sind billiger und schneller als bestehende Labortechniken wie die Röntgenkristallografie, und die Erkenntnisse könnten Forschern helfen, Krankheiten besser zu verstehen und Medikamente zu entwickeln. „Wir sind sehr gespannt, wohin sich die Dinge entwickeln werden“, sagt John Moult, Biologe an der University of Maryland in College Park und Gründer des alle zwei Jahre stattfindenden Wettbewerbs Critical Assessment of protein Structure Prediction (CASP), bei dem Teams Computerprogramme entwickeln müssen, die Proteinstrukturen aus Sequenzen vorhersagen.
Innovativer Ansatz
Der Schöpfer des neuesten Algorithmus, Mohammed AlQuraishi, Biologe an der Harvard Medical School in Boston, Massachusetts, hat die Genauigkeit seiner Methode noch nicht direkt mit der von AlphaFold verglichen – und er vermutet, dass AlphaFold seine Technik in der Genauigkeit übertreffen würde, wenn Proteine mit ähnlichen Sequenzen wie die zu analysierenden als Referenz zur Verfügung stehen. Da sein Algorithmus jedoch eine mathematische Funktion verwendet, um die Proteinstrukturen in einem einzigen Schritt zu berechnen – und nicht in zwei Schritten wie AlphaFold, das im ersten Schritt die ähnlichen Strukturen als Grundlage verwendet – kann er Strukturen in Millisekunden statt in Stunden oder Tagen vorhersagen.
„AlQuraishis Ansatz ist sehr vielversprechend. Er baut auf Fortschritten im Bereich des Deep Learning sowie auf einigen neuen Tricks auf, die AlQuraishi erfunden hat“, sagt Ian Holmes, ein Computerbiologe an der University of California, Berkeley. „Es ist möglich, dass seine Idee in Zukunft mit anderen kombiniert werden kann, um das Feld voranzubringen“, sagt Jinbo Xu, Informatiker am Toyota Technological Institute in Chicago, Illinois, der am CASP13 teilgenommen hat.
Das Herzstück von AlQuraishis System ist ein neuronales Netz, eine Art Algorithmus, der von der Verdrahtung des Gehirns inspiriert ist und aus Beispielen lernt. Es wird mit bekannten Daten darüber gefüttert, wie Aminosäuresequenzen auf Proteinstrukturen abgebildet werden, und lernt dann, neue Strukturen aus unbekannten Sequenzen zu erzeugen. Der neuartige Teil seines Netzwerks liegt in seiner Fähigkeit, solche Zuordnungen durchgängig zu erstellen. Andere Systeme verwenden ein neuronales Netzwerk, um bestimmte Merkmale einer Struktur vorherzusagen, und dann eine andere Art von Algorithmus, um mühsam nach einer plausiblen Struktur zu suchen, die diese Merkmale enthält. AlQuraishis Netzwerk braucht Monate, um zu trainieren, aber wenn es einmal trainiert ist, kann es eine Sequenz fast sofort in eine Struktur umwandeln.
Sein Ansatz, den er ein rekurrentes geometrisches Netzwerk nennt, sagt die Struktur eines Segments eines Proteins teilweise auf der Grundlage dessen voraus, was davor und danach kommt. Dies ist vergleichbar mit der Art und Weise, wie die Interpretation eines Wortes in einem Satz durch die umgebenden Wörter beeinflusst werden kann; diese Interpretationen werden wiederum durch das fokussierte Wort beeinflusst.
Technische Schwierigkeiten führten dazu, dass AlQuraishis Algorithmus auf der CASP13 nicht gut abschnitt. Er veröffentlichte Details der KI in Cell Systems im April1 und machte seinen Code auf GitHub öffentlich zugänglich, in der Hoffnung, dass andere auf der Arbeit aufbauen werden. (Die Strukturen für die meisten der bei CASP13 getesteten Proteine wurden noch nicht veröffentlicht, so dass er seine Methode noch nicht direkt mit AlphaFold vergleichen konnte.)
Neuronale Netze
AlphaFold nahm erfolgreich an CASP13 teil und sorgte für Aufsehen, als es alle anderen Algorithmen bei harten Zielen um fast 15 % übertraf, wie eine Messung ergab.
AlphaFold arbeitet in zwei Schritten. Wie andere Ansätze, die im Wettbewerb verwendet wurden, beginnt es mit so genannten multiplen Sequenzalignments. Dabei wird die Sequenz eines Proteins mit ähnlichen Sequenzen in einer Datenbank verglichen, um Paare von Aminosäuren zu ermitteln, die nicht in einer Kette nebeneinander liegen, sondern eher im Tandem auftreten. Dies deutet darauf hin, dass sich diese beiden Aminosäuren im gefalteten Protein nahe beieinander befinden. DeepMind trainierte ein neuronales Netzwerk, um solche Paarungen zu nehmen und den Abstand zwischen zwei gepaarten Aminosäuren im gefalteten Protein vorherzusagen.
Durch den Vergleich seiner Vorhersagen mit genau gemessenen Abständen in Proteinen lernte es, bessere Vermutungen darüber anzustellen, wie sich Proteine zusammenfalten würden. Ein paralleles neuronales Netz sagte die Winkel der Verbindungen zwischen aufeinanderfolgenden Aminosäuren in der gefalteten Proteinkette voraus.
Allerdings können diese Schritte allein keine Struktur vorhersagen, da die genaue Menge an vorhergesagten Abständen und Winkeln möglicherweise physikalisch nicht möglich ist. In einem zweiten Schritt erstellte AlphaFold daher eine physikalisch mögliche – aber nahezu zufällige – Faltungsanordnung für eine Sequenz. Anstelle eines weiteren neuronalen Netzes verwendete es eine Optimierungsmethode namens Gradientenabstieg, um die Struktur iterativ zu verfeinern, so dass sie den (nicht ganz möglichen) Vorhersagen aus dem ersten Schritt nahe kam.
Ein paar andere Teams verwendeten einen der Ansätze, aber keines verwendete beide. Im ersten Schritt sagten die meisten Teams lediglich den Kontakt in Aminosäurepaaren voraus, nicht aber die Entfernung. Im zweiten Schritt verwendeten die meisten Teams komplexe Optimierungsregeln anstelle des Gradientenabstiegs, der fast automatisch erfolgt.
„Sie haben eine großartige Arbeit geleistet. Sie sind den anderen Gruppen etwa ein Jahr voraus“, sagt Xu.
Zukunftsrichtungen
DeepMind muss noch alle Details über AlphaFold veröffentlichen – aber andere Gruppen haben inzwischen begonnen, die von DeepMind und anderen führenden Teams bei CASP13 demonstrierten Taktiken zu übernehmen. Jianlin Cheng, Informatiker an der University of Missouri in Columbia, sagt, dass er seine tiefen neuronalen Netze so modifizieren wird, dass sie einige Merkmale von AlphaFold aufweisen, beispielsweise indem er dem neuronalen Netz in der Phase der Abstandsvorhersage mehr Schichten hinzufügt. Mit mehr Schichten – einem tieferen Netzwerk – können Netzwerke Informationen oft tiefer verarbeiten, daher der Name Deep Learning.
„Wir freuen uns darauf, ähnliche Systeme im Einsatz zu sehen“, sagt Andrew Senior, der Informatiker bei DeepMind, der das AlphaFold-Team leitete.
Moult sagte, dass auf der CASP13 viel darüber diskutiert wurde, wie Deep Learning sonst noch auf die Proteinfaltung angewendet werden könnte. Vielleicht könnte es helfen, ungefähre Strukturvorhersagen zu verfeinern, darüber zu berichten, wie zuversichtlich der Algorithmus bei einer Faltungsvorhersage ist, oder Wechselwirkungen zwischen Proteinen zu modellieren.
Und obwohl rechnerische Vorhersagen noch nicht genau genug sind, um in großem Umfang bei der Entwicklung von Arzneimitteln eingesetzt zu werden, ermöglicht die zunehmende Genauigkeit andere Anwendungen, z. B. zu verstehen, wie ein mutiertes Protein zu einer Krankheit beiträgt, oder zu wissen, welcher Teil eines Proteins in einen Impfstoff für die Immuntherapie verwandelt werden soll. „Diese Modelle fangen an, nützlich zu sein“, sagt Moult.