Editorial

Aminosäuresequenz rein, Proteinstruktur raus - Proteinstruktur-Vorhersage mit Alphfold2

Henrik Müller


(12.10.2021) Die 3D-Struktur eines Proteins aus seiner Aminosäuresequenz vorherzusagen, ist der Heilige Gral der Strukturbio­logie. Der Konformationsraum von Polypeptiden ist riesig und das rechnergestützte Durchsuchen aller sterischen Möglichkeiten zu aufwendig. Das Struktur-Vorhersageprogramm AlphaFold2 könnte den Gral gefunden haben.

Strukturbiologen träumen in diesen Tagen wieder. Und sie haben allen Grund dazu. In Jahrzehnten experimenteller Anstrengung gelang es ihnen bisher, für 55.000 Proteine hochaufgelöste Strukturmodelle zu konstruieren – zu diesen kommen jetzt auf einen Schlag unzählige weitere vorhergesagte hinzu. Denn das Proteinstruktur-Vorhersageprogramm AlphaFold2 des Forscherteams DeepMind (deepmind.com) erhöht die Zahl um ein Vielfaches. In Kooperation mit EMBLs European Bioinformatics Institute (EBI) stellte DeepMind 23.000 Strukturmodelle für 98,5 Prozent aller humanen Proteine und 340.000 Strukturmodelle für zwanzig weitere Modellorganismen frei zur Verfügung (Nature, doi: 10.1038/s41586-021-03828-1).

Außerdem veröffentlichte DeepMind die Funktionsweise von AlphaFold2 (Nature, doi: 10.1038/s41586-021-03819-2) und machte dessen Quellcode unter einer Open-Source-Lizenz selbst für kommerzielle Interessen verfügbar. Schon in naher Zukunft soll AlphaFold2s zugehörige Datenbank (alphafold.ebi.ac.uk) Strukturmodelle für beinahe jedes sequenzierte Protein bereitstellen – das wären über 100 Millionen Datensätze.

254a
AlphaFold2 kann sogar die Strukturen von Hetero-Komplexen vorhersagen. Dazu muss man nur die Sequenzen der beiden Proteine eingeben und mit einem langen Linker (grüne Schleife) verbinden. Faltungswege kann aber auch AlphaFold2 (noch) nicht voraussagen. Screenshot: Yoshitaka Moriwaki

Antworten auf viele Fragen

„Diese Unmenge an Daten beantwortet die Fragestellungen so vieler Arbeitsgruppen. Ein größeres Scooping-Paper als das von DeepMind hat es vielleicht nie gegeben“, resümiert Martin Steinegger, Mitautor und Assistant Professor für Computational Biology an Seouls National University in Südkorea. „Zugang zum strukturellen Proteom des Menschen ist ein Quantensprung, da fast jedem Wissenschaftsprojekt jetzt 3D-Modelle zur Verfügung stehen“, erklärt Christoph Müller, Leiter von EMBLs Structural and Computational Biology Unit in Heidelberg. Patrick Cramer, Direktor am Göttinger Max-Planck-Institut für biophysikalische Chemie sagt: „Natürlich haben wir mit Enthusiasmus von AlphaFold2 gesprochen. Ein solcher Durchbruch in so kurzer Zeit hat mich dennoch überrascht.“ Und auch Gunnar Schröder, Leiter der Arbeitsgruppe Computational Structural Biology am Forschungszentrum Jülich, gibt zu: „Ich habe nicht erwartet, dass DeepMind AlphaFold2 so bauen kann, dass sie Proteinsequenzen vorn reinstecken und kartesische Atomkoordinaten hinten rauskommen.“ Kritische Stimmen finden sich gegenwärtig nicht.

Was sind DeepMind und AlphaFold2? DeepMind ist ein in London ansässiges Tochterunternehmen von Googles Dachgesellschaft Alphabet. Selbsterklärtes Ziel des DeepMind-Teams ist nicht weniger, als Intelligenz zu verstehen, und zwar mithilfe maschinellen Lernens. Mediales Aufsehen erregte es erstmals mit seinem neuronalen Netzwerk AlphaGo, das im Jahr 2016 Weltspitze-Go-Spieler schlug. In der Strukturbiologie begann DeepMinds Erfolgsgeschichte 2018 im zweijährlich stattfindenden Critical-Assessment-of-Structure-Prediction(CASP)-Wettbewerb, in dem weltweit Arbeitsgruppen um die beste Vorhersage nur den Juroren bekannten Proteinstrukturen wetteifern (predictioncenter.org). Was AlphaFold schon 2018 andeutete, vollendete AlphaFold2 vor einem Jahr: Im 14. CASP-Wettbewerb degradierte es alle anderen 150 Teilnehmer. Die besten 95 Prozent seiner Voraussagen hatten eine mittlere quadratische Abweichung (RMSD) ihrer Proteinrückgrate zu den experimentellen Strukturen von 0,96 Å.

Wie genau das ist, verdeutlicht der Vergleich mit dem Durchmesser eines Kohlenstoffatoms von 1,5 Å. Damit schloss AlphaFold2 mehr als doppelt so gut ab, als selbst der nächstbeste Wettbewerbsteilnehmer mit einer RMSD von 2,83 Å.

Damit nicht genug. Nur 849 der 166.000 in der Proteindatenbank (PDB) hinterlegten Strukturmodelle erreichen überhaupt AlphaFold2s Auflösung von unter 1 Å (rcsb.org/stats/distribution-resolution). Gleichzeitig weichen die Strukturmodelle vielfach gelöster Modellproteine oft um mehr als 1 Å voneinander ab. Kurz gesagt, AlphaFold2s Vorhersagegenauigkeit liegt innerhalb der Fehlertoleranz experimenteller Strukturmodelle.

Löst es damit das ein halbes Jahrhundert alte Rätsel der Proteinfaltung?

Für eine Antwort ist ein Blick auf AlphaFold2s Funktionsweise nötig. Sein neuronales Netzwerk verarbeitet Daten aus drei Informations-Ebenen: Trainiert wurde es mit den 3D-Koordinaten aller bisher bekannten Proteinstrukturen. Zusätzlich kombiniert es zur Strukturvorhersage die Sequenzinformation eines Proteins mit den Sequenzabständen zu evolutionär verwandten Proteinen in Form Multipler Sequenz-Alignments (MSA).

Intelligentes Machine-Learning

Doch das ist noch nicht ungewöhnlich, wie Schröder erklärt: „Der Durchbruch dieser Co-Evolutionsgeschichte liegt schon zehn Jahre zurück. Damals erkannten die Leute, dass sich für eine stabile Proteinfaltung auch die räumlich benachbarten Seitenketten eines mutierten Aminosäurerests ändern müssen und setzten diese Information zur Ab-initio-Strukturvorhersage ein. Ihre Vorhersagequalität machte einen Riesenschritt.“ Womit Schröder auf AlphaFold2 zu sprechen kommt: „Das Revolutionäre daran sind nicht die Eingabedaten, sondern DeepMinds exzellente Machine-Learning-Technologie.“

254b
Gunnar Schröder vom Forschungszentrum Jülich sieht in DeepMinds Machine-Learning-Technologie das Erfolgsrezept von AlphaFold2. Foto: HHU / Jochen Müller

Welchen Weg DeepMind gefunden hat, alle Information gleichzeitig zu betrachten, erklärt AlphaFold2s Mitautor Martin Steinegger im Interview ab Seite 70.

AlphaFold2s Architektur umfasst zwei Blöcke: ein als Evoformer bezeichnetes Mischmodul gefolgt von einem Strukturmodul. Der Evoformer repräsentiert die Sequenz eines Proteins auf zwei Arten – zum einen als MSA verwandter Proteine, zum anderen als Distanzmatrix evolutionär korrelierter Aminosäure-Paare. Beide Informationsarten evolvieren im Evoformer, indem sie sich iterativ über 48 Netzwerkschichten wechselseitig aktualisieren, wobei bestimmte Datenpakete in ihrer Bedeutung stärker gewichtet werden als andere. Laut DeepMind entsteht hier schon die erste Hypothese zur 3D-Konformation eines Proteins.

Frei schwebende Festkörper

Das Strukturmodul verwendet daraufhin die evolvierte Distanzmatrix sowie die Konsensussequenz der im MSA an jeder Position häufigsten Aminosäurereste. Es betrachtet jeden Aminosäurerest als frei schwebenden Festkörper, erachtet die 3D-Struktur des gesamten Proteins als eine Abfolge von Rotationen und Translationen dieser Festkörper und optimiert die Geometrie aller Peptidbindungen anhand der Distanzmatrix. Laut DeepMind verletzt das Strukturmodul dabei häufig stereochemische Grundregeln von Proteinen, wodurch es ihm aber gelingt, alle Teile des 3D-Modells simultan auf lokaler Ebene zu verfeinern.

Eine clevere Grundarchitektur gewährleistet natürlich noch keine außergewöhnliche Funktionalität eines neuronalen Netzwerks. Entscheidend ist das Training. In dessen Verlauf zwang das DeepMind-Team AlphaFold2 immer wieder, mit mangelhaften Daten klarzukommen. Beispielsweise entfernten die Bioinformatiker aus Datensätzen der zuverlässigsten 350.000 Strukturvorhersagen willkürlich Teilmengen der MSAs, fütterten den Rest zurück und machten es AlphaFold2 zunehmend schwerer, die vorherigen Strukturmodelle zu rekapitulieren. Außerdem verhüllte das DeepMind-Team zufällig ausgewählte Aminosäurereste in MSAs und zwang AlphaFold2, genau diese Reste vorherzusagen.

Hierdurch lernte das neuronale Netz, phylogenetische Zusammenhänge zwischen benachbarten Aminosäureresten auch ohne fest einprogrammierte Korrelationsstatistiken zu interpretieren. Auf diese Weise trainiert, kann AlphaFold2 auch mit ihm unbekannten Tertiärstrukturen sowie in der PDB unterrepräsentierten Proteinklassen wie etwa Membranproteinen umgehen – und darüber hinaus auch mit Proteinen, die sich nur in Gegenwart funktioneller Gruppen falten, die in Datensätzen oft fehlen. Im Vorhersagefall durchläuft AlphaFold2 den Evoformer und das Strukturmodul falls nötig mehrere Male und füttert sie rekursiv mit ihren eigenen Ausgaben. Je nach Proteinsequenz findet es das endgültige Strukturmodell schon im ersten Durchlauf. Für anspruchsvolle Proteine wie etwa Orf8 von SARS-CoV-2 benötigt es mehrere Recycling-Schritte.

Natürlich ist AlphaFold2s neuronales Netzwerk auch nur so gut wie die Eingabedaten. Ohne ein MSA mit etwa dreißig Vergleichssequenzen kann es keine koevolutionären Muster herausfiltern. Die Verlässlichkeit sinkt dann beträchtlich. Gleichzeitig bringen mehr als einhundert MSA-Sequenzen fast keinen Zugewinn. Ebenfalls nur minimal verbessern Vorhersagevorlagen in Form von 3D-Koordinaten verwandter Proteine AlphaFold2s Qualität. Erst wenn kein diverses MSA aus phylogenetisch ähnlichen und entfernten Sequenzen vorhanden ist, entscheiden PDB-Templates über die Vorhersage.

Abgleich mit Referenz

Abschließend berechnet AlpfaFold2 verschiedene Gütemaße, die anzeigen, wie sehr das Programm seiner Vorhersage vertraut. Mit einem lokalen Distanzdifferenztest (lDDT) kalkuliert es die Ungewissheit in der relativen Position und Orientierung jedes einzelnen Aminosäurerests anhand der Abstände schwerer Atome zu einer experimentellen Referenzstruktur. Daraus lässt sich auf die Verlässlichkeit jedes Sekundärstrukturelements schließen. Als Maß für die globale Ähnlichkeit zu einer PDB-Struktur gibt AlphaFold2 außerdem Template-Modelling(TM)-, RMSD- und globale Distanztest(GDT-TS)-Werte aus – letzterer ist der Vergleichsstandard in allen CASP-Wettbewerben.

Wie verlässlich sind AlphaFold2s Vorhersagen? Im CASP14 erzielte es für 58 Prozent aller Aminosäurereste einen lDDT von mindestens 70. Das entspricht einem korrekt prognostizierten Proteinrückgrat. Etwa 36 Prozent davon zeigen einen lDDT von mindestens 90. Ab diesem Wert sind auch alle Seitenketten korrekt orientiert. In experimentell ermittelten Strukturmodellen ist übrigens nur auf halb so viele Seitenketten-Orientierungen Verlass.

Auch auf Ebene globaler Ähnlichkeit glänzt AlphaFold2. Die Atomkoordinaten aller CASP14-Proteine sagte es mit einem medianen GDT-TS-Wert von 92,4 Prozent vorher. Schröder fasst zusammen: „AlphaFold2 ermittelt den Großteil seiner Strukturmodelle also nicht nur genauso verlässlich wie Experimente, sondern es weiß auch, wenn es nicht zuverlässig arbeitet.“

Denn natürlich sagt auch AlphaFold2 α-Helices und β-Stränge mit größerem Vertrauen voraus als flexible Strukturen, von denen der neuronale Netzwerkalgorithmus infolge mangelnder Trainingsdaten nur wenig weiß. „Für intrinsisch ungeordnete Proteinregionen zeigt es an, dass eine verlässliche Vorhersage nicht möglich ist – was sinnvoll ist“, so Cramer. „Erst wenn biophysikalische Methoden, etwa die Kernspinresonanzspektroskopie (NMR), ausreichend Trainingsdatensätze zusammentragen, wird AlphaFold2 verlässlich über unstrukturierte Proteinbereiche urteilen können.“ Zumindest ob ein Aminosäurerest in einer experimentellen Struktur aufgelöst sein wird, sagt AlphaFold2s lDDT-Wert laut DeepMind aber schon jetzt kompetitiv voraus.

Datensätze für das Training

Anders interpretiert Cramer die Vorhersagezukunft von Protein-Nukleinsäure-Komplexen: „Als Trainingsdatensatz könnten deren 10.000 PDB-Einträge ausreichen. Ich habe DeepMind vorgeschlagen, in diese Richtung zu arbeiten.“ Noch tut sich AlphaFold2 mit Nukleinsäuren aber genauso schwer wie mit ausgedehnten Interaktionsflächen zwischen Proteinkomponenten. Cramer dazu: „Protein-Interaktionen, die den stabilisierenden Wechselwirkungen im Kern eines Proteins ähneln, kann AlphaFold2 zum Beispiel in manchen Heterodimeren schon vorhersagen. Transiente Multikomponenten-Komplexe ohne rigide Interaktionsflächen bleiben aber vorerst Zukunftsmusik. Von unterschiedlichen Funktionszuständen solcher Komplexe ganz zu schweigen.“ Auch zur Wahrscheinlichkeit unterschiedlicher Konformationen eines Proteins trifft AlphaFold2 keine Aussagen.

Schröder benennt weitere Grenzen: „Mit allem was über eine Aminosäurekette hinaus geht – also Liganden, Co-Faktoren, Metaboliten und posttranslationalen Modifikationen – kann AlphaFold2 nichts anfangen. Auch kann es keine Strukturveränderungen vorhersagen, wenn sich der pH-Wert, die Temperatur oder Salzkonzentrationen ändern.“

Faltungswege noch zu kniffelig

„Vor allem beansprucht es nicht, Faltungswege vorauszusagen“, fährt Schröder fort. So beeindruckend AlphaFold2s Fähigkeiten auch sind: Das ein halbes Jahrhundert alte Rätsel, wie eine Polypeptidkette binnen Augenblicken in seine funktionale Konformation faltet, löst es nicht. „Vielleicht ist DeepMind aber auf dem Weg dahin. AlphaFold2 hat gewisse Regelmäßigkeiten im Zusammenhang von Sequenz und Struktur verinnerlicht und sagt auch ihm unbekannte Tertiärstrukturen voraus. Das geht weit über alles hinaus, was wir selbst im Homologie-Modelling leisten können.“ Weshalb AlphaFold2 zu einem Standardwerkzeug der Molekularbiologie werden dürfte, mutmaßt Cramer. Schließlich sind Strukturmodelle in allen Projektphasen willkommene Helfer – von der Entscheidung, welche Domänen eines Proteins man exprimieren sollte, über die Strukturbestimmung fehlender Proteinbausteine bis hin zur Analyse funktioneller Konformationen. „In unserer eigenen Forschung konnten wir dank AlphaFold2 bereits eine Kristallstruktur lösen, die seit Jahren nicht phasierbar war, und einen neuen Transkriptionsfaktor im Komplex modellieren, für den eine Kryo-EM-Dichte nur bei mittlerer Auflösung zu erhalten war“, so Kramer.

„Alle Strukturbiologen und Strukturbioinformatiker müssen sich jetzt mit maschinellem Lernen auseinandersetzen“, konstatiert auch EMBL-Gruppenleiter Müller. „Unserem Traum, ganze Zellen oder Zellorganellen mit Kryo-Tomographie zu vermessen und korrekt platzierte Makromoleküle zu Signalwegen zu verketten, verleiht AlphaFold2 natürlich Rückenwind. Das Gleiche gilt für die Vorhersage von Bindungstaschen von Liganden in der Pharmaentwicklung.“

Auch MSA-Experte Steinegger widerspricht da nicht und formuliert seine Zukunftsvision als Frage: „Warum sollten wir Proteinsuchen und -vergleiche weiterhin auf Sequenzebene durchführen, wenn wir jetzt Strukturdatenbanken haben?“

Vertreter herkömmlicher biophysikalischer Techniken, die sich jetzt vielleicht um ihre Zukunft sorgen, beruhigt Cramer: „Röntgenkristallographie, EM und NMR finden weiter Anwendung. Nur Synchrotronstrahlung erlaubt es, Komplexe aus Ziel-Proteinen und Medikament-Kandidaten hochaufgelöst und im Hochdurchsatz aufzuklären. Nur EM kann konformationelle Änderungen hochmolekularer Komplexe auflösen. Nur NMR kann die Dynamik intrinsisch ungeordneter Proteinbereiche beleuchten.“ In naher Zukunft rechtfertigt allein die Mammutaufgabe, hunderttausende AlphaFold2-Vorhersagen zu validieren, teure Infrastruktur wie Synchrotron-Beamlines oder Hochfeld-NMR-Magneten.

Spezielle Grafikkarte

Derweil ist die entscheidende Frage vielleicht, was AlphaFold2 für das eigene Projekt tun kann? Schließlich geizt es nicht mit Ansprüchen an die Computerhardware. Auf extra für maschinelles Lernen entwickelten Nvidia-V100-Grafikprozessoren (GPU) braucht AlphaFold2 zwischen fünf Minuten und 18 Stunden für 250 beziehungsweise 2.500 Aminosäurereste lange Proteine. Das humane Proteom berechnete es in 930 GPU-Tagen. Der eigene Laptop bräuchte hierfür Jahrzehnte.Überlastet ist der eigene Rechner vielleicht auch deshalb, weil der benötigte Arbeitsspeicher quadratisch mit der Sequenzlänge wächst. Selbst DeepMind prozessierte Proteine je nach ihrer Länge mit einem bis vier V100-GPUs mit 16 Gigabyte Arbeitsspeicher. Im eigenen Computer ist eine derart leistungsfähige Hardware höchstwahrscheinlich nicht verbaut. Zu guter Letzt beanspruchen AlphaFold2s Datenbanken auch noch 2,5 Terabyte Festplattenspeicher.

Um AlphaFold2 ressourcenarmen Arbeitsgruppen zugänglich zu machen, implementierten Martin Steinegger und Kollegen DeepMinds neuronales Netz deshalb in eine Colab-Umgebung. Was das ist und wie ColabFold auf fortgeschrittene Funktionen von AlphaFold2 und dessen Schwesterprogramm RoseTTAFold zugreift, warum es 16-mal schneller arbeitet und sogar homo- und hetero-oligomere Proteinkomplexe vorhersagt, erklärt Martin Steinegger im Interview auf der nächsten Seite.