Editorial

Peptidmechanik lernende Proteinsprachmodelle - Alphafold2-Nachfolger

Henrik Müller


(07.02.2023) Im Kielwasser von AlphaFold2 jagt gegenwärtig ein Programm zur Vorhersage von Proteinstrukturen das nächste. Was müssen sie mitbringen, um auch die Mechanismen der Proteinfaltung zu enträtseln?

Eine Welle von Maschinenlern-Programmen zur Strukturvorhersage von Proteinen war beinahe zu erwarten gewesen. Schließlich hatte AlphaFold2 (AF2) vor zwei Jahren im Critical-Assessment-of-Structure-Prediction (CASP)-Wettbewerb alle Arbeitsgruppen der Welt deklassiert. Die besten 95 Prozent seiner Voraussagen wichen von experimentellen Vergleichsstrukturen im Mittel nur um 0,96 Å ab. Seine Vorhersage-Genauigkeit lag damit innerhalb der Fehlertoleranz experimenteller Methoden. Ohne Übertreibung verursachte das Forschungsteam DeepMind als Mastermind von AlphaFold2 einen Paradigmenwechsel in der Strukturbiologie.

219a
lllustr.: Gruppe Rost

Einmal anhand der experimentell ermittelten Strukturdatensätze der Proteindatenbank (PDB) trainiert, extrahiert AF2 aus multiplen Sequenz-Alignments (MSA) homologer Proteine die Raumdistanzen evolutionär korrelierter Aminosäurepaare. Neu ist diese Idee nicht. Das Konzept, evolutionäre Information von Proteinfamilien mit maschineller Strukturvorhersage zu verknüpfen, hatte Burkhard Rost bereits vor dreißig Jahren im Rahmen seiner Promotion am EMBL Heidelberg eingeführt (J. Mol. Biol. 232 (2): 584-99). Doch erst seit wenigen Jahren existieren die Algorithmen, Datenmengen und vor allem Computerhardware, die nötig sind, diesen Ansatz auch erfolgreich umzusetzen.

Revolutionär ist AlphaFold2s Ende-zu-Ende-System, das all diese Information nutzt. Details hierzu erläutert ein „Neulich-an-der Bench“-Artikel in Laborjournal 10/2021 ab Seite 66 (Link). In LJ 4/2022 erfahren Sie ab Seite 46, wie Sie Proteinstrukturen mittels ColabFold auf Ihrem eigenen Laptop vorhersagen können (Link). (Alle Ausgaben finden sich unter laborjournal-archiv.de/epaper/).

Existiert ein phylogenetisch abwechslungsreiches MSA aus mindestens dreißig Vergleichssequenzen, sind AlphaFold2 und sein Schwesterprogramm RoseTTAFold gegenwärtig der Goldstandard der Strukturanalyse. Gleichzeitig sind MSAs aber ihre Achillesfersen. Denn zum einen müssen MSAs für jede Eingabesequenz neu erstellt und riesige Sequenzdatenbanken entsprechend durchsucht werden. Das dauert. Zum anderen: Was ist, wenn keine koevolutionären Vergleichssequenzen existieren?

Verrauschte Alignments

So fehlen manchen Proteinen Sequenz- und Strukturhomologe. Das betrifft ein Fünftel der bekannten metagenomischen Sequenzen sowie ein Zehntel aller eukaryotischen und viralen Polypeptide. Außerdem evolvieren manche Proteinabschnitte so schnell, etwa die Komplementaritäts-bestimmenden Regionen (CDR) von Antikörpern, dass nur verrauschte MSAs existieren. Als Folge arbeiten MSA-basierte Algorithmen unzuverlässig. Doch gerade in diesen verwaisten und hochvariablen Proteinen verbergen sich vermutlich die interessantesten Neuigkeiten für Biotechnologie und Gesundheitswesen.

Etliche Nachfolgeprogramme springen in diese Lücke und wollen die Abhängigkeit von koevolutionären Mustern gänzlich überwinden. Schließlich ist jegliche Information für die korrekte dreidimensionale Faltung eines Proteins in der Primärsequenz enthalten. Die bekanntesten Nachfolger von AF2 heißen ESMFold (bioRxiv. doi.org/gq635c), IgFold (bioRxiv. doi.org/gqc8rn), HelixFold (aRxiv. doi.org/jshj), OmegaFold (bioRxiv. doi.org/jshm) und EMBER3D (bioRxiv. doi.org/jshk). Alle haben eines gemein: Sie wenden Ideen an, die ursprünglich für die Prozessierung natürlicher Sprache entwickelt wurden.

Warum Sprachmodelle die Zukunft des Proteindesigns darstellen, erklärt Birte Höcker von der Uni Bayreuth auf Laborjournal online im Artikel „Excuse me, do you speak Protein? (laborjournal.de/editorials/2476.php - Link).

Der Punkt ist, dass Aminosäurereste Sekundär-Strukturelemente formen, die sich zu Proteindomänen mit einer Funktion verbinden. Das ist nichts anderes als Buchstaben, die Worte formen, um Sätze mit einer Aussage zu bilden. Entsprechend ist es für ein neuronales Netzwerk unerheblich, ob es ein Semantikverständnis aus einem phonetischen oder einem chemischen Alphabet extrahiert.

Burkhard Rost, der seit 2009 den Lehrstuhl für Bioinformatik an der Technischen Universität München inne hat, fasst den Knackpunkt zusammen: „Proteinsprachmodelle erlernen nicht die gemittelten Eigenschaften von Proteinfamilien, sondern letztendlich die Physik hinter dem, was einzelnen Proteinsequenzen Bedeutung verleiht.“ Dafür stellen Sprachmodelle Peptidsequenzen als sogenannte Worteinbettungen dar. Ihr Vorteil: Abstände im Einbettungsraum korrelieren nicht nur mit Sequenzeigenschaften, sondern auch mit der Peptiddynamik. Sprachmodelle erlernen also mehr als nur statische Strukturinformation. Im Vorhersagefall benötigen sie dann nur Primärsequenzen und brauchen Sequenzdatenbanken nicht länger nach koevolutionären Mustern zu durchforsten.

Intensives Training

Natürlich müssen auch Proteinsprachmodelle exzessiv trainiert werden. Rost setzt das in Relation: „Für das Training von AlphaFold2 griff DeepMind auf mittlerweile 200.000 Strukturdatensätze der Proteindatenbank zurück. Im Vorhersagefall stehen ihm dann bei großen Proteinfamilien bis zu 10.000 MSA-Sequenzen zur Verfügung. Doch diese Zahlen sind winzig im Vergleich zum exponentiell wachsenden Datenschatz an bekannten Proteinsequenzen, anhand derer Sprachmodelle trainieren.“ So verfügt die Big Fantastic Database (BFD) von Martin Steinegger, seines Zeichens Koautor von AlphaFold2 und EMBER3D, über 2,5 Milliarden metagenomische Proteinsequenzen (bfd.mmseqs.com). „Erst mit derartig riesigen Trainingsdatensätzen machen Sprachmodelle einen Sprung in ihrer Vorhersage-Genauigkeit“, betont Rost. Warum auch AlphaFold2 nicht ohne die BFD auskommt, erklärt Martin Steinegger in einem Interview in LJ 10/2021 ab Seite 70 (Link).

Ihre Unabhängigkeit von MSAs bedeutet für Sprachmodelle vor allem eines: Schnelligkeit. So arbeitet ESMFold des US-Technologieunternehmens Meta, das auf 15 Milliarden Netzwerkparameter zurückgreifen kann, zwar weniger genau als DeepMinds AlphaFold2, das nur 93 Millionen Neuronen aufweist – das Programm ist dafür aber bis zu sechzigmal schneller. AF2 hatte bis Juli 2022 bereits 220 Millionen Strukturvorhersagen für das humane Proteom sowie für die Proteome von 47 Modellorganismen getroffen (alphafold.ebi.ac.uk). ESMFold vergrößerte diese Anzahl im November 2022 mit einem Schlag um weitere 617 Millionen Strukturmodelle für metagenomische Proteine. Benötigte AF2 noch Monate, brauchte ESMFold nur zwei Wochen für alle Vorhersagen – zugegebenermaßen auch dank Metas Rechenkapazitäten. 225 Millionen Strukturmodellen bescheinigt ESMFold sogar hohe Zuverlässigkeit. Außerdem ähneln zehn Prozent seiner Strukturmodelle keinen bekannten Proteinen aus der Proteindatenbank. Wie schon AF2, kaut ESMFold also nicht nur Trainingsdatensätze durch, sondern dringt weiter in unbekannte Regionen der Proteinlandschaft vor.

276b
Seit dreißig Jahren hat sich Burkhard Rosts Team einem Thema verschrieben: Die Struktur und Funktion von Proteinen mithilfe neuronaler Netze vorhersagen. Foto: TUM/ediundsepp

Burkhard Rost begeistert vor allem der ESM Metagenomic Atlas (esmatlas.com): „Die Art und Weise, wie die 600 Millionen Strukturmodelle gruppiert und visualisiert sind, ist originell und atemberaubend. Es macht einfach Spaß, darin zu surfen.” Darüber hinaus erlaubt die Benutzeroberfläche, eigene Proteine mit bis zu 400 Aminosäureresten Länge ohne Anmeldung binnen Sekunden zu falten. Wartezeiten hat ESMFold abgeschafft.

Endlich ist die Tür aufgestoßen, hinter der Anfinsens Dogma der Proteinfaltung darauf wartet, gelöst zu werden. Noch rekapitulieren aber auch Sprachmodelle natürliche Faltungswege nicht. Die derzeit entscheidende Frage lautet: Können sie die physikochemischen Gesetzmäßigkeiten erlernen, nach denen sich funktionelle Proteine falten?

Ein erster Schritt in diese Richtung besteht für Rosts Arbeitsgruppe an der TU München darin, neuronale Netzwerke empfindlicher für konformationelle Dynamik zu machen. Schon rein konzeptionell funktioniert das mit AlphaFold2 nicht, da es MSAs und somit Durchschnittswerte von Proteinfamilien durch sein Netzwerk propagiert. „Anders EMBER3D“, erklärt Rost: „Wir haben es explizit darauf trainiert, nicht Familien-Mittelwerte, sondern die für einzelne Proteine spezifischen Eigenschaften zu erlernen.“ So nebenher ging das nicht, sagt Rost: „Um unser Sprachmodell ProtT5 zu trainieren, haben wir mehr Rechenzeit verbraucht als im Rest meiner dreißigjährigen Forschungskarriere.“

Entsprechend gespannt waren die Münchner Bioinformatiker auf den Tag der Wahrheit, als sie anhand von lDDT- und TM-Werten verglichen, wie gut EMBER3Ds Strukturmodelle gegenüber den von anderen neuronalen Netzwerken vorhergesagten Modellen abschneiden. Während der lokale Distanzdifferenztest (lDDT) die Ungewissheit in der relativen Position und Orientierung jedes einzelnen Aminosäurerests im Vergleich zu experimentellen Referenzstrukturen kalkuliert, ist der Template-Modelling (TM)-Wert ein Maß für die globale Ähnlichkeit von Protein-Topologien. lDDT- und TM-Werte geben also an, wie vertrauenswürdig Vorhersagen sind. Das Resultat ihres Vergleichs: AlphaFold2 übertrifft EMBER3D bei weitem. Wenn MSAs zur Verfügung stehen, sind beide Gütemaße für AF2 im Durchschnitt beinahe doppelt so hoch.

Fehlt hingegen die koevolutionäre Information, kann AF2 nicht länger mithalten. Ist EMBER3D also das neue Maß der Dinge, wenn keine MSAs existieren? Nein. Das derzeit genaueste Sprachmodell scheint das am MIT in Cambridge entwickelte OmegaFold zu sein (github.com/HeliXonProtein/OmegaFold). Ganz ohne koevolutionäre Information arbeitet es im Durchschnitt ebenso akkurat wie AlphaFold2. Für Antikörper sowie Proteine ohne Sequenz- und Strukturhomologe übertrifft es den Goldstandard sogar. Da OmegaFold nicht von MSAs abhängt, arbeitet es außerdem schneller. Für eine 250-Reste-Sequenz benötigt es nur acht Sekunden – im Gegensatz zu 230 Sekunden von AF2. Bei 500 Resten ist es noch fünfzehnmal, bei 1.000 Resten noch siebenmal schneller als AF2 (bioRxiv. doi.org/jshm).

Schlank und schnell

Und dennoch ist das der Moment, an dem EMBER3D glänzen kann. Denn bezüglich der Geschwindigkeit deklassiert es sämtliche Mitbewerber um mehrere Größenordnungen. Die Rückgrat-Koordinaten und zwischenatomaren Abstände eines 400-Reste-Proteins sagt EMBER3D binnen 0,3 Sekunden voraus, und zwar auf handelsüblichen Laptops. Auf Server-Hardware benötigt es für 700-Reste-Proteine eine Sekunde. Eine Vorhersage für 1.400-Reste-Proteine steht innerhalb von fünf Sekunden zur Verfügung. Was macht es so schnell? „Unsere schlanke Netzwerkarchitektur”, glaubt Rost. „Zwar greift EMBER3D auf 1,5 Milliarden Netzwerkparameter zurück, 99,7 Prozent davon machen aber unser Sprachmodell ProtT5 aus, während nur 4,7 Millionen Parameter im Vorhersagemodul stecken. Auch hilft es, nur Rückgrat-Atome vorherzusagen, während OmegaFold auch Seitenketten prognostiziert.“

Doch ist es nicht egal, ob eine Strukturvorhersage in wenigen Hundert Millisekunden oder erst nach einer Sekunde vorliegt? Rost verneint: „Dank dieses Geschwindigkeitsvorteils können wir den Effekt von Sequenzvarianzen auf ein Strukturmodell in Echtzeit verfolgen und Proteinsequenzen instantan editieren. Echte Bedeutung erlangt all das dadurch, dass wir EMBER3Ds Strukturvorhersagen mit Daten zur Proteinfunktion korrelieren können.“

Dafür entwickelten Rosts Mitarbeiter Konstantin Weißenow und Michael Heinzinger ein Software-Werkzeug, das die konformationellen Möglichkeiten einer Polypeptid-Sequenz filmisch einfängt. Zuerst sagt EMBER3D Strukturmodelle für alle 19 möglichen Aminosäure-Substitutionen aller Sequenzpositionen voraus. Allein für ein 350-Reste-Protein sind das 6.650 Voraussagen. Mit AlphaFold2 kostete das übrigens Tage – mit EMBER3D vergehen nur Minuten. Dann generiert das Software-Tool drei Abbildungen für jede mögliche Mutante: (1) eine 2D-Distanzmatrix der Abstände aller Aminosäurereste zueinander, (2) die vorhergesagte 3D-Struktur des Proteinrückgrats und (3) eine 2D-Landkarte, die den Effekt der jeweiligen Punktmutation auf die Funktion des Proteins darstellt. Alle drei Abbildungen vereinigt es dann auf einer Seite und fügt alle individuellen Seiten zu einer Filmsequenz zusammen. Der finale Filmclip zeigt alle 19 Punktmutationen einer Sequenzposition pro Sekunde Wiedergabezeit. Rost nennt sie Protein-Mutations-Movies (PMM).

Aktuell arbeitet Rosts Team daran, nicht nur den Einfluss aller Einzelvarianten in PMMs zu visualisieren, sondern sogar den aller Paarvarianten. Mit AlphaFold2 ist das unmöglich. Es würde Jahrzehnte Rechenzeit kosten. Erst dank EMBER3Ds Geschwindigkeit sind auf leistungsstarken Laptops selbst Quintupel-Varianten für ausgewählte Reste realisierbar.

Der Clou der PMMs besteht natürlich in der Korrelation mit Funktionsdaten. Wie das funktioniert, veranschaulichten die Münchner Bioinformatiker in ihrem jüngsten PrePrint anhand von Deep-Mutational-Scanning (DMS)-Datensätzen (bioRxiv. doi.org/jshk). DMS nutzt die Hochdurchsatz-Sequenzierung von DNA und korreliert die Genotypen einer Bibliothek von bis zu einer Million Punktmutanten eines einzelnen Proteins mit ihren Phänotypen, also beispielsweise verbleibender Enzymaktivität. Das Ergebnis sind 2D-Sequenz-Funktions-Diagramme, die die Auswirkungen jeglicher Einzelmutation auf die Proteinfunktion quantitativ beschreiben (Nat. Methods. 11: 801-7).

Punktmutationen besser im Blick

Für ihren Machbarkeitsnachweis ersetzten Weißenow und Heinzinger die Sequenzdaten durch vorhergesagte Strukturdaten und analysierten die 2D-Struktur-Funktions-Diagramme: Vorhersagen von AlphaFold2 und ESMFold korrelierten nur schwach mit DMS-Daten. OmegaFold schnitt sogar noch schlechter ab. Ganz anders EMBER3D: Selbst durchschnittliche Strukturmodelle sagten den Effekt von Punktmutationen auf die Proteinfunktion besser voraus als die beste AF2-Prognose. Warum? Erneut sieht Rost EMBER3Ds schlanke Netzwerkarchitektur von nur 4,7 Millionen Parametern als Grund: „Die Information über einzelne Sequenzveränderungen bleibt innerhalb unseres Netzwerks erhalten. Das macht EMBER3D im Gegensatz zu anderen AlphaFold-Nachfolgern sensitiver für Punktmutationen und ermöglicht uns einen quantitativen Blick auf den Zusammenhang von Proteindynamik und -funktion.“

Kompensieren EMBER3Ds Vorteile in Geschwindigkeit und Sensitivität somit seine mangelnde Genauigkeit? Das kommt auf die wissenschaftliche Fragestellung an. ­AlphaFold2 bleibt vorerst auf dem Thron der Strukturvorhersage, wenn abwechslungsreiche MSAs zur Verfügung stehen. Ist das nicht der Fall, ist OmegaFolds Sprachmodell wahrscheinlich das Netzwerk der Wahl, solange Genauigkeit als Maß aller Dinge gilt. Will man hingegen Proteinstrukturen vergleichen, etwa mit Foldseek (search.foldseek.com) den Konformationsraum eines Proteins mit Blick auf dessen Funktion abklopfen oder Faltungswege nachvollziehen, lohnt sich der Besuch auf GitHubs Website mit dem EMBER3D-Eintrag (github.com/kWeissenow/EMBER3D). Denn mit Sicherheit werden Studien zur Strukturdynamik von Proteinen, ihren Konformations-Ensembles und Energielandschaften die Zukunft der Strukturbiologie prägen. Rosts Arbeitsgruppe ist mit großen Schritten in diese Richtung unterwegs.