Editorial

Im Kielwasser von AlphaFold - Computerbasierte Proteinstrukturvorhersage

Henrik Müller


(12.04.2022) Die Zeiten, in denen Proteinstrukturen der Natur in mühsamer Handarbeit über Monate abgetrotzt werden mussten, sind dank der computerbasierten Proteinstrukturvorhersage vorüber. Endlich kann sich die Strukturbiologie auf Dynamik und Funktion von Proteinkomplexen fokussieren. Es gibt aber noch ein paar Abstriche.

Wer aktuell über Proteinstrukturen spricht, muss es erwähnen – AlphaFold2 (AF2). Von Nature Methods zur „Method of the Year 2021“ gekürt, revolutioniert dieses künstliche neuronale Netz gegenwärtig die Biowissenschaften – zumindest den Teil, der sich mit Proteinstrukturen beschäftigt. In fünf Jahrzehnten gelang es der Strukturbiologie-Gemeinde im Schweiße ihres Angesichts, 188.000 3D-Strukturmodelle für 55.000 Proteine in der Proteindatenbank (PDB) zu hinterlegen. Mit einem Schlag verdreifachte AF2 im Juli 2021 diese Zahl. Seitdem wuchs seine Strukturdatenbank am European Bioinformatics Institute (EMBL-EBI) in Hinxton, Großbritannien, kontinuierlich auf 1,1 Millionen Strukturdatensätze. Neben 98,5 Prozent des menschlichen Proteoms befinden sich darunter die Proteome von 16 Modellorganismen wie Arabidopsis thaliana, Caenorhabditis elegans und Drosophila melanogaster sowie von 32 globalen Krankheitserregern wie Haemophilus influenzae, Klebsiella pneumoniae und Staphylococcus aureus (alphafold.ebi.ac.uk). Bis Ende 2022 sollen Strukturmodelle für alle sequenzierten Proteine bereitstehen – also über 100 Millionen Datensätze.

265a
Illustr.: Jovana Andrejevic

Ohne Übertreibung verursacht AF2 einen Paradigmenwechsel in der Strukturbiologie. Ermöglicht wird er durch das zu Googles Dachgesellschaft Alphabet gehörende Londoner Tochterunternehmen DeepMind, das hinter AF2 steht. Das DeepMind-Team veröffentlichte die Funktionsweise von AF2 (Nature doi: 10.1038/s41586-021-03819-2) und machte dessen Quellcode unter einer Open-Source-Lizenz selbst für kommerzielle Interessen verfügbar (github.com/deepmind/alphafold). Wie AF2 funktioniert, warum es weiß, wann es gut oder schlecht arbeitet, und wie es Strukturmodelle auf dem eigenen Laptop vorhersagt, ist in Laborjournal 10/2021 ab Seite 66 erklärt (Link).

Welchen Fortschritt AF2 bedeutet, veranschaulichen die Ergebnisse der zweijährlichen Critical-Assessment-of-Structure-Prediction (CASP)-Wettbewerbe, in denen Arbeitsgruppen aus aller Welt um die beste Vorhersage von Proteinstrukturen wetteifern, die nur den Juroren bekannt sind. Im CASP 2020 deklassierte AF2 nicht nur alle anderen Teilnehmer, sondern schaffte eine mittlere quadratische Abweichung (RMSD) seiner vorausgesagten Proteinrückgrate zu den korrekten Positionen von 0,96 Å. Eine Auflösung von unter 1 Å erreichten bisher nur 880 aller Strukturmodelle in der PDB. Außerdem sind die Ergebnisse von AF2 genauer als die Unterschiede zwischen den 3D-Datensätzen vielfach gelöster Modellproteine. Die Vorhersagegenauigkeit von AF2 liegt also innerhalb der Fehlertoleranz experimenteller Methoden.

Drei Dutzend Benchmarking-Publikationen bestätigten seitdem die Verlässlichkeit von AF2. Sie wiesen aber auch darauf hin, dass AF2 nicht mit allen Proteinsequenzen gleich gut zurechtkommt. Polypeptiden, zu denen keine homologen Proteine bekannt sind, sagt es schon mal ungewöhnliche Torsionswinkel voraus (Nat. Methods. doi: 10.1038/s41592-021-01365-3). Tatsächlich modelliert AF2 42 Prozent des humanen Proteoms nur mit mittlerer oder geringer Güte (Nature doi: 10.1038/s41586-021-03828-1). Wovon hängt die Zuverlässigkeit von AF2 ab? Für das Training des neuronalen Netzes von AF2 stand DeepMind einzig die PDB zur Verfügung – also zu neunzig Prozent röntgenkristallographisch und elektronenmikroskopisch gelöste Strukturdatensätze. Entsprechend wenig weiß AF2 über flexible Proteinbereiche; α-Helices und β-Stränge sagt es hingegen mit höherer Genauigkeit voraus.

Knapp eintausend humane Proteine kommen aber komplett ohne Sekundärstruktur aus. Fast zwei Drittel aller menschlichen Proteine enthalten intrinsisch ungeordnete Regionen (IDR) von mindestens dreißig Aminosäureresten Länge (Cell doi: 10.1016/j.cell.2020.11.050). Kann AF2 trotz mangelnder Trainingsdaten auch für sie Strukturvorhersagen treffen? Diese Frage stellten sich Iva Pritišanac, neuberufene Assistenzprofessorin für computergestützte Strukturbiologie an der Medizinischen Universität Graz, und Reid Alderson, ehemaliger Postdoc beim Kernspinresonanzspektroskopie (NMR)-Guru Lewis Kay an der Universität Toronto (bioRxiv doi: 10.1101/2022.02.18.481080).

Unerwartete Vorhersage

Tatsächlich versieht AF2 knapp 15 Prozent aller humanen IDR – immerhin eine halbe Million Aminosäurereste – verlässlich mit einer definierten 3D-Struktur. Das ist unerwartet. Schließlich weisen über 98 Prozent aller IDR keine Sequenzhomologien zu den Trainingsdaten von AF2 auf, sind ihm also unbekannt. Haben sie irgendeine Gemeinsamkeit? „Ja“, bestätigt Pritišanac, „von den biophysikalisch charakterisierten IDR wissen wir, dass sie bei spezifischer Bindung durch andere Biomakromoleküle oder bei posttranslationaler Modifikation eine Sekundärstruktur ausbilden.“

AF2 hat also Regeln gelernt, bedingt unstrukturierte Regionen herauszufiltern. Um Struktur-Funktions-Beziehungen zu untersuchen, stehen damit nicht länger nur ein paar hundert, sondern dank AF2 mehrere tausend bedingt unstrukturierte IDR-Motive zur Verfügung.

Alderson ergänzt: „Als wir die Proteom-Datensätze von AF2 quantifizierten, zeigte sich außerdem, dass in Archaea und Bakterien 80 Prozent aller IDR bedingt unstrukturiert vorliegen. In Eukaryoten sind es nur 20 Prozent. Die transientere Natur ihrer IDR erlaubt es eukaryotischen Proteinen wahrscheinlich, promiskuitive Interaktionen mit einer Vielzahl an Bindungspartnern etwa in membranlosen Zellorganellen einzugehen. Der Frage, wie sie ohne definierte 3D-Struktur eine Funktion erfüllen oder ob sie nur evolutionäre Überbleibsel sind, werden wir hier in Graz nachgehen.“

Eines macht dieses Anwendungsbeispiel deutlich: AF2 verschiebt den Fokus der Strukturbiologie-Gemeinde weiter in Richtung der Analyse von Dynamik und Funktion biologischer Makromoleküle. Wie AF2 multiple Konformationen von Membrantransportern und G-Protein-gekoppelten Rezeptoren (GPCR) sondieren kann, beschreibt die Arbeitsgruppe von Jens Meiler, Direktor des Instituts für Wirkstoffentwicklung der Universität Leipzig (bioRxiv 10.1101/2021.11.22.469536).

Dreißig Sequenzen genügen

Zum Verständnis ist ein Blick unter die Motorhaube von AF2 nötig: Über Dutzende Schichten seines neuronalen Netzes extrahiert es aus Multiplen-Sequenz-Alignments (MSA) die räumlichen Distanzen evolutionär korrelierter Aminosäure-Paare und verwendet sie zur Strukturvorhersage. Allein mit einem phylogenetisch diversen MSA aus etwa dreißig Vergleichssequenzen kann es oft schon 3D-Modelle hoher Verlässlichkeit vorhersagen. Details erklärt AF2-Mitautor Martin Steinegger in Laborjournal 10/2021 ab Seite 70 (Link).

Meilers Team verringerte die Anzahl der MSA-Vergleichssequenzen und konnte AF2 hierdurch für acht Membrantransporter und GPCRs jeweils mehrere Konformationen entlocken. Entscheidendes Detail: Manche dieser Vorhersagen spannen den Bogen zwischen experimentell beobachteten Funktionszuständen dieser Proteine.

Alternativ lässt sich konformationelle Heterogenität mit AF2 erforschen, indem Punkmutationen artifiziell in dessen MSA geschmuggelt werden (bioRxiv doi: 10.1101/2021.11.29.470469). Es wäre wenig verwunderlich, wenn seine Nachfolger mögliche Zwischenzustände standardmäßig vorhersagten. Noch scheint es aber zu früh, die Strukturmodelle von AF2 als Ensembles zu interpretieren, die die Dynamik eines Proteins widerspiegeln.

Neben konformationeller Vielfalt tut sich AF2 mit allem schwer, was über starre Aminosäureketten hinausgeht: Liganden, Co-Faktoren, Metaboliten, posttranslationalen Modifikationen sowie dem Einfluss von Salz, Temperatur und pH-Wert. Auch kann es weder Aussagen zu Nukleinsäuren noch zu Proteinen mit mehr als 2.700 Aminosäureresten treffen. Beispielsweise sagt es Dystrophin und Titin mit ihren 3.685 beziehungsweise 34.350 Resten aus Rechenzeitgründen in Form überlappender Modellfragmente voraus.

Stark verkürzte Rechenzeit

Optimierte AF2-Quellcodes wie die von OpenFold (github.com/aqlaboratory/openfold) und FastFold (github.com/hpcaitech/FastFold) können die Rechenzeit eines 400-kDa-Proteins wie Dystrophin aber bereits von einem Tag auf einige Stunden verkürzen. Außerdem nimmt AF2 keine Rücksicht auf biologische Relevanz, positioniert beispielsweise intra- und extrazelluläre Proteindomänen auch gern nebeneinander. Von trennenden Membranen weiß es ja schließlich nichts (J. Mol. Biol. doi: 10.1016/j.jmb.2021.167336). Kein AF2-Modell sollte daher für bare Münze genommen werden.

Eine weitere Baustelle sind Proteinkomplexe. Überraschenderweise erkennt AF2 zwar, ob eine Polypeptidsequenz Teil eines Komplexes ist – ohne dafür trainiert worden zu sein. Für dessen Vorhersage müssen sich Nutzer aber eines methodischen „Hacks“ bedienen, wie Martin Steinegger, AF2-Mitautor und Assistant Professor für Computational Biology an Seouls National University, erklärt: „Entweder verbindet man Monomere mit einem künstlichen Linker kleiner Aminosäurereste oder gaukelt AF2 durch geschickte Indexierung eine künstliche Lücke zwischen den Monomeren vor.“

Infolge dieser unerwarteten Anwendungsmöglichkeit trainierte DeepMind Endes letzten Jahres ein neuronales Netz spezifisch mit homo- und heteromeren Proteinkomplexen bekannter Stöchiometrie. Das resultierende AlphaFold (AF)-Multimer sagt zwei Drittel aller Interaktionsflächen mit DockQ-Gütewerten von mindestens 0,23 voraus, also einer akzeptablen Zuverlässigkeit. Einem Fünftel aller Multimere prognostiziert es Strukturen mit DockQ-Werten von mindestens 0,8, der höchsten Qualitätsstufe. Im Durchschnitt funktioniert es für homomere Schnittflächen marginal besser, für heteromere Schnittflächen um 25 Prozent besser als der Umweg von AF2 über künstliche Linker (bioRxiv doi: 10.1101/2021.10.04.463034).

Transiente Multikomponenten-Komplexe ohne rigide Interaktionsflächen bleiben somit auch für AF-Multimer vorerst Zukunftsmusik. Ebenso kursieren Anekdoten, wonach es keine Antikörperkomplexe vorhersagen kann.

Bisher hat das DeepMind-Team in AF-Multimer allerdings kein Recycling anfänglicher Strukturprognosen implementiert. Da ein solches rekursives Füttern mit den eigenen Ausgaben für AF2 oft erst Garant hochwertiger Strukturmodelle ist, bleibt für AF-Multimer Luft nach oben. Wer es auf seinem Laptop ausprobieren möchte, wird in Martin Steineggers ColabFold fündig (siehe dazu auch Laborjournal 10/2021 ab Seite 70, Link).

Selbstverständlich rief AlphaFolds Erfolg Nachahmer auf den Plan. Anhand von DeepMinds Veröffentlichungen baute David Bakers Team an der University of Washington binnen kürzester Zeit AlphaFolds Architektur nach. Baker ist Hauptentwickler des bis zu AlphaFolds durchschlagendem Erfolg führenden Vorhersageprogramms Rosetta. Auch Bakers RoseTTAFold (Science doi: 10.1126/science.abj8754) ist frei verfügbar (github.com/RosettaCommons/RoseTTAFold). Im Vergleich zu DeepMinds neuronalem Netz berechnet es sowohl Einzelketten als auch Komplexe noch etwas ungenauer (bioRxiv doi: 10.1101/2021.09.15.460468).

265b
David Bakers Team kombinierte das Programm Rosetta mit AlphaFold, um Proteinkomplexe in Saccharomyces cerevisiae vorherzusagen. Foto: Baker Lab

Vorhersage von Komplexen

Wie erfolgreich Deep-Learning-Technologien bereits Komplexstrukturen in Eukaryoten vorhersagen, demonstrierte Bakers Mannschaft in S. cerevisiae – nicht nur für einzelne Proteinkomplexe, sondern systematisch für das gesamte Proteom. In einem ersten Schritt verwendeten die US-Amerikaner eine schlanke und daher schnellere Version von RoseTTAFold als Vorfilter. Ähnlich einer In-silico-Variante des Yeast-Two-Hybrid-Systems sondierten sie mit ihr die Gesamtheit der Interaktions-Wahrscheinlichkeiten von 8,3 Millionen möglichen Paarungen aller Hefeproteine. Wieso dient ein auf Strukturvorhersage getrimmter Algorithmus plötzlich der Suche nach Proteininteraktionen? Weil auch Aminosäurereste an Interaktionsflächen koevolvieren. Entsprechend lassen sich Multiple-Sequenz-Alignments, auf denen die Vorhersagen der neuronalen Netzwerke basieren, nach evolutiven Gemeinsamkeiten mit den MSA möglicher Interaktionspartner abklopfen.

Im zweiten Schritt modellierte Bakers Team mit AF2 dann 912 komplett unbekannte Proteinkomplexe oder Komplexe mit unaufgeklärter Struktur aus DNA-Reparatur, Mitose- und Meiose-Kontrolle, Transkription und Translation, Proteintranslokation, Zytoskelett und verschiedenen Zellorganellen. Da es selbst Bakers Gruppe zu viel wurde, die funktionellen Konsequenzen all dieser Proteinkomplexe zu studieren, finden Interessierte die Datensätze unter modelarchive.org/doi/10.5452/ma-bak-cepc. Die Datenlawine, die infolge von Deep-Learning-Technologien in Zukunft ansteht, lässt sich selbst für einfache Eukaryoten wie S. cerevisiae mit 6.000 Proteinen nur erahnen – von der Komplexität aller Wechselwirkungen innerhalb der mindestens 20.000 Proteine des humanen Proteoms, zuzüglich alternativer Splicing-Varianten, ganz zu schweigen.

Diese Datenflut deutet schon jetzt ein Luxusproblem an: Wie lassen sich die Strukturdatensätze von 100 Millionen sequenzierten Proteinen durchsuchen und vergleichen? Populäre Struktur-Alignment-Programme wie TM-align (zhanggroup.org/TM-align/) und DALI (ekhidna2.biocenter.helsinki.fi/dali/) benötigen bei einer derartigen Datenbankgröße für einen Abgleich aller Datensätze schließlich mehrere Jahrtausende. Auch Sequenzvergleiche als Alternative helfen nicht weiter, da Strukturmotive viel konservierter sind als Sequenzmotive. Ähnliche Proteinstrukturen mit Rückgrat-RMSDs unter 1 Å können sehr unterschiedlichen Aminosäuresequenzen entstammen. Erst ein Strukturvergleich deckt also unbekannte Funktionszusammenhänge und Verwandtschaftsbeziehungen auf.

Strukturalphabet

Abhilfe schaffen Ideen aus der maschinellen Sprachverarbeitung. Martin Steinegger erklärt: „Das Geheimnis unseres Proteinstruktur-Suchprogramms Foldseek liegt in seiner Datenstruktur. Wir übersetzen 3D-Strukturen anhand eines eigens von uns entwickelten Strukturalphabets zurück in eine 1D-Sequenz und vergleichen Proteinstrukturen mithilfe von Sequenz-Alignments.“ Die Buchstaben des Strukturalphabets beschreiben nicht einfach nur die Torsionswinkel zwischen allen Kombinationen aller Aminosäuretypen, wie man intuitiv vielleicht erwarten würde. „Das funktioniert zum Vergleich zweier Strukturen nicht gut, weil es nur Rückgrat-Konformationen beschreibt. Beispielsweise folgt in einem Protein auf einen α-helikalen Rest höchstwahrscheinlich ein weiterer α-helikaler Rest. Resultierende Suchsequenzen sind wenig aussagekräftig, weil all die Information, wie Seitenketten im 3D-Raum interagieren, nicht codiert wird. Unsere Buchstaben beschreiben deshalb in Vektor-Form, welche Interaktionspartner wie gut mit welchen Aminosäuretypen möglich sind. Sie codieren quasi die räumliche Interaktions-Geometrie eines jeden Aminosäurerests.“

Warum ist es von Vorteil, die 3D-Information eines Proteins doch wieder auf eine 1D-Abfolge von Buchstaben zu reduzieren? „Weil Suchalgorithmen auf Sequenzebene um fünf Größenordnungen schneller arbeiten“, wie ein Beispiel in Steineggers Preprint illustriert (bioRxiv doi: 10.1101/2022.02.07.479398): Um die gegenwärtige Datenbank von AF2 mit der Struktur der RNA-abhängigen RNA-Polymerase von SARS-CoV-2 zu durchsuchen, brauchen TM-align und DALI 33 Stunden beziehungsweise zehn Tage. Foldseek benötigt bei ähnlicher Sensitivität fünf Sekunden. Dem Web-Server der Open-Source-Software reichen PDB-Dateien zur Eingabe (search.foldseek.com).

Bei all den aufregenden Möglichkeiten von AF2 und seinen Derivaten bleibt eine Achillesferse: Die Abhängigkeit von koevolutionären Mustern in Form abwechslungsreicher MSA. Für Proteine ohne Homologe, immerhin ein Zehntel aller eukaryotischen und viralen Polypeptidketten und ein Fünftel aller bekannten metagenomischen Sequenzen, versagt es.

Arbeitsgruppen wie die von Mohammed AlQuraishi an der Harvard Medical School versuchen deshalb auf MSA zu verzichten. Stattdessen interpretieren sie Proteinsequenzen als Sätze einer „Proteinsprache“ und extrahieren ein semantisches Verständnis der Aminosäure-Wörter. Als neuronales Netz verwenden auch sie Transformer, also die Deep-Learning-Netzwerk-Architekturen, die hinter AF2 stecken. Das ist kein Zufall, da Transformer ursprünglich zur Prozessierung natürlicher Sprache entwickelt wurden, indem sie entfernt liegende Informationseinheiten über einen Aufmerksamkeitsmechanismus korrelieren. Ob sie die Semantik einzelner Wörter aus dem Satzkontext oder die Grammatik einzelner Aminosäurereste aus dem Proteinkontext extrahieren, macht keinen Unterschied.

Geometrisches Netzwerk

Das Proteinsprache-Modell kombinierte AlQuraishis Team mit einem rekurrenten geometrischen Netzwerk (RGN), das die Krümmung und Torsion eines Proteinrückgrats auf Basis gelernter Kontextinformation mit Hilfe von Formeln für Raumkurven konstruiert (bioRxiv doi: 10.1101/2021.08.02.454840). Der RGN2 getaufte Algorithmus folgt natürlichen Faltungswegen sicher besser als AlphaFold2 und RoseTTAFold, kann mit deren Verlässlichkeit bisher aber nicht mithalten – wenn für sie MSAs zur Verfügung stehen. Für Polypeptidketten ohne Homologe übertrifft RGN2 seine MSA-abhängigen Cousins in der Hälfte aller Fälle um RMSD-Werte von zwei bis drei Å. Sind Proteine reich an Haarnadelschleifen und arm an β-Faltblättern funktioniert RGN2 besonders gut. Da seine Rechenzeit nur linear mit der Proteinlänge zunimmt, arbeitet es außerdem um bis zu sechs Größenordnungen schneller als AF2.

Auch trRosettaX-Single aus der Arbeitsgruppe von Jianyi Yang an der chinesischen Nankai-Universität verzichtet auf MSAs (bioXriv doi: 10.1101/2022.01.15.476476). Seine Leistungsfähigkeit kann binnen weniger Klicks schon am eigenen Lieblingsprotein überprüft werden (yanglab.nankai.edu.cn/trRosetta/).

Wie allein die Anzahl hier zitierter Preprints vergegenwärtigt, jagt in der Strukturbiologie gerade eine Neuentwicklung die nächste. Klar ist: Nur Proteinstrukturen zu lösen, reicht nicht mehr. Von nun an steht die Frage im Mittelpunkt, nach welchen biophysikalischen Regeln funktionelle Proteine in vivo zustande kommen – und genau hier tappen auch Machine-Learning-Technologien weiterhin im Dunkeln.Die Biostatistiker um Charlotte M. Deane von der University of Oxford überprüften, ob AlphaFold2 und RoseTTAFold experimentelle Faltungsdaten von 170 Proteinen rekapitulieren (Bioinformatics doi: 10.1093/bioinformatics/btab881). Selbst wenn die Briten vorhergesagte Faltungs-Trajektorien nur danach unterteilten, ob sie über einen zweistufigen Mechanismus vonstattengehen oder sich Sekundärstrukturelemente kontinuierlich zusammenfinden, glänzten die Deep-Learning-Netze nicht. Allein die Länge einer Polypeptidkette erwies sich als besseres Indiz dafür, ob die Proteinfaltung über Zwischenzustände abläuft, als die Vorhersagen von AF2 und RF. Auch korrelieren ihre Faltungskinetiken nur schwach mit experimentell bestimmten Geschwindigkeitskonstanten.

Auf thermodynamischer Seite sieht es nicht besser aus. Für elf Proteine wertete Deanes Arbeitsgruppe Wasserstoff-Deuterium-Austausch (HDX)-Experimente aus, die Auskunft über die Strukturiertheit von Faltungs-Intermediaten geben. Vorhergesagte Faltungs-Trajektorien und HDX-Daten erwiesen sich als inkompatibel. Darüber hinaus enthielten 30 bis 40 Prozent der Vorhersagen sterisch unmögliche Konformationen. Deanes Urteil ist eindeutig: Deep-Learning-Technologien rekapitulieren keine natürlichen Faltungswege. Über zugrundeliegende physikochemische Gesetzmäßigkeiten und Faltungsmechanismen lernen sie nichts – sie werten nur statistische Information über Kristallstrukturen aus.

Spannende Zukunft

Zweifelsohne sind Deep-Learning-Systeme wie AlphaFold2 der neue Goldstandard der Strukturanalyse, gleichzeitig aber auch keine Universalmittel. Ein Blick in die nahe Zukunft der Strukturbiologie fällt unterdessen nicht schwer: Die Kryo-Elektronenmikroskopie (EM) visualisiert die 3D-Strukturen biomakromolekularer Komplexe samt ihrer nativen Funktionszustände. AlphaFolds Nachfolger erklären Elektronendichtekarten anhand hochaufgelöster Strukturmodelle in einem kontinuierlichen Kreislauf aus Vorhersage und experimenteller Validierung. Die Kernspinresonanzspektroskopie (NMR) erweitert Strukturmodelle um konformationelle Plastizität und Populationshäufigkeiten zu Funktionsmodellen. Die Röntgenkristallographie beantwortet mechanistische Detailfragen. Kuratierte Datenbanken stellen Vergleichsstandards zur Verfügung. Wettbewerbe wie CASP für Proteinstrukturen, CAFA für Proteinfunktionen und CAPRI für Proteininteraktionen spornen die Forschungsgemeinde an. Eine spannende neue Welt der Proteinstruktur-Analyse hat sich aufgetan!