Die Protein-Träumer

(01.08.2022) Funktionales Proteindesign ist keine Zukunftsmusik mehr. Halluzinierende Deep-Learning-Netzwerke wie trRosetta bereiten den Weg.
editorial_bild

Editorial

Das Ziel ist klar: Eine Funktion vorzugeben und ein Protein mit genau dieser Funktion künstlich aufzubauen. Die Motivation ist ebenso klar: De-novo-Enzyme, die nicht in der Natur existieren, könnten beispielsweise Plastikabfall metabolisieren, Umwelttoxine hydrolysieren oder neue Vakzine in der nächsten Pandemie zügig herstellen. Einzig der Weg dorthin bereitete trotz jahrzehnte­langer Bemühungen Sorgen. Denn konventionelle Herangehens­weisen – also physiko­chemische Energie­funktionen oder heuristische Optimierungs­algorithmen – konnten den Traum der Protein-Designer bisher nicht erfüllen.

Doch neuen Schwung bringen Deep-Learning-Netzwerke wie AlphaFold2 und RoseTTAFold. Seit einigen Monaten revolutionieren sie die Strukturbiologie, indem sie die 3D-Strukturen von Proteinen und Protein­komplexen genauso sicher wie experimentelle Methoden bestimmen. Für den Traum vom Proteindesign lautet seitdem die entscheidende Frage: Lässt sich der Vorhersage-Prozess neuronaler Netze vielleicht umkehren, um zu einer vorgegebenen Funktion und Struktur die bestmögliche Sequenz zu finden?

Editorial

Wenn Proteindesigner halluzinieren

Genau danach strebt die Arbeitsgruppe um Struktur­vorhersage-Guru David Baker an der University of Washington in Seattle – indem sie Proteine halluzinieren. Sie erträumen Proteine und bilden sich deren Strukturen ein? Was esoterisch klingt, ist inspiriert durch DeepDream: Dieses neuronale Netzwerk aus dem Hause Google ist darauf trainiert, bestimmte Muster wie etwa menschliche Gesichter in Bildern zu erkennen, und spürt ihnen auch dort nach, wo sie nicht existieren. Unterwegs verändert es dabei ein Eingabebild so lange, bis es tatsächlich etwas enthält, was das Neuronen­netz als ideales Gesicht erachtet. Seine psychedelischen und manchmal verstörend wirkenden Ergebnisse (einfach mal „deep dream“ in der Google-Bildersuche eingeben) erinnern an das Erkennen von Formen in Wolken oder am Horizont – eben ganz so, als ob DeepDream halluziniert hätte.

Lassen sich Fotos und Gesichter durch Peptid­sequenzen und 3D-Strukturen ersetzen? Um dieser Frage nachzugehen, ließ Bakers Arbeitsgruppe ihr zur Protein­struktu­rvorhersage trainiertes Deep-Learning-Netzwerk trRosetta die Konformationen von 2.000 Zufalls­sequenzen vorhersagen. Natürlich waren alle Abstände zwischen deren Aminosäure-Resten zufallsverteilt. Schließlich falten Zufallspeptide nicht in definierte 3D-Strukturen. Daraufhin mutierten die Proteindesigner mit jedem trRosetta-Durchlauf eine zufällig ausgewählte Aminosäure-Position, behielten die Substitution aber nur bei, wenn trRosetta der Peptidsequenz eine definiertere Struktur bescheinigte. Über tausende Durchläufe zeichneten sich in den ursprünglich verschwommenen 2D-Distanzmatrizen der Zufallssequenzen tatsächlich mehr und mehr Struktur­merkmale ab. Immer mehr Aminosäure-Reste rückten in räumliche Nähe. Nach bis zu 20.000 Durchläufen ähnelten die Distanz­matrizen denen von wohlgeordneten nativen Polypeptiden.

Editorial

Gut und schlecht

Hatte trRosetta natürliche Proteine halluziniert? Die Antwort ist nein. Die De-novo-Strukturen umfassten zwar 27 Topologien aller natürlichen Proteinklassen – von reinen α-helikalen über gemischte α-/β- bis hin zu reinen β-Strang-Proteinen – , ähnelten nativen Strukturen aber meist wenig. Einerseits ist das schlecht. Denn oft fehlten den De-novo-Proteinen flexible Abschnitte ohne Sekundär­struktur-Elemente – also jene konforma­tionelle Dynamik, die eine enzymatische Funktion erst ermöglicht. Andererseits ist das gut. Schließlich hat die natürliche Evolution nur einen kleinen Teil der Protein­landschaft erkundet. Medizinisch und biotechnologisch nützliche Funktio­nalitäten finden sich vielleicht gerade in „unnatürlichen“ Struktur­bereichen.

Entschlossen exprimierten die US-Proteindesigner deshalb 129 ihrer evolvierten Peptidsequenzen in E. coli. Unter ihnen lagen 27 Polypeptide laut Größen­ausschluss-Chromatographie monomer vor und zeigten laut Circular­dichroismus (CD)-Spektren die von trRosetta vorhergesagten Sekundär­strukturen. Für drei Proteine löste die Arbeitsgruppe daraufhin mittels Röntgen­kristallo­graphie und Kernspin­resonanz­spektroskopie (NMR) die 3D-Struktur. Tatsächlich spiegelten sie trRosettas halluzinierte Strukturmodelle wider. Der Machbarkeits­nachweis war erbracht: Invertierte Deep-Learning-Netzwerke, die ursprünglich auf die Vorhersage von Struktur aus Sequenz trainiert wurden, können der Natur unbekannte Proteine designen (Nature, 600(7889):547-552).

Simultane Optimierung

Doch falten sie Polypeptide nicht nur irgendwie, sondern erschaffen auch funktionale Konformationen – also etwa aktive Zentren von Enzymen oder Bindungsstellen für Effektor­moleküle? Zur Beantwortung dieser Frage rüstete Bakers Arbeitsgruppe auf. Sie ersetzten trRosetta, das nur die Orientierungen von und Distanzen zwischen Aminosäure-Resten berechnet, durch RoseTTAFold, das explizit die 3D-Koordinaten von Protein­strukturen modelliert. Zusätzlich brachte RoseTTAFold einen weiteren Vorteil mit sich: Während seines Trainings hatte es gelernt, nicht nur Strukturen vorherzusagen, sondern auch fehlende Sequenz­information zu ergänzen. Indem das Neuronennetz beides simultan optimierte, schaffte es Bakers Team, spezifische Strukturmotive stabil in Proteingerüsten zu halluzinieren: von Eisen-, Calcium- oder Zink-Bindungs­stellen über Fluchtmutanten unterbindende Analoga für den humanen ACE2-Rezeptor, den SARS-CoV-2 bekanntlich als Eintritts­pforte nutzt, bis hin zu spezifischen Immunogenen des respiratorischen Synzytial-Virus (RSV) (BioRxiv, DOI: 10.1101/2021. 11.10.468128). Bestätigung aus Nasslaboren, dass die Designer­proteine halten, was sie versprechen, stehen allerdings noch aus.

Was Bakers Arbeitsgruppe nicht davon abhielt, die Grenzen des Möglichen weiter auszuloten. Für ihren jüngsten Preprint halluzinierten sie Homo-Oligomere. Drei Viertel ihrer insgesamt 96 Designer-Homomere erwiesen sich als exprimierbar. Für ein Fünftel bestätigten CD-Spektren und Größen­ausschluss-Chromatographie gekoppelt an Mehrwinkel­lichtstreuung (SEC-MALS) die vorhergesagten Sekundär­struktur-Anteile sowie eine stabile Oligomerisierung aus zwei bis vier Polypeptidketten. Zur Überraschung der Proteindesigner sah keines von sieben röntgen­kristallo­graphisch aufgeklärten De-novo-Homomeren wie das andere aus. Ihre 3D-Strukturen reichten von α-/β-Homodimeren, die gemeinsam zu einem zentralen β-Faltblatt beitragen, bis hin zu komplett α-helikalen Tri- und Tetrameren, deren äußere α-Helices einen hydrophoben Kern innerer α-Helices umgeben. Vor allem ähnelten sie natürlichen Oligomeren nur geringfügig. Erneut regurgitierte das neuronale Netz also nicht nur Trainingsdaten, sondern designte neuartige Proteinkonfor­mationen.

Komplexe Träume

Woraufhin die Proteindesigner die Komplexität ihrer halluzinierten Polypeptide noch weiter erhöhte und ringförmige Homo-Oligomere aus bis zu 1.800 Aminosäure-Resten und 42 Untereinheiten kreierten. Drei der Riesenringe analysierten sie mittels Einzelpartikel-Kryoelektronen­mikroskopie: Alle wiesen Durchmesser zwischen 85 und 100 Ångström auf und verfügten über ein inneres kontinuierliches β-Faltblatt umgeben von äußeren α-Helices. Damit endete aber ihre Ähnlichkeit untereinander. Ein Ringoligomer aus 15 Untereinheiten (C15) bestand aus Homo-Pentameren, während sich seine C18- und C33-Vettern aus Homo-Hexameren beziehungsweise Homo-Trimeren zusammensetzten.

Aktuell sind Bakers Designerproteine damit die größten cyklischen Homo-Oligomere, die jemals erfolgreich am Reißbrett erschaffen werden konnten. Das größte natürliche und experimentell aufgeklärte Ringoligomer besteht mit einem Molekulargewicht von zehn Megadalton aus 39 Untereinheiten (Proc Jpn Acad Ser B Phys Biol Sci, 88(8):416-33). Bakers Arbeitsgruppe ist Mutter Natur also knapp auf den Fersen. Wo liegen wohl die Grenzen der Proteinvielfalt, die Deep-Learning-Netzwerke kreieren können? Und welche Funktionen könnten halluzinierte Proteine in Zukunft erfüllen – und welche nicht?

Henrik Müller

Wicky B. et al. (2022): Hallucinating protein assemblies. BioRxiv, DOI: 10.1101/2022.06.09.493773

Bild: Pixabay/CDD20 (Träumer) & Wang J. et al.


Weitere Artikel zur Proteinstrukturvorhersage und AlphaFold


- Im Kielwasser von AlphaFold

Die Zeiten, in denen Proteinstrukturen der Natur in mühsamer Handarbeit über Monate abgetrotzt werden mussten, sind dank der computerbasierten Proteinstrukturvorhersage vorüber. Endlich kann sich die Strukturbiologie auf Dynamik und Funktion von Proteinkomplexen fokussieren. Es gibt aber noch ein paar Abstriche.

- Excuse me, do you speak Protein?

Sprachbegabte neuronale Netze können dabei helfen, funktionale Aminosäureketten de novo zu generieren. Ein Anwendungsbeispiel aus Bayreuth.

- „DeepMind hat seinen Fokus auf die Verlässlichkeit der Vorhersage von Proteinstrukturen gelegt“

Martin Steinegger, Assistant Professor für Computational Biology an Seouls National University, erklärt, was AlphaFold2 in der Strukturbiologie revolutioniert und wie sich Strukturmodelle mit seiner Erweiterung ColabFold auch auf dem eigenen Laptop vorhersagen lassen.

 



Letzte Änderungen: 01.08.2022