Editorial

„Wir brauchen mehr
Trainingsdaten“

(06.09.2023) David Baker gilt als einer der Pioniere des Proteindesigns. Wir sprachen mit ihm über Rosetta und Deep-Learning-Methoden wie RFdiffusion.
editorial_bild

Ein im Juli erschienenes Science-Editorial erklärte RFdiffusion (Nature, 620:1089-199) im Vergleich zu Design­programmen, die nicht auf maschinellen Lern­algorithmen basieren, für einhundertmal erfolgreicher darin, neuartige Proteine zu finden, die eng an Zielstrukturen binden. Wie beurteilen Sie seine Erfolgsrate?
David Baker: Das hängt stark vom Zielprotein ab. Mit einer Physik-basierten Methode wie Rosetta, die nicht auf Deep Learning beruht, können wir durchaus neuartige Proteine entwerfen, die wunderschöne Kristall- und EM-Strukturen liefern. Aber wir müssen dazu eine große Anzahl an Proteindesigns testen. Und es gibt immer wieder Zielproteine, für die wir mit bisherigen Methoden keine Inter­aktions­partner herstellen können. Mit RFdiffusion und ProteinMPNN brauchen wir zehn- bis hundertmal weniger Proteindesigns testen, um selbst für schwierige Zielstrukturen erfolgreich zu sein.

Was macht beide Programme so erfolgreich?
Baker: Rosetta baut erst ein Proteingerüst auf, das es dann im zweiten Schritt an eine Zielstruktur andockt, um im dritten Schritt die Grenzfläche umzugestalten und eine funktionierende Bindungs­stelle einzuführen. RFdiffusion baut das Protein hingegen von Anfang an in Gegenwart der Zielstruktur auf. Dadurch wird die 3D-Struktur des Proteins viel komplementärer zu seinem Ziel und enthält oft auch größere Bindungsflächen.

Editorial

Der Erfolg von RFdiffusion beruht also nicht auf technischem Fortschritt, sondern auf den zugrunde liegenden Ideen?
Baker: Auf einer Kombination von beiden. Ebenso entscheidend war es, den Designprozess auf Deep-Learning-Methoden umzustellen. Rosettas Physik-basiertes Grundkonzept bestand darin, Proteinmodelle mithilfe einer Energiefunktion, die es zu minimieren sucht, in ihren niedrigsten Energiezustand zu falten. Im Fall eines Bindeproteins versucht es also, ein Protein zu entwerfen, das gebunden an sein Zielprotein eine möglichst niedrige Energie aufweist. Um diese zu berechnen, kalkuliert Rosetta die verschiedenen Arten von Wechselwirkungen wie Wasserstoff­brückenbindungen und van-der-Waals-Kräfte. Dafür sind empirische Modelle notwendig, die die Realität der Proteinfaltung bisher aber nicht komplett beschreiben können. Beim Deep-Learning-basierten Ansatz gibt es all das nicht mehr. Er basiert darauf, dass neuronale Netzwerke inzwischen recht gut darin sind, Sequenzen auf Strukturen abzubilden. Deep-Learning-Methoden finden also Sequenzen, für die sie eine starke Bindung an eine Zielstruktur vorhersagen – wofür vielfältige technische Fortschritte im Design neuronaler Netze notwendig waren.

Haben Physik-basierte Ansätze in Zukunft noch eine Daseinsberechtigung?
Baker: Ich denke schon. Noch immer sind sie wichtig für Fälle, in denen es nicht genug Daten gibt, um ein tiefes neuronales Netzwerk zu trainieren.

Sobald mehr experimentelle Daten vorliegen, sind sie also überflüssig?
Baker: Auch das glaube ich nicht. Es wird immer Forschungs­aspekte geben, für die man nicht an ausreichend Daten herankommt – insbesondere wenn man sich für zugrunde liegende Mechanismen interessiert. Trotz aller Vorteile von Deep-Learning-Methoden verbessern sie unser Verständnis der Proteinfaltung gegenwärtig nur bedingt. Deshalb haben wir uns sehr bemüht, sie mit Physik-basierten Modellen wie Rosetta zu verschmelzen. Bisher ist es uns aber nicht gelungen, die Leistung unserer neuronalen Netze so zu steigern. Wo wir energie­basierte Methoden wie Rosetta aber noch immer verwenden, ist zur Bewertung von Proteindesigns. Um Deep-Learning-Methoden zu ergänzen, bleiben Physik-basierte Methoden also weiterhin nützlich.

Worin sehen Sie gegenwärtig die größten Herausforderungen für Deep-Learning-Methoden?
Baker: Ganz klar in der Beschaffung ausreichender Trainings­datensätze. Die Protein­struktur­datenbank (PDB) verfügt über genügend Daten für die Vorhersage von Proteinstrukturen und das Proteindesign. Aber wer zum Beispiel modellieren möchte, wie Liganden an Proteine binden, stößt nur auf einen sehr begrenzten Datensatz – einfach weil es so viele verschiedene Arten von chemischen Liganden gibt. Die größte Herausforderung für Deep-Learning-Methoden liegt derzeit also nicht so sehr in der Methodik, sondern in der Frage: wie an ausreichend Trainingsdaten herankommen? Die PDB ist das Ergebnis der Arbeit von zehntausenden von Wissenschaftlern im Laufe von 30 bis 40 Jahren. Enorme Ressourcen sind in diese einzigartige Datenbank geflossen. Nur dank ihrer reichhaltigen Trainingsdaten sind Deep-Learning-Methoden für Proteine so leistungsfähig.

Um die Bindung von Liganden zu modellieren, sind Datensätze zu konfor­mationellen Ensembles von Proteinen und ihrer Dynamik notwendig. Solche Informationen stehen aus Nasslaboren aber nur vereinzelt zur Verfügung – was sich in naher Zukunft nicht ändern wird. Welchen Beitrag könnten Trockenlabore hier leisten?
Baker: Ganz genau. Experimentelle Methoden, um Konfor­mations­ensembles im Hochdurchsatz zu erzeugen, gibt es nicht. Deshalb versuchen wir und andere, sie mithilfe von Deep-Learning-Methoden zu generieren. Das bringt allerdings eine Reihe von Herausforderungen mit sich: Zum einen ist es mangels Trainingsdaten wie erwähnt schwierig, solche Modelle überhaupt zu trainieren. Zum anderen ist es noch viel schwieriger, sie zu bewerten. Denn es existieren ja nur wenige experimentelle Daten als Vergleichs­standard. Die Katze beißt sich also ein wenig in den Schwanz.
Nichtsdestotrotz lassen sich alternative Konformationen eines Proteins durchaus ausprobieren. Beispielsweise zeigt des RAS-Protein – eine GTPase mit wichtiger Kontrollfunktion bei der zellulären Signal­transduktion – in verschiedenen Kristall­strukturen unterschiedliche, bisher kryptische Bindungstaschen. Für derartige Fälle arbeiten wir an einem Deep-Learning-basierten Auswahlverfahren, das die Bandbreite der Konformationen in solchen statischen Kristallstrukturen abbildet. Natürlich ist das nicht wirklich dasselbe wie ein tatsächliches Konfor­mations­ensemble. Aber es ist ein Anfang und aus praktischer Sicht nützlich.

Wann wird es möglich sein, so etwas wie intrinsisch ungeordnete Proteine (IDP) zu entwerfen?
Baker: Das bleibt vorerst extrem schwierig. Klar ist es einfach, etwas herzustellen, das nicht geordnet ist. Die Herausforderung besteht aber weiterhin darin, einem IDP auch eine bestimmte Funktion zu verleihen. Große Fortschritte wurden hingegen für das umgekehrte Problem erzielt, also Proteine zu entwickeln, die bestimmte Regionen von IDPs mit hoher Affinität und Genauigkeit binden. Dem sind wir schon ziemlich nahe.

Wo erwarten uns in den nächsten Jahren die größten Fortschritte?
Baker: Allgemeine Proteindesign-Probleme wie der routinemäßige Entwurf von Antikörpern am Computer sehen sehr vielversprechend aus. Das Gleiche gilt für de novo designte Impfstoffe zum Beispiel für Grippe – wie sie unter anderem mein Kollege Neil King hier an der University of Washington mithilfe von Deep-Learning-Methoden entwickelt. Für den Entwurf molekularer Maschinen und Motoren wie etwa Licht­sammel­systeme und Katalysatoren brauchen wir hingegen wahrscheinlich mehr Daten. Das bedeutet aber auch, dass ich hier die größten Revolutionen erwarte. Darüber hinaus arbeiten wir intensiv an intelligenten Therapeutika, die erst an der richtigen Stelle im Körper aktiv werden, sowie Zytokin-Agonisten, die die Zell­differen­zierung in eine gewünschte Richtung lenken.

Im Moment existiert eine Vielzahl an Herangehensweisen und Methoden zum Proteindesign. Welche Software – abgesehen von RFdiffusion und ProteinMPNN – empfehlen Sie?
Baker: Das hängt ganz davon ab, was Sie erreichen wollen. Für Proteindesign erachte ich die Kombination der beiden von Ihnen genannten Programme tatsächlich momentan als Stand der Technik. Zur Struktur­vorhersage steht dagegen eine Reihe von Alternativen zur Verfügung, die – abgesehen von RoseTTAFold – auf die eine oder andere Art und Weise auf die Architektur von AlphaFold zurückgreifen. Aber auch hier sollten Sie unterschiedliche Methoden kombinieren und wechselseitig validieren.

Henrik Müller

Bild: Ian C. Haydon/UW Institute for Protein Design (Hintergrund) & Baker Lab

Im demnächst erscheinenden September-Heft von Laborjournal steht das Proteindesign im Mittelpunkt eines mehrseitigen Specials. Unter anderem geht es darin um Computer-assistiertes Proteindesign und die gerichtete Evolution von Proteinen.



Letzte Änderungen: 05.09.2023