Editorial

Excuse me,
do you speak Protein?

(11.04.2022) Sprachbegabte neuronale Netze können dabei helfen, funktionale Aminosäureketten de novo zu generieren. Ein Anwendungsbeispiel aus Bayreuth.
editorial_bild

„Wir möchten ‚Protein‘ sprechen“, erklärt Birte Höcker, Leiterin der Fachgruppe für Proteindesign an der Universität Bayreuth, kurz und knapp ihr Forschungsziel. Auf den ersten Blick klingt das nach akademischer Spielerei. Tatsächlich verrät dieser unscheinbare Satz aber die Grundidee, um vielleicht endlich zu verstehen, wie Proteine falten und welchen Faltungs­wegen sie warum folgen – und wie sich dieses Wissen zum rationalen Design neuer Enzym­funktionen einsetzen lässt.

Was haben Protein­konformationen mit Sprache zu tun? Genau wie Buchstaben Wörter formen, aus denen Sätze entstehen, die eine Aussage transportieren, verbinden sich Aminosäure­reste zu Sekundär­struktur­elementen, aus denen Protein­domänen entstehen, die eine Funktion ausüben. Konzeptionell macht es wenig Unterschied, ob ein Text auf einem phonetischen oder chemischen Alphabet beruht. Ideen aus der Prozessierung natürlicher Sprache lassen sich folglich auf die Struktur­analyse biologischer Makromoleküle anwenden.

Editorial

Vorbild Sprachverarbeitung

Aus zwei Gründen erschien dieses Konzept bislang als abwegig. Zum einen erachteten Bioinformatiker und Struktur­biologinnen wissensbasierte Energie­funktionen und heuristische Optimierungs­algorithmen als den erfolgver­sprechendsten Weg zur Ab-initio-Vorhersage von Protein­strukturen. Den Traum, Protein­funktionen zu designen, erfüllten sie jedoch nicht. Zum anderen hatten sich maschinelle Lernalgo­rithmen in der Bildverarbeitung, bei selbst­fahrenden Fahrzeugen und in der Sprach­prozessierung noch nicht als Goldstandard und Vorbild etabliert. Vor allem sagten Deep-Learning-Netzwerke wie AlphaFold2 und RoseTTAFold Protein­strukturen noch nicht mit einer Genauigkeit innerhalb der Fehlertoleranz experimenteller Methoden vorher und läuteten damit eine Zeitenwende in der Struktur­biologie ein. Details verrät das Bioinformatik-Special im demnächst erscheinenden Laborjournal-Heft 4/2022.

Als Konsequenz dieser Revolution rückt ein Zwischenziel von Protein­designern in greifbare Nähe: Polypeptid­ketten mit 3D-Strukturen zu erzeugen, die von natürlichen Proteinen nicht unterscheidbar sind. Was daran noch immer eine Herausforderung ist, fasst Höcker zusammen: „Mit konven­tionellen Methoden der molekularen Modellierung können wir idealisierte Protein­strukturen mit stabilen α-Helices und β-Strängen erzeugen. Im Vergleich zu natürlichen Proteinen fehlen ihnen aber oft Loop-Bereiche, flexible Bindungs­taschen und die Möglichkeit, unterschiedliche Zustände einzunehmen – eben jene konfor­mationelle Dynamik, die für enzymatische Funktionen nötig ist.“ Oder anders ausgedrückt: Wer natürliche Sätze auf ‚Protein‘ sagen will, muss erstmal ‚Protein‘ sprechen.

Was neuronale Netze lernen müssen

Um die Sprache der Proteine zu erlernen, trainierte Noelia Ferruz, Postdok­torandin in Höckers Arbeitsgruppe, eine spezielle Unterart neuronaler Netzwerke, sogenannte Generative Pre-Trained Transformers (GPT) (arXiv, DOI: 10.48550/arXiv.2201.07338). Was macht sie besonders? Als Weiter­entwicklung rekurrenter neuronaler Netzwerke verfügen Transformer über einen Aufmerksamkeits­mechanismus, mit dem sie korrelierende Informations­einheiten – seien es Wortbezüge in Sätzen oder räumlich benachbarte Aminosäure­reste in Proteinen – stärker zu gewichten lernen. Außerdem können sie autoregressiv trainiert werden, lernen es also, zufällig ausgewählte Informations­lücken kontextabhängig zu füllen. Beides ist wesentlich, um semantisch und syntaktisch korrekt zu sprechen beziehungsweise native Protein­sequenzen zu erschaffen. Aus Software zur Erkennung, Übersetzung und Erzeugung natürlicher Sprache – also von Chat-Bots über Google Translate bis hin zu Amazon Alexa und Apple Siri – sind Transformer nicht mehr wegzudenken.

Über ihre Leistungs­fähigkeit entscheiden natürlich nicht zuletzt der Umfang ihres Netzwerks und ihre Trainingsdaten. Für ProtGPT2, wie Ferruz ihren Transformer aus 738 Millionen Netzwerk­knoten in 36 Netzwerk­schichten taufte, verwendete die Bayreuther Maschinen­sprachlerin 50 Millionen Sequenzen der weltweit größten Protein-Datenbank UniProt. Zum Vergleich: Der derzeit größte Transformer zur Sprach­prozessierung – Microsofts Megatron-Turing Natural Language Generation Model – verfügt über 530 Milliarden Neuronen in 105 Netzwerk­schichten und wurde mit 270 Milliarden Worteinheiten trainiert. Das zentrale Nervensystem von Homo sapiens mit seinen 86 Milliarden Neuronen erscheint beinahe mickrig.

Praxistest: Was taugen Transformer in der Proteinwelt?

Wie gut funktioniert ProtGPT2 nun, wenn es sich Proteine ausdenken soll? Insgesamt gleichen 93 Prozent seiner vorhergesagten Polypeptid­ketten in vielerlei Hinsicht natürlichen Protein­sequenzen (bioRxiv, DOI: 10.1101/2022.03.09.483666). ProtGPT2s Sequenz­vorschläge enthalten nur 3,5 Prozentpunkte mehr α-Helices und 2,2 beziehungsweise 1,3 Prozentpunkte weniger β-Stränge und ungeordnete Regionen. Das neuronale Netzwerk wendet also an, was es aus dem UniProt-Datensatz gelernt hat.

Zum Design funktionaler Proteine reicht es natürlich nicht, nur die Sequenzebene zu betrachten. Synthetische Polypeptide müssen auch in stabile 3D-Strukturen falten. Also sagten Höcker und Ferruz mithilfe von AlphaFold2 (colabfold.mmseqs.com) Struktur­modelle für 10.000 zufällig ausgewählte ProtGPT2-Sequenzen voraus. Im Durchschnitt bescheinigte AF2 den synthetischen Polypeptiden 3D-Konformationen mit pLDDT-Gütewerten von durchschnittlich 60 – also stabil gefaltete Protein­rückgrate. Einem Drittel prognostizierte es sogar pLDDT-Gütewerte von mindestens 70. ProtGPT2 kann sich also globuläre Proteindomänen ausdenken.

Die vielleicht spannendste Frage kommt jetzt: Inwiefern decken ProtGPT2s Sequenzen bekannte Protein­familien ab? Zur Beantwortung griffen Ferruz und Höcker auf Fuzzle zurück (fuzzle.uni-bayreuth.de), eine von ihnen vor zwei Jahren geschaffene Datenbank, die die evolutionäre Verwandtschaft aller bekannten Protein­strukturen – immerhin 28.000 Domänen – anhand der Sequenz­homologie und strukturellen Ähnlichkeit ihrer Peptid­fragmente in einem interaktiven 2D-Netzwerk darstellt (J Mol Biol, 432(13):3898-914). Fuzzles Proteinraum enthält sowohl verbundene Bereiche verwandter Protein­domänen als auch Insel-ähnliche Regionen strukturell abgrenzbarer Proteine. Tatsächlich generierte ProtGPT2 Vertreter aller natürlichen Proteinklassen – von reinen α-helikalen und β-Strang-Proteinen über gemischte α-/β-Proteine bis hin zu Membran- und Multidomain-Proteinen. Zusätzlich verband es Inseln im Proteinraum durch neuartige Topologien. ProtGPT2 rekapitulierte also nicht nur Gelerntes, sondern kreierte auch der Natur unbekannte Strukturmotive.

Die Zukunft des Proteindesigns?

Zukunftsweisend ist das laut Höcker aus folgendem Grund: „ProtGPT2s Protein­strukturen sehen teilweise anders aus als bisherige, de novo generierte Proteine mit ihrer starren Sekundär- und Tertiär­struktur und wenigen ungeordneten Bereichen. ProtGPTs Vorschläge enthalten lange Loops und flexible Regionen – also die konfor­mationelle Grundlage für Polypeptide, um mit Liganden und anderen Makromolekülen zu interagieren oder eine enzymatische Funktion auszuüben.“ Wer ProtGPT2 ausprobieren möchte – sei es, um Protein­sequenzen zu erzeugen oder das Repertoire natürlicher Aminosäure­ketten in Richtung bestimmter 3D-Strukturen oder Funktionen zu evolvieren –, findet den fertigen Transformer hier: huggingface.co/nferruz/ProtGPT2.

Während Noelia Ferruz demnächst ihre eigene Arbeitsgruppe starten wird, freut sich Birte Höcker gegenwärtig über einen auf sechs Jahre ausgelegten ERC Synergy Grant, um sich selbstständig fortbewegende Protein­motoren zu bauen. Von einem sind jedoch beide überzeugt: Sprachbegabte Transformer stellen die Zukunft des Proteindesigns dar – spätestens dann, wenn sie mit experimentellen Daten zur Dynamik und Kinetik von Proteinen gefüttert werden können.

Henrik Müller

Bild: Ferruz et al. & privat


Weitere Artikel zu AlphaFold und Strukturanalyse


- Aminosäuresequenz rein, Proteinstruktur raus

Die 3D-Struktur eines Proteins aus seiner Aminosäure­sequenz vorherzusagen, ist der Heilige Gral der Strukturbiologie. Der Konforma­tionsraum von Polypeptiden ist riesig und das rechner­gestützte Durchsuchen aller sterischen Möglichkeiten zu aufwendig. Das Struktur-Vorhersage­programm AlphaFold2 könnte den Gral gefunden haben.

- „DeepMind hat seinen Fokus auf die Verlässlichkeit der Vorhersage von Proteinstrukturen gelegt.“

Martin Steinegger erklärt, was AlphaFold2 in der Strukturbiologie revolutioniert und wie sich Struktur­modelle mit seiner Erweiterung ColabFold auch auf dem eigenen Laptop vorhersagen lassen.

- Mehr als nur die Summe

Die Funktion biologischer Makromoleküle hängt von ihrer Struktur ab. Nur wer diese kennt, weiß, was sich in Protein­komplexen, molekularen Maschinen oder Ribosomen abspielt. Mit Röntgen­strukturanalyse, NMR und Cryo-Elektronen­mikroskopie versuchen Biowissenschaftler, die Strukturen aufzulösen.

 




Letzte Änderungen: 11.04.2022