Excuse me,
do you speak Protein?
(11.04.2022) Sprachbegabte neuronale Netze können dabei helfen, funktionale Aminosäureketten de novo zu generieren. Ein Anwendungsbeispiel aus Bayreuth.
„Wir möchten ‚Protein‘ sprechen“, erklärt Birte Höcker, Leiterin der Fachgruppe für Proteindesign an der Universität Bayreuth, kurz und knapp ihr Forschungsziel. Auf den ersten Blick klingt das nach akademischer Spielerei. Tatsächlich verrät dieser unscheinbare Satz aber die Grundidee, um vielleicht endlich zu verstehen, wie Proteine falten und welchen Faltungswegen sie warum folgen – und wie sich dieses Wissen zum rationalen Design neuer Enzymfunktionen einsetzen lässt.
Was haben Proteinkonformationen mit Sprache zu tun? Genau wie Buchstaben Wörter formen, aus denen Sätze entstehen, die eine Aussage transportieren, verbinden sich Aminosäurereste zu Sekundärstrukturelementen, aus denen Proteindomänen entstehen, die eine Funktion ausüben. Konzeptionell macht es wenig Unterschied, ob ein Text auf einem phonetischen oder chemischen Alphabet beruht. Ideen aus der Prozessierung natürlicher Sprache lassen sich folglich auf die Strukturanalyse biologischer Makromoleküle anwenden.
Vorbild Sprachverarbeitung
Aus zwei Gründen erschien dieses Konzept bislang als abwegig. Zum einen erachteten Bioinformatiker und Strukturbiologinnen wissensbasierte Energiefunktionen und heuristische Optimierungsalgorithmen als den erfolgversprechendsten Weg zur Ab-initio-Vorhersage von Proteinstrukturen. Den Traum, Proteinfunktionen zu designen, erfüllten sie jedoch nicht. Zum anderen hatten sich maschinelle Lernalgorithmen in der Bildverarbeitung, bei selbstfahrenden Fahrzeugen und in der Sprachprozessierung noch nicht als Goldstandard und Vorbild etabliert. Vor allem sagten Deep-Learning-Netzwerke wie AlphaFold2 und RoseTTAFold Proteinstrukturen noch nicht mit einer Genauigkeit innerhalb der Fehlertoleranz experimenteller Methoden vorher und läuteten damit eine Zeitenwende in der Strukturbiologie ein. Details verrät das Bioinformatik-Special im demnächst erscheinenden Laborjournal-Heft 4/2022.
Als Konsequenz dieser Revolution rückt ein Zwischenziel von Proteindesignern in greifbare Nähe: Polypeptidketten mit 3D-Strukturen zu erzeugen, die von natürlichen Proteinen nicht unterscheidbar sind. Was daran noch immer eine Herausforderung ist, fasst Höcker zusammen: „Mit konventionellen Methoden der molekularen Modellierung können wir idealisierte Proteinstrukturen mit stabilen α-Helices und β-Strängen erzeugen. Im Vergleich zu natürlichen Proteinen fehlen ihnen aber oft Loop-Bereiche, flexible Bindungstaschen und die Möglichkeit, unterschiedliche Zustände einzunehmen – eben jene konformationelle Dynamik, die für enzymatische Funktionen nötig ist.“ Oder anders ausgedrückt: Wer natürliche Sätze auf ‚Protein‘ sagen will, muss erstmal ‚Protein‘ sprechen.
Was neuronale Netze lernen müssen
Um die Sprache der Proteine zu erlernen, trainierte Noelia Ferruz, Postdoktorandin in Höckers Arbeitsgruppe, eine spezielle Unterart neuronaler Netzwerke, sogenannte Generative Pre-Trained Transformers (GPT) (arXiv, DOI: 10.48550/arXiv.2201.07338). Was macht sie besonders? Als Weiterentwicklung rekurrenter neuronaler Netzwerke verfügen Transformer über einen Aufmerksamkeitsmechanismus, mit dem sie korrelierende Informationseinheiten – seien es Wortbezüge in Sätzen oder räumlich benachbarte Aminosäurereste in Proteinen – stärker zu gewichten lernen. Außerdem können sie autoregressiv trainiert werden, lernen es also, zufällig ausgewählte Informationslücken kontextabhängig zu füllen. Beides ist wesentlich, um semantisch und syntaktisch korrekt zu sprechen beziehungsweise native Proteinsequenzen zu erschaffen. Aus Software zur Erkennung, Übersetzung und Erzeugung natürlicher Sprache – also von Chat-Bots über Google Translate bis hin zu Amazon Alexa und Apple Siri – sind Transformer nicht mehr wegzudenken.
Über ihre Leistungsfähigkeit entscheiden natürlich nicht zuletzt der Umfang ihres Netzwerks und ihre Trainingsdaten. Für ProtGPT2, wie Ferruz ihren Transformer aus 738 Millionen Netzwerkknoten in 36 Netzwerkschichten taufte, verwendete die Bayreuther Maschinensprachlerin 50 Millionen Sequenzen der weltweit größten Protein-Datenbank UniProt. Zum Vergleich: Der derzeit größte Transformer zur Sprachprozessierung – Microsofts Megatron-Turing Natural Language Generation Model – verfügt über 530 Milliarden Neuronen in 105 Netzwerkschichten und wurde mit 270 Milliarden Worteinheiten trainiert. Das zentrale Nervensystem von Homo sapiens mit seinen 86 Milliarden Neuronen erscheint beinahe mickrig.
Praxistest: Was taugen Transformer in der Proteinwelt?
Wie gut funktioniert ProtGPT2 nun, wenn es sich Proteine ausdenken soll? Insgesamt gleichen 93 Prozent seiner vorhergesagten Polypeptidketten in vielerlei Hinsicht natürlichen Proteinsequenzen (bioRxiv, DOI: 10.1101/2022.03.09.483666). ProtGPT2s Sequenzvorschläge enthalten nur 3,5 Prozentpunkte mehr α-Helices und 2,2 beziehungsweise 1,3 Prozentpunkte weniger β-Stränge und ungeordnete Regionen. Das neuronale Netzwerk wendet also an, was es aus dem UniProt-Datensatz gelernt hat.
Zum Design funktionaler Proteine reicht es natürlich nicht, nur die Sequenzebene zu betrachten. Synthetische Polypeptide müssen auch in stabile 3D-Strukturen falten. Also sagten Höcker und Ferruz mithilfe von AlphaFold2 (colabfold.mmseqs.com) Strukturmodelle für 10.000 zufällig ausgewählte ProtGPT2-Sequenzen voraus. Im Durchschnitt bescheinigte AF2 den synthetischen Polypeptiden 3D-Konformationen mit pLDDT-Gütewerten von durchschnittlich 60 – also stabil gefaltete Proteinrückgrate. Einem Drittel prognostizierte es sogar pLDDT-Gütewerte von mindestens 70. ProtGPT2 kann sich also globuläre Proteindomänen ausdenken.
Die vielleicht spannendste Frage kommt jetzt: Inwiefern decken ProtGPT2s Sequenzen bekannte Proteinfamilien ab? Zur Beantwortung griffen Ferruz und Höcker auf Fuzzle zurück (fuzzle.uni-bayreuth.de), eine von ihnen vor zwei Jahren geschaffene Datenbank, die die evolutionäre Verwandtschaft aller bekannten Proteinstrukturen – immerhin 28.000 Domänen – anhand der Sequenzhomologie und strukturellen Ähnlichkeit ihrer Peptidfragmente in einem interaktiven 2D-Netzwerk darstellt (J Mol Biol, 432(13):3898-914). Fuzzles Proteinraum enthält sowohl verbundene Bereiche verwandter Proteindomänen als auch Insel-ähnliche Regionen strukturell abgrenzbarer Proteine. Tatsächlich generierte ProtGPT2 Vertreter aller natürlichen Proteinklassen – von reinen α-helikalen und β-Strang-Proteinen über gemischte α-/β-Proteine bis hin zu Membran- und Multidomain-Proteinen. Zusätzlich verband es Inseln im Proteinraum durch neuartige Topologien. ProtGPT2 rekapitulierte also nicht nur Gelerntes, sondern kreierte auch der Natur unbekannte Strukturmotive.
Die Zukunft des Proteindesigns?
Zukunftsweisend ist das laut Höcker aus folgendem Grund: „ProtGPT2s Proteinstrukturen sehen teilweise anders aus als bisherige, de novo generierte Proteine mit ihrer starren Sekundär- und Tertiärstruktur und wenigen ungeordneten Bereichen. ProtGPTs Vorschläge enthalten lange Loops und flexible Regionen – also die konformationelle Grundlage für Polypeptide, um mit Liganden und anderen Makromolekülen zu interagieren oder eine enzymatische Funktion auszuüben.“ Wer ProtGPT2 ausprobieren möchte – sei es, um Proteinsequenzen zu erzeugen oder das Repertoire natürlicher Aminosäureketten in Richtung bestimmter 3D-Strukturen oder Funktionen zu evolvieren –, findet den fertigen Transformer hier: huggingface.co/nferruz/ProtGPT2.
Während Noelia Ferruz demnächst ihre eigene Arbeitsgruppe starten wird, freut sich Birte Höcker gegenwärtig über einen auf sechs Jahre ausgelegten ERC Synergy Grant, um sich selbstständig fortbewegende Proteinmotoren zu bauen. Von einem sind jedoch beide überzeugt: Sprachbegabte Transformer stellen die Zukunft des Proteindesigns dar – spätestens dann, wenn sie mit experimentellen Daten zur Dynamik und Kinetik von Proteinen gefüttert werden können.
Henrik Müller
Bild: Ferruz et al. & privat
Weitere Artikel zu AlphaFold und Strukturanalyse
- Aminosäuresequenz rein, Proteinstruktur raus
Die 3D-Struktur eines Proteins aus seiner Aminosäuresequenz vorherzusagen, ist der Heilige Gral der Strukturbiologie. Der Konformationsraum von Polypeptiden ist riesig und das rechnergestützte Durchsuchen aller sterischen Möglichkeiten zu aufwendig. Das Struktur-Vorhersageprogramm AlphaFold2 könnte den Gral gefunden haben.
- „DeepMind hat seinen Fokus auf die Verlässlichkeit der Vorhersage von Proteinstrukturen gelegt.“
Martin Steinegger erklärt, was AlphaFold2 in der Strukturbiologie revolutioniert und wie sich Strukturmodelle mit seiner Erweiterung ColabFold auch auf dem eigenen Laptop vorhersagen lassen.
- Mehr als nur die Summe
Die Funktion biologischer Makromoleküle hängt von ihrer Struktur ab. Nur wer diese kennt, weiß, was sich in Proteinkomplexen, molekularen Maschinen oder Ribosomen abspielt. Mit Röntgenstrukturanalyse, NMR und Cryo-Elektronenmikroskopie versuchen Biowissenschaftler, die Strukturen aufzulösen.