Editorial

Ein tiefer Griff in die Trickkiste

(27.09.2021) Was kann das Proteinstruktur-Vorher­sage-Tool AlphaFold2, und was kann es nicht? Mitautor und Datenbanker Martin Stein­egger erklärt’s.
editorial_bild

Mit Primärsequenzen, multiplen Sequenz-Alignments (MSA) und 3D-Koordinaten verwandter Proteine verwendet AlphaFold2 nichts Neues. Was ist das Revolu­tionäre an der Heran­gehensweise von DeepMind?
Martin Steinegger: Neuartig ist sein Ende-zu-Ende-System. Vor AlphaFold2 untergliederte sich der Vorhersage­prozess in einzelne Abschnitte. Eine erste Software erstellte ein MSA, die nächste berechnete aus dem MSA eine koevolutionäre Distanzmatrix, die dritte schränkte mit dieser Information den Konforma­tionsraum des Proteins ein und so weiter. AlphaFold2 vereinigt all das in einem Schritt, wofür DeepMind weit in die Trickkiste maschinellen Lernens gegriffen hat.

Seine Neuartigkeit liegt also in bestimmten Mechanismen der Informations­weitergabe?
Steinegger: Genau. Neuronale Netze lernen, indem sie ihre finale Vorhersage – in diesem Fall ein Strukturmodell – mit einem vorgegebenen Ziel abgleichen – hier eine experimentell bestimmte Proteinstruktur. Dafür berechnen sie eine Verlustfunktion ihrer eigenen Ungenauigkeit. AlphaFold2 propagiert diese Verlustfunktion durch das gesamte neuronale Netzwerk, also vom MSA bis zum Strukturmodell, und optimiert anhand dessen seinen Vorhersage-Algorithmus. Am Ende lernt es also nicht nur, aus einem MSA 3D-Kontakte zu extrahieren, sondern, aus einem MSA 3D-Kontakte zu extrahieren, die zur Struktur­vorhersage taugen. Das macht den Unterschied.

Editorial

AlphaFold2 sagt zwar Strukturen, nicht aber deren Faltungsweg voraus. Kann es trotzdem zum Wie und Warum der Proteinfaltung beitragen?
Steinegger: Für diese Fragen sind neuronale Netze zurzeit nicht der beste Ansatz, weil wir zu wenig Trainingsdaten für Faltungswege haben. Das Gleiche gilt für Fragen zur Dynamik. Letztendlich gibt AlphaFold2 die fünf besten Strukturmodelle inklusive ihrer jeweiligen Verlässlichkeit aus. Tatsächlich unterscheiden sie sich manchmal so sehr, dass sie verschiedene Protein­zustände darstellen könnten. Als Ensemble, das die Dynamik eines Proteins widerspiegelt, oder Stufen eines Faltungswegs darf man sie aber nicht interpretieren.

Intrinsically disordered proteins (IDP) und unstrukturierte Domänen machen ein Drittel bis die Hälfte eukaryotischer Proteome aus. Wurde AlphaFold2 jemals mit ihnen trainiert?
Steinegger: Meines Wissens nicht. Auch hier verfügen wir nicht über genug Trainingsdaten, als das AlphaFold2 etwas lernen könnte. Außerdem nehmen unstrukturierte Bereiche ja intrinsisch jegliche Konformation an.

Wie haben Sie eigentlich zu AlphaFold2 beigetragen?
Steinegger: Für die herausfordernden Viren- und Phagen-Proteine der CASP-Wettbewerbe stellt die weltweit größte Protein­datenbank UniProt nur wenige Sequenzen für ein MSA zur Verfügung. Das DeepMind-Team brauchte deshalb eine metagenomische Datenbank, die die biologische Diversität besser abdeckt, da sie Millionen nicht annotierter Protein­sequenzen aus dem Boden, dem Meer, dem menschlichen Darm und so weiter enthält. Als mich DeepMind deshalb 2017 kontaktierte, hatte ich gerade 2,2 Milliarden Protein­sequenzen aus 640 Bodenproben und 775 marinen Metatran­skriptomen für meinen Protein-Level-ASSembler PLASS vereint, und sie fragten mich, ob ich diese Datenbank nicht für AlphaFold2 zugänglich machen wolle.

Das klingt allein wegen der schieren Anzahl an Proteinsequenzen anspruchsvoll …
Steinegger: Die Herausforderung bestand darin, alle Sequenzen so zu gruppieren, dass eine Suche möglichst schnell geht. Deshalb habe ich die 2,2 Milliarden Sequenzen als multiple Sequenz-Alignments (MSA) von 65 Millionen Proteinfamilien zusammengefasst, sodass eine Suchsequenz nicht mehr mit Milliarden, sondern nur mit einigen Millionen Datenbank-Einträgen verglichen werden braucht. Mein Beitrag zu AlphaFold2 beschränkte sich also hauptsächlich auf die Eingabedaten seines neuronalen Netzwerks in Form meiner Big Fantastic Database (BFD).

Das Gespräch führte Henrik Müller

Lesen Sie das komplette Interview mit Martin Steinegger in der nächsten Ausgabe von Laborjournal. Dort geht es auch um ColabFold, einer AlphaFold2-Erweiterung, mit der sich Strukturmodelle auch auf dem eigenen Laptop vorhersagen lassen.

Bild: Karen Arnott/EMBL-EBI & M. Steinegger


Weitere Artikel zur Bioinformatik


- Engpass Bioinformatik: Warum die Genom-Analyse im Kampf gegen Pandemien essenziell ist (Essay von Franziska Hufsky, Jena)

Angesichts von SARS-CoV-2 erlebt die Viren-Bioinformatik einen Riesenboom. Fieberhaft entwickeln Bioinformatiker neue Tools und Programme für die Sequenzanalyse und phylogenetische Überwachung des Virus. Auch bei zukünftigen Pandemien wird die Genomanalyse darüber entscheiden, wie schnell und effektiv Virologen, Epidemiologen, Gesundheitsämter und Politiker auf die Bedrohung durch ein gefährliches Virus reagieren können.

- Kollegiale Rechenhilfe

Use your power – und zwar die eines Computers. Mit „Distributed Computing“ lässt sich ganz einfach zum Beispiel die RNA-Forschung vorantreiben.

- Die Programmiersprache des Gehirns

Forscher modellieren komplexe Denkprozesse im Gehirn und versuchen so nicht nur kognitiven Fähigkeiten auf die Spur zu kommen, sondern auch Rechenparadigmen für eine neue Generation von Computern zu entwickeln.

 





Letzte Änderungen: 24.09.2021