Unsere Cookies

zählen (Anonyme/pseudonyme Klickzahlen helfen uns bei Vermarktung und Verbesserung der Webseite)
sorgen für Sicherheit (Spamfilter bei Formularen)
ermöglichen die Stichwortsuche

kein Tracking
keine Weitergabe Ihrer personalisierten Daten
Ihre Daten bleiben anonym/pseudonym

Sie können die Cookies-Settings selbst verwalten. Wenn Sie auf 'Annehmen' klicken oder diese Seite neu laden, stimmen Sie den Cookies zu.

Ablehnen / Anpassen Annehmen

Start
Wissen
Methoden & mehr
Stellen
Meinung
Termine
Spaß
Archiv
Service
- Suche
- Kontakt
- Impressum
- Abo
- Shop
- f+r internet agentur
Mediadaten

Ein tiefer Griff in die Trickkiste

(27.09.2021) Was kann das Proteinstruktur-Vorhersage-Tool AlphaFold2, und was kann es nicht? Mitautor und Datenbanker Martin Steinegger erklärt’s.

Welche Pipettiertechnik passt am besten zur Anwendung?

Luftpolsterpipette oder Mehrfachdispenser – mit den Systemen von BRAND treffen Sie die richtige Wahl mehr

Mit Primärsequenzen, multiplen Sequenz-Alignments (MSA) und 3D-Koordinaten verwandter Proteine verwendet AlphaFold2 nichts Neues. Was ist das Revolutionäre an der Herangehensweise von DeepMind?
Martin Steinegger: Neuartig ist sein Ende-zu-Ende-System. Vor AlphaFold2 untergliederte sich der Vorhersageprozess in einzelne Abschnitte. Eine erste Software erstellte ein MSA, die nächste berechnete aus dem MSA eine koevolutionäre Distanzmatrix, die dritte schränkte mit dieser Information den Konformationsraum des Proteins ein und so weiter. AlphaFold2 vereinigt all das in einem Schritt, wofür DeepMind weit in die Trickkiste maschinellen Lernens gegriffen hat.

Seine Neuartigkeit liegt also in bestimmten Mechanismen der Informationsweitergabe?
Steinegger: Genau. Neuronale Netze lernen, indem sie ihre finale Vorhersage – in diesem Fall ein Strukturmodell – mit einem vorgegebenen Ziel abgleichen – hier eine experimentell bestimmte Proteinstruktur. Dafür berechnen sie eine Verlustfunktion ihrer eigenen Ungenauigkeit. AlphaFold2 propagiert diese Verlustfunktion durch das gesamte neuronale Netzwerk, also vom MSA bis zum Strukturmodell, und optimiert anhand dessen seinen Vorhersage-Algorithmus. Am Ende lernt es also nicht nur, aus einem MSA 3D-Kontakte zu extrahieren, sondern, aus einem MSA 3D-Kontakte zu extrahieren, die zur Strukturvorhersage taugen. Das macht den Unterschied.

Q2 EVOLVE epromo von INTEGRA

Gewinnen Sie ein limitiertes, individuell bedrucktes EVOLVE-Starterpaket mit manuellen Pipetten von INTEGRA mehr

AlphaFold2 sagt zwar Strukturen, nicht aber deren Faltungsweg voraus. Kann es trotzdem zum Wie und Warum der Proteinfaltung beitragen?
Steinegger: Für diese Fragen sind neuronale Netze zurzeit nicht der beste Ansatz, weil wir zu wenig Trainingsdaten für Faltungswege haben. Das Gleiche gilt für Fragen zur Dynamik. Letztendlich gibt AlphaFold2 die fünf besten Strukturmodelle inklusive ihrer jeweiligen Verlässlichkeit aus. Tatsächlich unterscheiden sie sich manchmal so sehr, dass sie verschiedene Proteinzustände darstellen könnten. Als Ensemble, das die Dynamik eines Proteins widerspiegelt, oder Stufen eines Faltungswegs darf man sie aber nicht interpretieren.

Intrinsically disordered proteins (IDP) und unstrukturierte Domänen machen ein Drittel bis die Hälfte eukaryotischer Proteome aus. Wurde AlphaFold2 jemals mit ihnen trainiert?
Steinegger: Meines Wissens nicht. Auch hier verfügen wir nicht über genug Trainingsdaten, als das AlphaFold2 etwas lernen könnte. Außerdem nehmen unstrukturierte Bereiche ja intrinsisch jegliche Konformation an.

Wie haben Sie eigentlich zu AlphaFold2 beigetragen?
Steinegger: Für die herausfordernden Viren- und Phagen-Proteine der CASP-Wettbewerbe stellt die weltweit größte Proteindatenbank UniProt nur wenige Sequenzen für ein MSA zur Verfügung. Das DeepMind-Team brauchte deshalb eine metagenomische Datenbank, die die biologische Diversität besser abdeckt, da sie Millionen nicht annotierter Proteinsequenzen aus dem Boden, dem Meer, dem menschlichen Darm und so weiter enthält. Als mich DeepMind deshalb 2017 kontaktierte, hatte ich gerade 2,2 Milliarden Proteinsequenzen aus 640 Bodenproben und 775 marinen Metatranskriptomen für meinen Protein-Level-ASSembler PLASS vereint, und sie fragten mich, ob ich diese Datenbank nicht für AlphaFold2 zugänglich machen wolle.

Das klingt allein wegen der schieren Anzahl an Proteinsequenzen anspruchsvoll …
Steinegger: Die Herausforderung bestand darin, alle Sequenzen so zu gruppieren, dass eine Suche möglichst schnell geht. Deshalb habe ich die 2,2 Milliarden Sequenzen als multiple Sequenz-Alignments (MSA) von 65 Millionen Proteinfamilien zusammengefasst, sodass eine Suchsequenz nicht mehr mit Milliarden, sondern nur mit einigen Millionen Datenbank-Einträgen verglichen werden braucht. Mein Beitrag zu AlphaFold2 beschränkte sich also hauptsächlich auf die Eingabedaten seines neuronalen Netzwerks in Form meiner Big Fantastic Database (BFD).

Das Gespräch führte Henrik Müller

Lesen Sie das komplette Interview mit Martin Steinegger in der nächsten Ausgabe von Laborjournal. Dort geht es auch um ColabFold, einer AlphaFold2-Erweiterung, mit der sich Strukturmodelle auch auf dem eigenen Laptop vorhersagen lassen.

Bild: Karen Arnott/EMBL-EBI & M. Steinegger

Unsere Cookies

Ein tiefer Griff in die Trickkiste

Welche Pipettiertechnik passt am besten zur Anwendung?

Q2 EVOLVE epromo von INTEGRA

Weitere Artikel zur Bioinformatik

Newsletter abonnieren