Editorial

Vielversprechende Allianz

Sophie Winter, Laborjournal 04/2024


(24.04.2024) Der Wirbel um maschinelle Lernalgorithmen, respektive künstliche Intelligenz (KI), hat längst auch die Strukturbiologie erreicht. Nicht nur die Vorhersage von Proteinstrukturen, auch klassische experimentelle Methoden zur Strukturbestimmung von Makromolekülen, wie die Kryo-Elektronenmikroskopie, profitieren von der Datenauswertung mit KI.

Neben Röntgenkristallographie und Kernspintomographie ist die Kryo-Elektronenmikroskopie (Kryo-EM) eine der Hauptmethoden für die Strukturbestimmung von Proteinen und Proteinkomplexen. Die „Auflösungsrevolution“ bei Elektronendetektortechnologie und Bildverarbeitungsverfahren verlieh der Kryo-EM in den vergangenen Jahren einen gehörigen Schub. Forschende konnten mit ihr nicht nur die Position einzelner Atome, sondern sogar die Dichte der Wasserstoffe in Proteinen sichtbar machen (Nature 587: 152-56; Nature 587: 157-61).

Kombiniert mit künstlicher Intelligenz (KI) könnte man aus der Kryo-EM aber noch weit mehr herausholen, meint die Strukturbiologin Andrea Thorn – vor allem mit Blick auf die Fortschritte bei der KI-basierten Vorhersage von Proteinstrukturen. An der Universität Hamburg tüftelt Thorns Gruppe an maschinellen Lernalgorithmen für Kristallographie, Kryo-EM und integrative Strukturlösung.

Kryo-EM mit Proteinstruktur
Illustr.: Veronica Falconieri

Editorial

„Die Kryo-EM ist im Prinzip parallel zur Kristallographie entwickelt worden. Die Problemstellungen entsprechen sich daher häufig“, sagt Thorn. Die Rekonstruktionskarten der Kryo-EM sehen den Elektronendichten der Kristallographie manchmal so ähnlich, dass Forschende sie zum Teil mit denselben Programmen analysieren – etwa mit dem eigentlich für die Kristallographie entwickelten Tool Coot (Struct. Biol. 66: 486-01). Auch maschinelle Lernalgorithmen für die Datenprozessierung und -auswertung folgen laut Thorn oft diesem Dualismus: „Es gibt kaum einen Entwickler in der Kristallographie, der nicht auch Kryo-EM in gewissem Grad versteht und umgekehrt.“

KI nur mit Helferaufgaben

Forschende nutzen unterschiedliche Programme, um die verschiedenen Prozesse bei der Kryo-EM zu automatisieren – von der Datenaufnahme über mehrere Bildbearbeitungsschritte bis hin zur 3D-Rekonstruktion und Modellbildung. Bisher, so Thorn, verwenden sie maschinelle Lernalgorithmen aber hauptsächlich, um repetitive Arbeit zu ersetzen und visuelle Überprüfungen zu vereinfachen.

In der Einpartikel-Kryo-EM gilt das zum Beispiel für die Markierung der Partikel auf Mikrographen. Um eine Proteinstruktur zu lösen, sind Aufnahmen von vielen Tausenden Molekülen nötig. Mikroskopiker und Mikroskopikerinnen erhalten diese, indem sie aufgereinigte Proteine auf EM-Grids auftragen und von diesen mit dem Elektronenmikroskop zweidimensionale, hochaufgelöste Bilder aufnehmen. Die Mikrographen enthalten jeweils Hunderte Proteine, die Forschende als Partikel zunächst mühsam auswählen müssen, um dann mit entsprechenden Programmen deren dreidimensionale Struktur zu rekonstruieren. Statt die Partikel per Hand selbst anzuklicken, versuchen sie diese Aufgabe an maschinelle Lernalgorithmen zu delegieren.

„Algorithmen des maschinellen Lernens zeichnen sich dadurch aus, dass sie in riesigen Datenmengen Muster und Merkmale finden sowie Vorhersagen und Entscheidungen über neue Daten ähnlicher Art treffen können“, beschreibt Thorn den Vorteil von Algorithmen in einem Review über die Rolle von KI in der Strukturbiologie (Curr. Opin. Struct. Biol. 74: 102368).

Andrea Thorn
Mit KI lässt sich das Potenzial der Kryo-EM deutlich steigern, ist Andrea Thorn sicher, die sich an der Universität Hamburg maschinelle Lernprogramme ausdenkt, die Kryo-EM-Daten interpretieren sollen. Foto: Universität Hamburg

Algorithmen erleichtern aber nicht nur zeitaufwendige Arbeiten wie das Auswählen der Partikel auf Mikrographen. Thorns Gruppe hat zum Beispiel das auf neuronalen Netzen beruhende Tool HARUSPEX entwickelt, das sowohl Sekundärstrukturen von Proteinen als auch Nukleinsäuren in Rekonstruktionsmappen identifizieren kann (Angew. Chem. Int. Ed. 59: 14788-95). HARUSPEX ist als Teil der CCP-EM-Software frei verfügbar – CCP-EM ist das Kryo-EM-Äquivalent des unter Kristallographen weit verbreiteten Softwarepakets zur Strukturbestimmung CCP4. „Vor allem wenn man nicht rekombinant exprimiert hat und deswegen nicht genau weiß, was für ein Proteinkomplex vorliegt, hilft unsere Methode, die Rekonstruktionsdichte zu annotieren und dann zu entscheiden: Ist das RNA oder DNA? Ist dieser Abschnitt alpha-helical? Sind das Beta-Faltblätter, oder sind die Strukturen etwas ganz anderes?“, erklärt Thorn.

Darüber hinaus ermöglichen auf maschinellem Lernen basierende Programme völlig neue Methoden der Strukturanalyse, die zum ersten Mal auch die Bewegung von Proteinkomplexen berücksichtigen. Mit dem Software-Paket CryoDRGN ist es zum Beispiel möglich, die Verteilung von heterogenen Proteinstrukturen aus Kryo-EM-Bildern zu rekonstruieren (Nat. Methods 18: 176-85).

Maschinelle Algorithmen lernen aus riesigen Datensätzen sowie aus bereits bekannten Strukturen, EM-Daten zu lesen. Sie verstärken die zum Teil schwachen Signale biologischer Moleküle und erleichtern Forschenden die Interpretation der Daten. Zudem erkennen sie auch das Hintergrundrauschen auf EM-Bildern und minimieren es, um die Proteinsignale stärker hervorzuheben. EM-Bilder sind im Gegensatz zu den oft grell leuchtenden Aufnahmen der Fluoreszenzmikroskopie grau auf grau, wodurch verschiedene Strukturen schlecht zu erkennen sind. Reduziert die KI das Hintergrundrauschen, hilft das sowohl dem Betrachter als auch Computer-basierten Analysetechniken, die auf eine klare Abgrenzung von Probe und Hintergrund (Signal und Rauschen) angewiesen sind.

Besonders wichtig ist das in der Kryo-Elektronentomographie (Kryo-ET), dem Pendant zur Einpartikel-Kryo-EM. Anders als bei Letzterer geht es bei der Kryo-ET nicht primär darum, detaillierte Strukturen von Proteinen zu lösen. Im Fokus steht vielmehr der biologische Kontext der zu untersuchenden Proteine: Von welchen anderen Makromolekülen sind sie umgeben? Wie verteilen sie sich in der Zelle? Sind Membranen in der Nähe, die eine Rolle bei der Lokalisation oder Funktion spielen könnten?

Anstelle von aufgereinigten Proteinen oder Proteinkomplexen untersuchen Forschende mit der Kryo-ET vollständige Viren, kleine Bakterien oder Schnitte von Zellen, die für Elektronenstrahlen klein genug sind, um sie durchdringen zu können. Das Ergebnis sind dreidimensionale Schnappschüsse der Proben oder sogenannte Tomogramme.

Da biologische Zellen hunderte Kopien von Proteinen und Proteinkomplexen, Nukleinsäuren und manchmal ganze Organellen enthalten, besteht die Kunst darin, in den verschiedenen überlagerten Grautönen überhaupt etwas zu erkennen. Die unzähligen Moleküle in der Probe verursachen einen geringen Kontrast und ein schlechtes Signal-zu-Rausch-Verhältnis. Forschende müssen die Daten daher für die weiteren Analysen aufbereiten.

Kryo-ET und Visualisierung durch KI
Spezialisten können zwar problemlos zelluläre Strukturen, wie Membranen oder Ribosomen, in Kryo-Elektronentomogrammen (li.) erkennen. Sie brauchen dafür aber sehr viel Zeit. Das KI-basierte Programm DeePiCt „sieht“ die Strukturen auf den ersten Blick und visualisiert sie. Aktinfasern sind rot dargestellt, Ribosomen grün, Mikrotubuli cyan und Membranen lila. Illustr.: Joana Gomes Campos de Carvalho/EMBL

Sinnvolle Daten aus Graustufen

„Wie können wir aus diesen dreidimensionalen Matrixdarstellungen von Graustufen Daten extrahieren, die biologischen Sinn ergeben?“, formuliert die Strukturbiologin Julia Mahamid das Problem. Sie arbeitet mit ihrer Forschungsgruppe am Europäischen Laboratorium für Molekularbiologie (EMBL) in Heidelberg an der Schnittstelle zwischen hochauflösenden Strukturen und der komplexen Architektur von Zellen.

In einem Vortrag im Rahmen der Konferenz „AI in biology“, die vom 12. bis 15. März am EMBL in Heidelberg stattfand, kommentierte sie, wie KI die Kryo-ET beeinflusst. „Das Problem beginnt mit den Rohdaten“, sagt Mahamid. „Mithilfe maschineller Lernalgorithmen können wir das Signal-zu-Rausch-Verhältnis in Daten verbessern, bevor wir sie visuell auswerten und als Strukturbiologen interpretieren und erforschen.“

Julia Mahamid
Julia Mahamids Gruppe programmiert am Europäischen Laboratorium für Molekularbiologie (EMBL) in Heidelberg Algorithmen, die die mausgrauen und schwer zu interpretierbaren Kryo-EM-Tomogramme in farbige und gut deutbare Bilder verwandeln. Foto: EMBL
KI wählt Partikel aus

Ihr Team entwickelte dazu zusammen mit den Arbeitsgruppen von Judith Zaugg und Anna Kreshuk, ebenfalls am EMBL, den Algorithmus DeePiCt, der die überwachte Segmentierung von Makromolekülen in Tomogrammen sowie deren Lokalisierung ermöglicht (Nat. Methods 20: 284-94). Ähnlich wie in der Einpartikel-Kryo-EM geht es auch hier um das automatisierte Auswählen von Partikeln sowie das Klassifizieren in verschiedene Kategorien, zum Beispiel „Membran“, „Ribosom“ oder „unbekannter Proteinkomplex“. DeePiCt ist wie das Tool DeepFinder ein überwachter Lernalgorithmus, der Forschende dabei unterstützt, dreidimensionale Tomogramme von Zellen zu annotieren (Nat. Methods 18: 1386-94).

„Für meine Daten verwende ich normalerweise eine Kombination aus verschiedenen Programmen“, sagt Mahamids Postdoktorand Rasmus Jensen. „Bei anderen Makromolekülen als Ribosomen gehe ich die Daten am Ende nochmal manuell zur Korrektur durch. Das kostet zwar Zeit, ist aber viel schneller, als alle Partikel manuell auszuwählen. Oft ist das auch gar nicht möglich – man sieht sie einfach nicht.“

Gemittelte Subtomogramme

Nachdem die Tomogramme annotiert sind, liefern sie laut Jensen viele verschiedene Informationen, etwa die Koordinaten von Proteinkomplexen. Aus Letzteren erstellt er kleine, dreidimensionale Ausschnitte beziehungsweise Subtomogramme, die nur den zu untersuchenden Proteinkomplex beinhalten, und mittelt sie für die Strukturbestimmung. Um mit diesem sogenannten Subtomogram Averaging eine gut aufgelöste Struktur zu erhalten, sind ähnlich wie bei der Einpartikel-Kryo-EM mehrere Tausend Subtomogramme nötig.

Auch das Subtomogram Averaging wird mittlerweile durch KI unterstützt, etwa bei der sogenannten Blush-Regularisierung (bioRxiv doi.org/mn7s). Diese von Sjores Scheres‘ Team am MRC Laboratory of Molecular Biology in Cambridge, UK, entwickelte Methode nutzt Deep-Learning-Algorithmen und entrauschende neuronale Netze für die Mittelung von Einzelpartikeln und Subtomogrammen.

Die unterschiedlichen Strukturen in annotierten Tomogrammen kann man zudem auch farblich hervorheben. Damit erhält man nicht nur hübsche Bilder, sondern auch die Möglichkeit, die Lokalisation der Makromoleküle, ihre Orientierung in der Probe sowie ihre Positionen zueinander zu analysieren.

Maschinelle Lernalgorithmen vereinfachen diese Prozesse und sind unverzichtbar, wenn man wie Jensen nicht nur ein einziges, sondern Hunderte Tomogramme für die Datenanalyse benötigt. Gerade in der Kryo-EM, in der mittlerweile viele Daten in kurzer Zeit generiert werden können, ist die Datenprozessierung und -interpretation das eigentliche Nadelöhr – KI-unterstützte Programme könnten es beseitigen und den Durchsatz erhöhen.

KI-basierte Methoden für die Analyse von Kryo-EM-Daten stecken aber noch in den Kinderschuhen. Eines der drängendsten Probleme ist das lästige Training der Algorithmen mit Daten, die Forschende zuvor mühsam per Hand annotieren müssen. Um diese „Handarbeit“ weiter zu reduzieren, entwickelt Zauggs Doktorandin Frosina Stojanovska einen nicht-überwachten Lernalgorithmus, der ohne manuelle Korrektur oder Eingabe funktionieren soll.

„Das zugrunde liegende Prinzip bezeichnet die Informatik als Selbstlernen, in anderen Forschungsfeldern wird es schon länger eingesetzt. Als ich die Kryo-ET-Daten sah, war ich inspiriert und sah das Potenzial der KI für Analysetechniken, die noch niemand zuvor ausprobiert hat“, sagt Stojanovska.

In ihrer Zukunftsvision der KI-unterstützten-Kryo-ET können Forschende die Tomogramme komplett automatisch annotieren und in diese 3D-Modelle aller bekannten Makromoleküle einbauen. „Ich will keinerlei manuelle Eingabe – ich bin niemand, der vor einem Computer sitzt und stundenlang Partikel auswählt,“ sagt sie.

Das bedeutet, der Experimentator oder die Experimentatorin würden die Kryo-EM-Proben vorbereiten und die Tomogramme mit einem Elektronenmikroskop aufnehmen, das eventuell auch schon durch KI automatisiert ist. Datenprozessierung, Auswahl der Partikel, Segmentierung und Visualisierung würden danach die KI und der Computer völlig selbstständig übernehmen.

Zeit fürs Wesentliche

Für Kryo-ET-Nutzer und -nutzerinnen ist das natürlich ein verlockendes Szenario. Sie könnten sich voll und ganz auf biologische Fragestellungen fokussieren und müssten nicht mehr viele Stunden am Computer mit Bildbearbeitung und Prozessierung verbringen. Noch ist nicht klar, wie lange es dauert, bis diese Vorstellung Realität wird. Aber schon heute ist KI aus der Kryo-EM nicht mehr wegzudenken: Sie hilft den Forschenden Strukturdaten effektiver zu analysieren, sie neu zu interpretieren und damit letztlich mithilfe der Daten auch neue Hypothesen aufzustellen.