Info

Bioinformatik: Muster im Transkriptom

Mario Rembold, Laborjournal 04/2022


Info

(12.04.2022) Eine große Herausforderung für die Bioinformatik waren zuletzt die Daten aus Einzelzell-Analysen. Inzwischen gibt es Algorithmen, um aus Transkriptomen Entwicklungs-Trajektorien rekonstruieren und Signalnetzwerke modellieren zu können.

Speicherplatz wird immer günstiger, der Austausch großer Datenmengen immer einfacher. Algorithmen, die sich durch die Datenflut wühlen, um darin Muster zu finden, begleiten inzwischen unseren Alltag. In Biologie und Medizin kommt hinzu, dass auch die Preise fürs Sequenzieren in den vergangenen Jahren immer weiter sanken. Ein paar hundert Euro kostet heute ein mehr oder weniger vollständiges menschliches Genom.

Hier kommt die Bioinformatik ins Spiel. Denn ein modernes Verfahren zum Next Generation Sequencing (NGS) mag einen Großteil der DNA erfassen, allerdings nur in Form unzähliger Sequenzschnipsel, die jeweils nur wenige hundert Basenpaare lang sind. Dieses Puzzle zusammenzusetzen, ist keineswegs trivial. Denken wir zum Beispiel an die vielen Repeats im Genom. Zum Glück gibt es inzwischen eine Menge Referenzmaterial in den Datenbanken. Und weil man nicht mehr nur ein Genom, sondern gleich hunderte oder tausende untersuchte, tauchten mehr und mehr Assoziationen zwischen Krankheitsrisiken und bestimmten Allelen auf. Wer vor zehn Jahren an Bioinformatik dachte, dachte daher wohl vor allem an Projekte rund um die Humangenomik.

bild
Illustr.: Juliet Merz

Info

Natürlich kann man statt der genomischen Information auch die mRNA sequenzieren, wenn man diese in einem vorgeschalteten Schritt in cDNA umschreibt. Selbstverständlich braucht auch die Transkriptomik gute Software, damit aus den gesammelten Daten Ergebnisse werden. Dann sieht die Entwicklungsbiologin, in welchem Stadium welche Gene exprimiert sind, oder wie sich einzelne differenzierte Gewebe in ihren Transkripten unterscheiden. Gerade in Sachen mRNA-Analytik geht der Trend in den vergangenen zehn Jahren immer mehr in Richtung Einzelzell-Transkriptomik (siehe auch Methoden-Special in LJ 03/22 - Link).

RNA aus Einzelzellen

„Wir machen nicht mehr nur Mittelwerte wie in den Bulk Genomics, sondern erfassen die Variationen innerhalb eines Gewebes, aus dem die RNA extrahiert ist“, erklärt Fabian Theis, Leiter des Computational Health Centers am Helmholtz-Zentrum München sowie Ordinarius für Biomathematik an der Technischen Universität München. Mit „Bulk Genomics“ sind Analysen gemeint, für die die Nukleinsäuren aus einer großen Anzahl von Zellen stammen, weil man komplette Gewebe oder Organe verwendet. Dabei seien oft hunderttausende Zellen im selben Ansatz erfasst und somit Subtypen von Zellen übersehen worden, blickt Theis zurück. „Inzwischen können wir relativ kostengünstig einzelne Zellen isolieren. Ich sehe heute fast keine Gründe mehr, noch Bulk-Experimente durchzuführen.“ Denn aus den gesammelten Daten einen Mittelwert über viele Zellen zu bilden, bleibt natürlich immer noch möglich.

Info

Auch wenn es unterschiedliche Tricks rund um die Einzelzell-Transkriptomik gibt, so beruhen alle Verfahren auf einem Grundprinzip: Jeder einzelnen Zelle ist ein individueller Barcode zugeordnet. Diese „Nummer“ wird als Basenfolge jeder cDNA-Version eines Transkripts angehängt. Anschließend kann man die gesamte cDNA sequenzieren und die einzelne Sequenz später über den Barcode wieder der einen Zelle zuordnen.

Wie man zuvor an die einzelne Zelle kommt, hängt von der Fragestellung ab. Besonders effizient sind für die Einzelzell-Analytik adaptierte Zellsortierer, die jede Einzelzelle gleich an einen Bead mit Barcode-markierten Primern binden. Wer auch die räumliche Information erfassen will, wird sein Gewebe vielleicht lieber auf einen Chip kleben, der mit ortspezifischen Primern versehen ist.

Im Vergleich zur Bulk-Transkriptomik stellen die Einzelzell-Verfahren andere Anforderungen an die Bioinformatik. „Die Daten sind sehr heterogen und komplex“, erklärt Theis, „und deshalb haben wir hier bei uns ganz viel zur Datenauswertung grundlegend neu aufgebaut.“ Anstatt den etwas eingestaubten Begriff der Bioinformatik zu verwenden, spricht Theis lieber von Computational Biology – diese Bezeichnung sei heute einfach weiter verbreitet.

Selbst benachbarte Zellen können sich in ihrer Expression stark voneinander unterscheiden. Weil sich Ausreißer aber nicht mehr wie in einem Bulk herausmitteln, kann man für die einzelne Zelle nur schwer entscheiden, ob ein Transkriptionsprofil nun wirklich den natürlichen Zustand repräsentiert, oder ob zum Beispiel ein ohnehin nur schwach exprimiertes Gen rein zufällig nicht erfasst ist. „Transkriptionsfaktoren sind oft ganz niedrig exprimiert“, nennt Theis ein Beispiel. Und er bestätigt, dass man für eine einzelne Zelle keine sicheren Aussagen zu allen Transkripten treffen kann. „Vielleicht bekommen Sie 20.000 Reads pro Zelle, weil man gar nicht die Möglichkeit hat, jede einzelne Zelle erschöpfend zu sequenzieren“, so Theis. Aber dieser Aufwand sei auch gar nicht sinnvoll. „In vielen Simulationen ist gezeigt worden, dass es häufig nichts bringt, noch tiefer in eine Zelle reinzuschauen.“

Auch wenn man am Ende jedes erfasste Transkript einer bestimmten Zelle zuordnen kann: „Eine einzelne Zelle interessiert mich eigentlich gar nicht“, betont der Münchner Forscher. „Mich interessiert: Wo sind die Gruppen dieser Zellen? Welche Signaturen zeichnen einen solchen Zelltyp oder einen Subtypen aus?“ Folglich wird man also über ein niedrig exprimiertes Gen in einem seltenen Zelltyp nur dann eine Aussage treffen können, wenn man das Experiment reproduziert und viele dieser Zellen zusammenbekommt. „Dadurch, dass die Verfahren mittlerweile einen so hohen Durchsatz haben, dass man zehn- bis hunderttausende Zellen auf einmal erfasst, macht man am Ende immer eine Statistik über viele Zellen.“

Wie erkennt man nun solche Zellpopulationen in den Daten? Jede mRNA ist ja in einer bestimmten Kopienzahl vorhanden. Auch wenn man aus den Sequenzdaten nicht auf die exakte Kopienzahl rückschließen kann, so ergibt sich dennoch ein Wert zu jedem erfassten Transkript, der zumindest mit der Stärke der Genexpression korreliert. Dem ersten Gen könnte man nun die Achse eines Koordinatensystems zuordnen; und jede Zelle bekommt für diese Achse einen Wert zugeteilt – je nachdem, wie viele Kopien der Sequenz im Datensatz stecken. Bei drei Genen hätte man ein dreidimensionales Koordinatensystem. Jede Zelle bekäme dann einen Punkt in diesem Raum zugeordnet, der von der Expression dieser drei Gene abhängt.

Tausende Dimensionen

Tatsächlich kommen für ein menschliches Genom um die 20.000 Gene in Frage, und selbst wenn man nur einen Teil davon messen will, hätte dieses Koordinatensystem viele tausend Achsen. Trotzdem kann man diese Daten visualisieren, weil es computergestützte Verfahren zur Dimensionsreduktion gibt. Man erhält dann einen Plot in einem zwei- oder dreidimensionalen Koordinatensystem, in dem jeder Punkt für eine Zelle steht. Und diese Zellen gruppieren sich dann in Wolken, wobei jede dieser Wolken eine eigene Population repräsentiert. „Sie dürfen jetzt aber nicht einfach einen Kreis darum zeichnen und glauben, Sie sehen einen Zelltyp“, mahnt Theis an dieser Stelle. Tatsächlich bleibt die visuelle Darstellung ja eine Vereinfachung für das menschliche Auge. Solche Plots kennt man auch aus Daten von Zellsortierern, in denen die einzelnen Dimensionen dann für Parameter wie Zellgröße, Granularität oder auch die eingesetzten Fluoreszenzfarben stehen.

Info

Ein Computer kann aber auch Abstände in mehr als nur drei Dimensionen vermessen und nach kürzesten Verbindungen suchen. Auf diese Weise lassen sich nicht nur Zelltypen erfassen, sondern auch eine zeitliche Dynamik, zum Beispiel während Stammzellen in einem Gewebe differenzieren. „Eigentlich würden wir dafür am liebsten einen Film aufnehmen“, erklärt Theis. „Aber das geht natürlich nicht, weil die Zellen ja zerstört werden, wenn man die RNA extrahiert. Wir haben lediglich einen Schnappschuss.“ Trotzdem sei diese Momentaufnahme auch für die zeitliche Dynamik aussagekräftig. Denn nicht alle Zellen sind synchron im gleichen Zellzyklus-Stadium, und sie durchlaufen die Differenzierung auch nicht im Gleichschritt. „Es wird immer Zellen geben, die schon ein bisschen weiter oder noch recht früh in der Entwicklung sind“, fährt Theis fort.

Nun kann man einerseits nach diesen Wolken suchen, in denen sich gleiche Zelltypen gruppieren – und ein Algorithmus ist in der Lage, hierfür auch mehrere tausend Dimensionen zu berücksichtigen. „Weiterhin sieht man dann, dass es auch Punkte zwischen diesen Zelltypen gibt“, erklärt Theis. Dabei, so veranschaulicht er, könne die eine Wolke eine Stammzelle sein, wobei dann eine Linie aus Punkten die Differenzierung zu einem Zelltyp „downstream“ repräsentiert – bis hin zur nächsten Wolke. Es kann auch mehrere Zielcluster geben, auf die dann von einer Stammzelle Punkte zulaufen, nämlich wenn aus einer Stammzelle unterschiedliche Zelltypen ausdifferenzieren, wie zum Beispiel während der Hämatopoese.

„Man kann sich also Machine-Learning-Verfahren überlegen, die nicht nur diese Gruppen finden, sondern auch die Verbindungen dazwischen“, resümiert Theis und spricht von sogenannten „Diffusion Maps“. Die Verbindungen zwischen den Clustern repräsentieren dabei eine zeitliche Richtung. „Das ist eine Sache, für die unser Labor bekannt ist: Solche Trajektorien abzuschätzen.“ Eine aktuelle Software hierzu stellte die Gruppe um Theis zusammen mit dem Labor von Dana Pe’er aus New York erst kürzlich in Nature Methods vor (19(2): 159-70): CellRank heißt das Toolkit, das quelloffen zum freien Download verfügbar ist und initiale, intermediäre und fertig differenzierte Zellpopulationen erkennt und visualisiert (cellrank.org).

Die Verbindungen zwischen den Populationen findet CellRank durch zufälliges Hin- und Herspringen. „Das sind Random Walks oder Markov Walks, wie in einem See mit Steinen, auf denen Sie das Wasser überqueren“, stellt Theis das Prinzip bildlich dar und erklärt, dass Populationen, die nah genug beieinander liegen, daraufhin durch Linien verbunden werden. „Der Algorithmus versucht, zusammenhängende Regionen zu finden, sodass er dabei möglichst wenige Linien zerschneidet.“ Und innerhalb solcher Regionen verlaufen Entwicklungspfade zwischen Zellpopulationen.

Referenzdaten im Fokus

Damit nicht jede Forschungsgruppe bei Null anfangen muss, arbeitet Theis daran, Referenzdatensätze zu erstellen und Tools zu basteln, um verschiedene Einzelzell-Transkriptome aufeinander zu matchen. Hier habe die Omics-Community den Vorteil, dass Gene und Proteine weitestgehend einheitlich benannt sind und sich eine standardisierte Nomenklatur etabliert hat. Vergangenes Jahr stellten Theis und Kollegen eine Methode vor, um Einzelzell-Daten auf einen Referenzdatensatz zu matchen – mit Informationen aus Gehirn, Bauchspeicheldrüse, Immunsystem und einem Gesamtorganismus-Atlas. Diese Referenz nennt sich Single-Cell Architectural Surgery (scArches), und die Autoren haben sogar Transkriptom-Variationen berücksichtigt, die spezifisch für SARS-CoV-2-Infektionen sind, um krankheitsspezifische Zellzustände besser erkennen zu können (Nat. Biotechnol. 40(1): 121-30). Theis nennt als großes Ziel der Community den vollständigen Human Cell Atlas.

Um den Überblick zu behalten über die bioinformatischen Methoden zur Einzelzell-Transkriptomik, pflegt das Theis-Team eine Übersicht bislang publizierter Tools unter der Website scrna-tools.org. „Das hat Luke Zappia auf die Beine gestellt, ein Postdoc von mir“, so Theis. Im vergangenen Jahr waren mehr als eintausend Tools in diesem Verzeichnis gelistet, was Zappia und Theis motivierte, aktuelle Trends der Entwickler genauer unter die Lupe zu nehmen (Genome Biol. 22(1): 301). Demnach stehen derzeit die Datenintegration und das Erstellen von Referenzdatensätzen im Fokus der Szene.

Kein oben und unten mehr

Ebenfalls der Einzelzell-Analytik bedient sich Nils Blüthgen in Berlin am Integrativen Forschungsinstitut (IRI) für Lebenswissenschaften der Humboldt-Universität sowie am Institut für Pathologie der Charité. „Wir möchten regulatorische Netzwerke und Signaltransduktionsnetzwerke verstehen“, umreißt er die Motivation seiner Gruppe.

Das Lehrbuchbeispiel für eine Signalkaskade beginnt an der Zellmembran, in der ein Rezeptor steckt. Bindet außen ein Ligand, so ist der Rezeptor aktiviert, innerhalb der Zelle wird die Information wie ein Staffelstab von einem Protein zum nächsten gereicht, landet schließlich im Zellkern und schaltet dort ein Gen ein oder aus. Natürlich gibt es auch Darstellungen zu Signalwegen innerhalb der Zelle oder aus der Zelle heraus. Doch immer läuft die Information wie an einer Kette entlang. Unterbricht man diese Kette mit einem Inhibitor, stoppt das Signal. Das könnte etwa ein therapeutischer Antikörper auf der Membran sein, um Tumorzellen lahmzulegen.

Doch die Lehrbuchdarstellung ist eine Vereinfachung der echten Biologie, stellt Blüthgen klar. „Wir haben dieses Konzept im Kopf, dass ein Signal von oben nach unten geleitet wird. Doch sobald dort irgendwo eine Rückkopplung stattfindet, gibt es kein oben und unten mehr!“ Das könne es schwer machen, einen Pathway über molekularbiologische Verfahren zu entschlüsseln. Die Biochemie in der echten Zelle wirkt nämlich permanent auf sich selbst zurück; anstatt linearer Kaskaden hat man es mit einem Netzwerk zu tun, voller Querverbindungen und Loops. Ist die eine Straße verstopft, findet die Zelle Ausweichrouten. Und umgekehrt kann sie bei zu viel Verkehr gewissermaßen die Ampeln auf Rot stellen.

So ist bei der Krebstherapie das Phänomen der Resistenz lange bekannt: Ein Medikament, das zunächst erfolgversprechend schien, wirkt auf einmal nicht mehr. Nicht immer verändert die Tumorzelle dabei ihr Erbgut, sondern es gibt auch eine phänotypische Plastizität bei gleichem Genotyp. Wie solche Signalnetze funktionieren und auf Einflüsse reagieren, das erforscht Blüthgens Gruppe an Zelllinien und Organoiden. Das Grundprinzip der Forscher: Die Zellen gezielt stören – wer die Abstracts der Berliner überfliegt, stößt immer wieder auf das Schlagwort „Perturbation“. „Im Prinzip ist das wie in der klassischen Genetik, wo man Knock-outs macht“, so Blüthgen.

Durch Transkriptom-Analysen oder Proteinmessungen schauen sich Blüthgen und Co. dann an, was eine Perturbation, etwa durch einen Inhibitor, in einzelnen Zellen verändert. Wann und wo gehen einzelne Transkripte rauf oder runter?

„Im ersten Schritt bekommen wir einen Datensatz“, beschreibt Blüthgen das typische Vorgehen, „und dazu macht man dann ein mathematisches Modell und überprüft, wie gut das Modell diese Daten erklärt.“ Anstatt einfach blind Wirkstoffe zu screenen, möchte Blüthgen auf diese Weise Vorhersagen treffen, wo im Signalweg ein guter therapeutischer Angriffspunkt sein könnte. Dabei können solche Modelle auch Erklärungen liefern, warum eine Substanz doch nicht die gewünschte Wirkung entfalten kann.

Bei der Resistenz während einer Krebstherapie kristallisiere sich ein grundlegendes Prinzip heraus, berichtet Blüthgen. „Konzeptionell hat man weit unten in diesen Signalwegen oft eine Kinase; und die kontrolliert den Rezeptor oder Rezeptor-nahe Proteine weiter oben negativ. Falls Sie einen solchen Signalweg nun stark blocken, dann verlieren Sie diese negative Regulation und die Rezeptoren werden stark aktiviert und somit supersensibel.“ So können dann auch parallele Signalwege aktiviert werden, und das Signal nimmt gewissermaßen eine Umleitung und wird unter Umständen noch stärker als vor der Gabe des Wirkstoffs.

Eigentlich sei das ein sinnvoller Mechanismus, über den die Zelle ihre Homöostase sicherstellt. Bei einer Therapie gegen eine krankhaft veränderte Zelle bedeutet das aber: Ein einfaches Blockieren im Signalweg reicht manchmal nicht aus. Eine Lösung könnte sein, mit einem weiteren Medikament auch den Rezeptor zu bremsen, selbst wenn dieser auf den ersten Blick gar nicht das Problem ist – in unserem Beispiel liegt ja das genetisch mutierte Onkogen weiter unten im Signalweg. Weil aber das Inhibieren des Signals auch die negative Rückkopplung abschaltet, kommt es am Ende doch wieder zu einer Hyperaktivierung.

Solch einen Feedback-Mechanismus hat Blüthgens Team zusammen mit anderen Kollegen an Neuroblastom-Zelllinien entdeckt und in einem Modell beschrieben – die Ergebnisse hierzu sind im November vergangenen Jahres in PLoS Computational Biology erschienen (17(11): e1009515). „Es gab das Konzept, beim Neuroblastom in den MAP-Kinase-Signalweg einzugreifen“, erläutert Blüthgen den Hintergrund. Denn dort seien häufig Mutationen von RAS oder ALK zu finden, die letztlich zur Zellproliferation führen. Dort zu inhibieren, ist also sinnvoll. „Für einige Zelllinien ließ sich dadurch sehr gut das Wachstum bremsen, für andere aber überhaupt nicht – und es hatte nichts mit dem Mutationsspektrum der Zellen zu tun.“ In den Experimenten setzte die Gruppe dann an unterschiedlichen Stellen im und vor dem MAP-Kinase-Pathway an und blockierte oder aktivierte verschiedene Ziele, um Daten für ihr Computermodell zu sammeln.

Doppelt anpeilen hält besser

„Wir haben dann gesehen, dass die resistenten Zellen genau solch einen Feedback-Mechanismus sehr stark aktiviert haben, wenn man die MAP-Kinase blockiert. In diesem Fall war es die negative Rückkopplung auf den EGF-Rezeptor, die verlorengeht.“ Weiter berichtet Blüthgen, dass sie einen Weg gefunden haben, das Wachstum trotzdem zu stoppen. „Wir haben das über die Kombination zweier Inhibitoren gelöst, gegen MEK und gegen den EGF-Rezeptor. Das hat auch ganz gut funktioniert, bei vergleichsweise niedrigen Konzentrationen.“

In Organoiden aus Darm-Epithelzellen schaut sich Blüthgens Gruppe auch Zellen im Gewebekontext an. Dabei geht es um ein besseres Verständnis rund um den Darmkrebs. Für eine ebenfalls vergangenen Herbst veröffentlichte Arbeit hatten die Modellierer Trajektorien rekonstruiert, um zu verstehen, wie sich Darmkrebszellen entwickeln, wenn sie mit verschiedenen Inhibitoren behandelt werden (EMBO Mol. Med. 13(10): e14123). „Auch im Tumor gibt es Stammzellen und Zellen, die eher weiter differenzierten Stadien ähneln“, erklärt Blüthgen. Gibt man einen Inhibitor zu, der den Tumor stoppen soll, so reagieren auch hier nicht alle Zellen gleich. „Die Zellpopulation teilt sich auf: Zellen, die bereits weiter differenziert sind, sterben, die anderen aber wandern zurück in den Stammzellzustand.“

Künftig, so hofft Blüthgen, könnten solche Modellsimulationen helfen, zuverlässiger vorherzusagen, welche Kombination von Medikamenten die besten Erfolgsaussichten hat. „In der Klinik muss man das momentan oft noch durch Ausprobieren herausfinden.“

Ganz so spektakulär sind die bioinformatischen Methoden, die derzeit nah am Patienten eingesetzt werden, noch nicht. In Deutschland ist ein Grund dafür der Datenschutz. Oder, wie es Frank Ückert aus seiner Erfahrung heraus einschätzt, die Art und Weise, wie hierzulande Datenschutz organisiert ist. „Die eigentliche gesetzliche Grundlage ist ja die Datenschutzgrundverordnung, und die ist schließlich in ganz Europa gleich.“

Ückert leitet das Institut für angewandte Medizininformatik (IAM) an der Uniklinik Hamburg-Eppendorf. Zuvor war er viele Jahre am Deutschen Krebsforschungszentrum (DKFZ) in Heidelberg tätig. Er wünscht sich ein digitalisiertes Gesundheitssystem und einen effizienteren Austausch von Daten für medizinische Forschungszwecke. Viele Forscher seien aber verunsichert, welche Daten sie wirklich in welchem Umfang nutzen dürfen. Der Datenschutzbeauftragte einer Institution könne zwar Anmerkungen machen, aber die Verantwortung bleibt immer beim Forscher. „Da gibt es niemals ein verbindliches grünes Licht, und das behindert jegliche Art von Datennutzung.“

Ohne Datenschutzbedenken einsetzbar ist der von Ückert mit entwickelte „­Knowledge Connector“. Dieses Tool verknüpft Daten aus onkologischen Publikationen und richtet sich dabei an Ärzte, die die bestmögliche Therapie für ihre Patienten auswählen möchten. Denn den Überblick über alle relevanten Veröffentlichungen aus der Krebsforschung zu behalten, ist so gut wie unmöglich. „Wir wollten daher ein System, das dem behandelnden Arzt die Publikationen anbietet, die für seinen Patienten relevant sind“, geht Ückert auf die Idee hinter dem Knowledge Connector ein. „International gibt es das cBioPortal, aber das ist stark auf die Forschung ausgelegt und weniger auf die Behandlung.“

Versteckte Schätze

Außerdem setzt sich Ückert dafür ein, dass Datensätze aus der medizinischen Forschung in strukturierter Form und möglichst frei zugänglich mit anderen geteilt werden. Denn die KI-Systeme seien vorhanden, um diese Datenmengen zu analysieren. „Leider ist das Wissenschaftssystem bei uns dermaßen auf Konkurrenz ausgelegt, dass solche Kooperationen eher verhindert anstatt gefördert werden.“ Das seien Schatztruhen, mit denen man einzeln jedoch nicht viel anfangen kann. „Aber würde man all diese Daten poolen, könnte man damit sehr viel gewinnen – deshalb ist das sehr schade.“