Editorial

Special Einzelzell-Genomik und -Proteomik

FASTGenomics: Single-Cell-IT aus Bonn
von Mario Rembold, Laborjournal 09/2018



Fotomontage: iStock / akesak (Zellen), Olga_Rom (Zahlen)

FASTGenomics stellt Webtools und Workflows zur Analyse von Einzelzell-Transkriptomdaten zur Verfügung. Hinter dem Bonner Projekt stehen die IT-Firma Comma Soft und das LIMES-Institut der Uni.

Was haben Zentis, Obi und die Postbank mit Einzelzell-Sequenzierung zu tun? Oder die Sparkasse Aachen, Knauber und Dr. Oetker? Zugegeben, die Verbindung ist ein wenig von hinten durch die Brust ins Auge konstruiert, aber: All diese Banken und Unternehmen sind Kunden der Comma Soft AG. Und die Comma Soft AG wiederum widmet sich jetzt auch der Analyse von Sequenzdaten aus Einzelzell-Experimenten. Das Bonner Unternehmen ist nämlich auf Dinge wie IT-Infrastruktur, Umgang mit großen Datenmengen sowie Künstliche Intelligenz spezialisiert und entwickelt hierzu Softwarelösungen für die Kundschaft.

Auch im Labor braucht man eine gute IT mehr denn je – schließlich kann heute ein „Omics“-Forscher in einer einzigen Arbeitswoche mehr Daten auf die Festplatte bringen, als das Human Genome Project einst in einer ganzen Dekade erfasst hatte. Damit aber aus den Nullen und Einsen im Rechner irgendwann wissenschaftliche Erkenntnisse werden, braucht es Verfahren, um die Daten zu filtern, zu ordnen, zu analysieren – und auch Wege, um sie mit anderen Forschern auszutauschen.

Geld vom Bund

Christina Kratsch arbeitet bei Comma Soft in der Abteilung Life Science. „Wir existieren seit 1989“, blickt sie auf die Unternehmensgeschichte lange vor ihrer Zeit zurück. Damals spielten die Lebenswissenschaften für die Firma noch keine Rolle, heute aber bringen viele Mitarbeiter naturwissenschaftliches Know-how mit und standen selbst schon im Labor. „Wir sind Biologen, Biostatistiker und sehr viele Physiker“, zählt Kratsch auf. Sie selbst ist promovierte Bioinformatikerin und war vor ihrem Einstieg in die freie Wirtschaft in der Arbeitsgruppe der Biochemikerin Alice ­McHardy tätig, die damals noch an der Uni Düsseldorf forschte.

Vor einigen Jahren knüpfte die Firma dann Kontakt zum LIMES-Institut (Life and Medical Sciences Institute) der Uni Bonn, erinnert sich Kratsch. Stephan Huthmacher, Vorstandsvorsitzender und Gründer der Comma Soft, habe sich ausgetauscht mit Joachim Schultze. Schultze leitet am LIMES die Arbeitsgruppe „Genomik und Immunoregulation“ und betreut dort auch PRECISE – eine Plattform für Einzelzell- und Epigenomik. „Die beiden hatten über Sequenziertechnologien und Datenauswertung gesprochen und dachten sich, dass man gemeinsam doch viel besser vorankäme“, blickt Kratsch zurück.

Dann gab es eine Ausschreibung des Bundeswirtschaftsministeriums: Unter dem Schlagwort Smart Data sollten „Leuchtturm­projekte“ entstehen, in deren Rahmen „Big-Data-Technologien für ausgewählte Anwendungsbereiche aus der Wirtschaft entwickelt und erprobt werden“, so liest es sich etwas sperrig auf der Webseite des Ministeriums zu den Förderprogrammen (www.digitale­technologien.de). 2016 wurden Comma Soft und LIMES dann in das dreijährige Förderprogramm aufgenommen und starteten ein gemeinsames Projekt: FASTGenomics (www.fastgenomics.org).

Christina Kratsch übernahm die Projektleitung für FASTGenomics und hat seither vor allem ein Ziel: Leute aus der Szene zusammenbringen. „Das ist die eigentliche Idee von FASTGenomics“, fasst sie den Grundgedanken zusammen. Ein besonderer Fokus liegt dabei auf der Sequenzierung von RNA (insbesondere mRNA) aus einzelnen Zellen. Vor allem in der medizinischen Forschung interessieren sich Wissenschaftler für die Transkriptionsprofile einzelner Zellen und wollen Zellpopula­tionen in bestimmten Geweben identifizieren, um Krankheitsmechanismen besser zu verstehen. Krebsforscher nutzen die Methoden, um Veränderungen in Tumormodellen zu verfolgen. Und natürlich möchten auch Grundlagenforscher verstehen, welche Gene einer bestimmten Zelle wann ein- oder ausgeschaltet sind.

Tausende Dimensionen

Die Analyse der Einzelzell-Transkriptomdaten ist aber nicht trivial, weiß Kratsch. „Sie haben in diesen Datensätzen eine ganz andere statistische Verteilung, weshalb Sie nicht ohne weiteres Methoden übernehmen können, mit denen Sie herkömmliche Sequenzdaten analysieren.“ Sequenziert man auf klassische Weise Proben, die eine größere Menge von Zellen enthalten (Bulk Sequencing), misst man letztlich ein gemitteltes Signal. Bei Einzelzell-Sequenzierungen hingegen erhält der Forscher aus einer Probe mitunter zigtausend Datensätze. „Typische Studiengrößen liegen so bei 5.000 bis 50.000 Zellen“, nennt Kratsch eine Hausnummer, „und bei Unternehmungen wie dem Human Cell Atlas kann das sogar in die Millionen gehen.“

Ein Ziel der Einzelzell-Jäger ist das Aufspüren von Zellpopulationen anhand ihrer Transkriptionsprofile. Angenommen man hat die Expression von Gen A und Gen B in zehntausend Zellen gemessen. Trägt man nun die ­mRNA-Menge für Gen A auf der x-Achse und für Gen B auf der y-Achse auf, dann hat jede erfasste Zelle zwei Koordinaten und eine eindeutige Position auf der Fläche. Waren in der Probe verschiedene Zelltypen, die sich in der Expression von A und B unterscheiden, erkennt man in diesem grafischen Plot Cluster von Zellen – jedes Cluster kann dann einen eigenen Zelltyp charakterisieren (oder auch ein bestimmtes Differenzierungsstadium oder einen Zeitpunkt im Zellzyklus).

Zu viel fürs Gehirn

„Mit zwei oder drei Genen ist das Plotten kein Problem“, erklärt Kratsch und fährt fort: „Doch schon ein vierdimensionales Koordinatensystem bekommen Sie nicht mehr in Ihr Hirn. In einem menschlichen Genom befinden sich aber 20.000 bis 25.000 Gene – je nachdem wie Sie zählen und was Sie als Gen bezeichnen.“ Selbst wenn nicht all diese ­Gene transkribiert sind und man nur einen kleinen Prozentsatz des Transkriptoms einer Probe erfasst, bräuchte man dennoch ein Koordinatensystem mit hunderten bis tausenden Dimensionen. In der Genomik kommen daher Verfahren zur Dimensionsreduktion zum Einsatz. Algorithmen schaffen es so, die Daten auch in einem üblichen Koordinatensystem darstellbar zu machen.

Leider kann man die in der klassischen Genomik etablierten Verfahren zur Dimensionsreduktion nicht blind übernehmen, wenn man Einzelzell-Transkriptome analysiert – eben weil die Datensätze andere statistische Eigenschaften haben. Hier will FASTGenomics Methoden sammeln und zur Verfügung stellen, die speziell für die Einzelzell-Tran­skriptomik taugen. Ansätze mit künstlicher Intelligenz und neuronalen Netzen sollen helfen, Probleme der Datenauswertung zu lösen. In einem vorab via bioRxiv veröffentlichten Artikel vertiefen die Bonner das Problem der Datenauswertung und gehen auf Tools ein, die FASTGenomics zur Verfügung stellt (DOI: 10.1101/272476). Mitgeschrieben am Paper haben auch Forscher vom Institut für Computational Biology (ICB) am Helmholtz-Zentrum in München.

Die Autoren nennen den App Store von FASTGenomics als zentrale Plattform, um Algorithmen und Visualisierungssoftware zu hosten und für Nutzer zugänglich zu machen. Derzeit kann sich jeder einen Login-Zugang einrichten oder ganz ohne Anmeldung den Demo-Account testen. Auf den Seiten des (bislang kostenlosen) App Stores befinden sich Transkriptomik-Datensätze aus diversen Publikationen und von unterschiedlichen Organismen, die man anklicken kann. Als nächstes wählt man ein Analysetool aus, um beispielsweise die Daten zu plotten. Bis zum Ende der Förderperiode im kommenden Jahr wollen die Bonner das Angebot weiter ausbauen, kündigt Kratsch an. Später soll dann eine umfangreiche Sammlung von Apps und Workflows für die Sequenzdatenanalyse zur Verfügung stehen.

Um Algorithmen und Webtools anbieten zu können, muss natürlich auch der Datenaustausch unter Forschern möglich sein. Ein Thema hierbei sind Standards und Datenformate. „Das ist ein grundsätzliches Problem, an dem es in der Genomik schon immer krankt“, meint Kratsch, erklärt aber auch, dass einheitliche Formate gar nicht immer möglich sind. „Ein Datensatz, in dem Einzelmutationen erfasst sind, muss ja schon prinzipiell anders aufgebaut sein als solch einer mit Transkriptionsmustern oder ein epigenetischer Datensatz.“ FASTGenomics will aber möglichst alle Standards bedienen, die momentan im Feld gängig sind.

Datenschutzkonform forschen

Doch nicht nur unterschiedliche Formate und uneinheitliche Datenbanken können den Datenaustausch behindern. In der klinischen Forschung gibt es auch strenge rechtliche Grenzen, die den Datenschutz und die Persönlichkeitsrechte der Patienten und Probanden sicherstellen sollen. „Da können Sie nicht schnell mal einen Dropbox-Link verschicken“, scherzt Kratsch. Hier sind also nicht nur Bioinformatiker gefragt, sondern auch juristisch versierte IT-Experten, die fit sind in Sachen Netzwerk- und Datensicherheit. Die Daten müssen verschlüsselt gespeichert und übertragen werden. Weiterhin möchte FASTGenomics künftig auch vertragliche Templates anbieten, damit Forscher untereinander die datenschutzrechtlichen Formalitäten einhalten sowie rechts­sicher kooperieren können.

Sicherlich wird eine Plattform wie FASTGenomics nie komplett fertig sein, schließlich gibt es aus der Omics-Welt im Monatstakt Neues zu berichten. Daher hat sich Kratsch vorgenommen, die Ohren offenzuhalten. „Meine Frage an die Community ist immer: Wo drückt der Schuh?“

Last Changed: 09.09.2018