Editorial

Hilfe beim Datenjonglieren

(21.11.2018) Mit der kostenlosen Web-Applikation BioJupies kann man RNA-seq-Daten sortieren, analysieren und für die Publikation aufbereiten.
editorial_bild

Ein Laborbuch aus Papier hilft, Versuchs­beschreibungen, Messprotokolle und -daten oder auch Versuchsaufbauten festzuhalten. Im Omiks-Zeitalter reichen ein paar Seiten Karopapier aber meist nicht mehr aus, um Experimente ausreichend zu dokumentieren. Mit Verweisen auf diverse Aktenordner oder Verzeichnisse auf Fest­platten, in denen die nötigen Zusatzinfor­mationen zu finden sind, kommt man nicht allzu weit. Schnell verliert man den Überblick und die Suche nach den abgelegten Daten raubt Zeit und Nerven. Zudem erschweren individuell angelegte Ordnungssysteme den Datenaustausch innerhalb der eigenen Arbeitsgruppe oder auch zwischen verschiedenen Laboren.

Besonders groß ist die Datenflut, die geordnet und analysiert werden muss, bei der RNA-Sequenzierung (RNAseq). Die Gruppe des Pharmakologen und Spezialisten für die Aufbereitung biowissenschaftlicher Daten Avi Ma'ayan von der Icahn School of Medicine in New York entwickelte hierzu das frei zugängliche Online-Tool „BioJupies“, das experimentell arbeitende Biologen, die mit der Bioinformatik meist auf Kriegsfuß stehen, durch die verschiedenen Schritte der RNA-seq-Datenanalyse führt.

Editorial
Weltweite Bearbeitung

Mit BioJupies können Forscher interaktive Notizbücher von RNA-seq-Studien anlegen, die von unterschiedlichen quer über den Globus verteilten Forschern bearbeitet werden können. Die Notizbücher erweitern gleichzeitig auch die klassische Publikation. Sie enthalten neben den Originaldaten und Informationen darüber, wie man diese erhalten hat, auch grafische Auswertungen und eine Darstellung der Datenanalysen sowie Links zu relevanter Literatur. Das klingt nach gewaltigem Speicherbedarf. Nichts, was man mal eben als Email-Attachment dem Projektpartner rüberschickt. Deshalb landet bei BioJupies alles in einer Cloud, über die alle Berechtigten auf die angelegten Notizbücher zugreifen können.

Wie läuft das konkret ab? Dreh- und Angelpunkt der RNA-seq-Analyse ist die Auswertung der Sequenz-Daten, die Rückschlüsse auf das Transkriptom in Probe X unter Bedingung Y liefern soll. Zuallererst müssen diese Daten in das BioJupies-System eingespeist werden. Dafür gibt es zwei Möglichkeiten: Sie können aus den eigenen RNA-seq-Experimenten stammen und Informationen zu Spezies, Methode der Datenerzeugung et cetera enthalten. In diesem Fall lädt man die Roh-Daten auf den BioJupies-Webserver, in dem sie die weiteren Schritte der Datenpro­zessierung durchlaufen. Bei der zweiten Variante greift der Nutzer auf publizierte RNA-seq-Daten (aktuell mehr als 300.000 aus über 8.000 Studien) zurück und wählt nur die ihn interessierenden Referenzdateien aus, die dann von dem BioJupies-Programm GEO (gene expession omnibus) abgerufen werden.

Demolauf als Einstieg

Ein Demolauf, der die Genexpression von Krebs- und Nichtkrebszellen vergleicht, erleichtert den Einstieg in BioJupies und zeigt dem Nutzer, wie der Hase läuft. Hierbei handelt es sich um eine RNA-seq-Analyse von zwölf Einzelproben. Ein Klick öffnet Links zu detaillierten Infos über jede einzelne Probe.

Dem Demo-Notizbuch gibt man einen aussagekräftigen Titel, also zum Beispiel „Gene expression changes in 3 human melanoma cell lines were compared to freshly isolated normal primary melanocytes“. Das Notizbuch stellt die eingestellten Originaldaten nach entsprechender Verarbeitung in 14 ansprechenden, interaktiven Kapiteln beziehungsweise Plug-ins dar. Jedes Kapitel lässt sich einzeln abrufen, nach Geschmack visuell anpassen und gegebenenfalls um Zusatzinformationen erweitern.

So kann man zum Beispiel mit dem Plug-in Principal Component Analysis (PCA) Ähnlich­keiten zwischen RNA-seq-Datensätzen aufdecken und diese in Scatter Plots darstellen. Ein weiteres Beispiel ist das Visualisierungs- und Analyse-Tool „Clustergrammer“, das mehrdimensionale Daten in interaktive und hierarchisch geclusterte Heatmaps übersetzt.

Verhaltensauffällige Gene

Im Plug-in Volcano Plot werden Gene, die sich am auffälligsten verhalten, prompt sichtbar. Jeder Punkt im Scatter Plot steht für ein Gen, die Achsen zeigen, um welchen Faktor dessen Expression zwischen den Probengruppen variiert, beziehungsweise wie signifikant diese Änderung ist.

Interessant ist auch das Plug-in Enrichr Links, das sämtliche zu einem Datensatz gehörenden biologischen Termini abtastet und Häufigkeiten aufdeckt. Das können zum Beispiel Genzuge­hörigkeiten zu bestimmten Signalwegen, Krankheiten oder Ähnliches sein.

Zumindest bei RNA-Seq-Analysen könnte BioJupies dem oft unkoordinierten, wenig effizienten Datenjonglieren und -visualisieren ein Ende bereiten. Ob es als globales, interaktives Laborbuch-Format von der Forschergemeinschaft angenommen wird, bleibt abzuwarten.

Andrea Pitzschke

Torre D. et al. (2018): Biojupies: Automated generation of interactive notebooks for RNA-seq data analysis in the cloud. Cell Systems, DOI: 10.1016/j.cels.2018.10.007



Letzte Änderungen: 21.11.2018