Editorial

Wohin mit den Sequenzierungsdaten?

Rechen- und Speicherkapazität werden angesichts von Unmengen an Sequenzierungsdaten knapp

editorial_bild

(27. Dezember 2011) Jedes Jahr werden weltweit 13 Billiarden (1015) DNA-Basen sequenziert, die, auf DVDs gespeichert, einen über drei Kilometer hohen Stapel ergeben würden, schrieb die New York Times kürzlich in einem Artikel. Laborjournal fragte bei dem Bioinformatiker Rolf Backofen von der Uni Freiburg nach, wie die riesigen Datenmengen in Zukunft bewältigt werden sollen.


Laborjournal: Herr Backofen, hatten Sie selber schon Probleme mit Speicherkapazität?


Rolf Backofen: Ja! Speicherkapazität genügt nie. Das geht so weit, dass man die Rohdaten der Sequenzierung, das sind die Bilder, die aufgenommen wurden, schon gar nicht mehr langfristig speichert. Die nächste Stufe sind vorverarbeitete Sequenzdaten, die teilweise auch nicht mehr gespeichert werden, sondern nur noch die daraus errechneten Sequenzen. In Amerika gab es sogar Überlegungen, ob man auch die Speicherung davon abschaffen sollte.


Und was behält man stattdessen?


Rolf Backofen: Ja, eben. Das ist genau das Problem. Auf einer Konferenz letztes Jahr gab es eine ernsthafte Diskussion darüber, ob die amerikanischen Organisationen nicht mehr fordern sollen, diese Daten zu speichern. Letztendlich würde das heißen, dass man Resultate aus einer Publikation nicht mehr überprüfen kann. Das halte ich für sehr gefährlich, man weiß nicht genau, wie sich das langfristig entwickelt. Es gibt das 1.000-Genome-Projekt, wo verschiedene Variationen des menschlichen Genoms untersucht werden sollen. In Zukunft wird wahrscheinlich das Sequenzieren eines menschlichen Genoms billiger sein, als die Rohdaten komplett zu speichern. Die Kosten für die Speicherung werden höher sein, als für die Sequenzierung selber!


Haben Sie da ein Zahlenbeispiel?


Rolf Backofen: Craig Venter sagte so schön: Er hat die Befürchtung, dass das 1.000 Dollar-Genom bedeutet, 1.000 Dollar für die Reagenzien und 10.000 Dollar für die Speicherung auszugeben. – Bei voller Speicherung der Rohdaten, weshalb das beim 1.000 Genomes-Projekt auch aufgegeben wurde. Wenn man dagegen nur die Genomsequenz und davon den Unterschied zum Standard-Genom speichert, sind die Kosten natürlich wesentlich geringer. Man kann für bestimmte Zwecke also nicht mehr das volle Genom speichern, sondern nur noch die Differenzen. Das heißt man muss mehr Informatik beziehungsweise Bioinformatik reinstecken. Häufig werden die Daten bereits komprimiert, dann ist man um einen Faktor 5 bis 9 kleiner. Oder man kann komprimieren und nur die Differenz speichern, dann ist es natürlich sehr klein. Man verwendet das im Prinzip schon standardmäßig bei Bildern oder bei Musik, da wird praktisch alles komprimiert. Es gibt verlustfreie Komprimierung und Komprimierung mit Qualitätsverlust – es hängt von der Anwendung ab, was man akzeptieren kann.


Ein Beispiel aus einem NYT-Artikel: Die Meereskundlerin Virginia Armbrust von der Uni Washington hat aus zwei Wasserproben innerhalb von zwei Wochen 60 Millionen Basen sequenziert. Die anschließende Analyse dauerte zwei Jahre.


Rolf Backofen: Das ist normal, es wird noch viel schlimmer werden. Es werden Daten ohne Ende geliefert, von denen oft vielleicht nur ein Prozent analysiert wird. Der Rest liegt rum. Das ist häufig so. Übrigens das, was Virginia Armbrust gemacht hat, heißt Metagenomik und wurde von Craig Venter eingeführt. Es gibt ja auch noch Transkriptomanalysen, da kommen noch viel mehr Daten zusammen, die noch weniger leicht zu analysieren sind.


Welche Konsequenzen hat das?


Rolf Backofen: Normalerweise ist in der Biologie häufig die Generierung der Daten, also das Experiment, das große Problem. Im Moment ist es erstmals so, dass das eigentliche Problem  danach in der Analyse steckt. Und da gibt es im Augenblick meiner Meinung nach noch zu wenig Wissen, auch in Deutschland.


Gibt es nicht genügend Großrechner oder keinen Zugang zu Rechenleistung?


Rolf Backofen: Rechenzeit ist immer ein Problem. Wir haben zum Beispiel jetzt eine relativ große Maschine angeschafft. Auch über DFG-Förderung. Die Rechenleistung und das Know-how sind zwei Sachen. Man braucht Personal, das wirklich verstehen und analysieren kann. Rechnerkapazitäten kaufen oder mieten kann man, wenn es wirklich notwendig ist. Speicherplatz dagegen ist wieder etwas anderes: wie halte ich die Daten, wie mache ich Archivierungen und Backups, was speichere ich? Das ist ein großes, ungelöstes Problem. Die Rechenzeit, sozusagen das Verarbeiten, ist vielleicht für einige kleinere Universitäten ein Problem, die nicht genügend Cluster haben. Doch das kann man noch relativ einfach lösen, weil die Geräte einigermaßen günstig geworden sind.


Könnte man das auch auslagern?


Rolf Backofen: Es kommt immer darauf an, was Sie mit Auslagern meinen. Es gibt verschiedene Stufen der Auslagerung. Die erste wäre das Experiment selbst auszulagern, sprich die Sequenzierung. Für kleinere Forschungsgruppen ist das auf alle Fälle das Sinnvollere. Wenn eine Maschine nicht wirklich richtig ausgelastet ist, führt das dazu, dass die Qualität schlechter wird. Für größere Gruppen hängt es davon ab, ob man nur Standard-Sachen machen möchte oder etwas Spezielles. Anschließend kommt bei Transkriptomanalysen das Mapping, bei Genomanalysen das Assembly. Bei diesen beiden Schritten ist das Auslagern manchmal kritisch, weil die Qualität sehr unterschiedlich sein kann. Gerade bei der Assemblierung passieren oft Fehler, das muss man ehrlich sagen. Beim menschlichen Genom zwar nicht mehr, weil man mit einem Grundassembly vergleichen kann. Aber wenn man zum Beispiel versucht das Genom von einem neuen Bakterium, das man noch nicht analysiert hat und wovon man auch kein Vergleichgenom hat, zu assemblieren, dabei kann einiges passieren.


Kann man dabei Fehler selbst noch feststellen? Das sind ja unüberblickbare Datenmengen.


Rolf Backofen: Wenn man sich mit dem Datensatz beschäftigt, kann man das machen. Zum Beispiel hat ein Kollege ein Moos sequenziert und wollte schon einen Artikel darüber schreiben, wie viele bakterielle Gene in dem Moosgenom enthalten sind. – Bis er sich das genau angeschaut hat und festgestellt hat, dass Proben vertauscht wurden und dem Moosgenom noch ein Bakteriengenom beigemischt wurde. Man kann solche Verschmutzungen oder Verunreinigungen von Genomen bestimmen. Ich sage es mal so: kleinere Fehler werden nicht immer ausbleiben, aber grobe Sachen kann man feststellen. Aber es muss natürlich jemand daran arbeiten, der in der Lage ist, solche Daten sinnvoll zu analysieren.


Hat die Biologie damit im Speziellen Probleme? Physik und Medizin beispielsweise produzieren ja auch riesige Datenmengen?


Rolf Backofen: Die Medizin hat teilweise spezifische Anwendungen, wenn es darum geht, bestimmte Krankheitsmarker anzusehen. Die wollen spezifische Informationen aus den Daten haben und haben geschultes Personal dafür. Wenn man aber weitläufiger sucht, ist ein Mangel an ausgebildeten Bioinformatikern da. In der Physik arbeiten die Experimentatoren und die Theoretiker Hand in Hand, das ist seit hundert Jahren etabliert. Mit Biologen und Bioinformatikern muss sich das noch ein bisschen mehr durchsetzen.


Wäre es sinnvoll, statt Sequenzdaten zu speichern, die Proben aufzuheben und einzufrieren, um sie im gegebenen Fall noch einmal zu analysieren?


Rolf Backofen: Ich weiß nicht genau, wie stabil solche Proben sind. Man muss sich überlegen, ob es irgendwann wirklich billiger ist. Wenn eine Analyse ein paar hundert Euro kostet, sind wir in einem Bereich, in dem es vielleicht mehr Sinn macht. Aber dann muss erst einmal noch ein Experiment laufen, bevor man die Daten analysieren kann. Das heißt, man kann eine Behauptung in einer Publikation nicht mehr aufgrund der Supplements nachvollziehen, sondern muss eine Probe holen und das Experiment komplett wiederholen. Das ist im Augenblick noch nicht sinnvoll, glaube ich. Ob das in der Zukunft – sagen wir mal in fünf Jahren – vielleicht wirklich der sinnvolle Weg sein kann, das ist schwer zu sagen.

 

 

Interview: Valérie Labonté
Bild: Uni Freiburg



Letzte Änderungen: 16.01.2012
© 2009 Laborjournal und F & R Internet Agentur