Editorial

Teilen macht Spaß

(18.03.2019) Öffentliche Genom-Daten müssen uneingeschränkt nutzbar sein, sagen Peer Bork, Rudolf Amann und Co. Im Weg steht dem bislang das Erstveröffent­lichungsrecht.
editorial_bild

Der technologische Fortschritt ermöglicht der biomedizinischen Forschung, ständig wach­sende und komplexer werdende Datensätze zu generieren. Genome, Mikrobiome, Epi­genome riesiger Studienkohorten wollen analysiert und interpretiert werden. Dies umfassend zu leisten, schafft heute nicht immer mehr nur die eine Arbeitsgruppe, die die Daten erhoben hat. Außerdem war es bisher üblich, dass die Forscher, die Daten generieren, diese auch zuerst publizieren. Somit können allerdings Jahre vergehen, bis sie auch anderen Wissenschaftlern zur Verfügung stehen.

Um solche Verzögerungen zu vermeiden, fordern Wissenschaftler seit Längerem, dass Rohdaten umgehend als Open Data in öffentliche Datenbanken oder Repositorien eingestellt werden. Die Autoren des kürzlich in Science erschienenen Artikels „Toward unrestricted use of public genomic data“ fordern darüber hinaus, dass die Daten unmittelbar nach deren Veröffentlichung analysiert, interpretiert und publiziert werden dürfen – das Erstveröffentlichungsrecht der Wissenschaftler, von denen die Daten stammen, würde somit entfallen.

Editorial
Angst vor Datenparasitismus

Dies stößt natürlich auf Vorbehalte. Befürchtet wird, dass die Rohdaten vor der Erstpubli­kation noch Fehler enthalten könnten. Zudem ist die Wahl der Parameter, unter denen die Daten erhoben wurden, für Außenstehende nicht immer klar ersichtlich. Das könnte zu Problemen bei der Analyse oder der Integration mit verschiedenen Datensätzen führen.

Darüber hinaus erfordert die allgemeine Zugänglichkeit sensibler Daten aus klinischen Studien besondere Vorsicht. Zu guter Letzt werden für die Erhebung der Datensätze Unmengen an Zeit und Ressourcen aufgewendet: für viele Grund genug, den Urhebern auch das Recht auf Erstveröffentlichung zuzugestehen – Reputation durch Publikation ist eben immer noch das höchste Gut in der Wissenschaft. Manche befürchten gar, dass eine neue Art „parasitärer Wissenschaftler“ entsteht, die von der Arbeit anderer profitieren oder diese sogar durch Reanalyse diskreditieren wollen (N Engl J Med, 374:276-7).

Rudolf Amann, Direktor des Max-Planck-Instituts für Marine Mikrobiologie in Bremen und Erstautor des Science-Artikels zur uneingeschränkten Datennutzung widerspricht den Bedenken. „Der Wegfall des Erstveröffentli­chungs­rechts mag im Einzelfall unfair erscheinen“, erläutert Amann in einer Pressemitteilung. „Für die Weiterentwicklung der Lebenswissenschaften ist es aber essenziell, dass frei verfügbare Sequenzdaten auch sofort von allen Wissenschaftlerinnen und Wissenschaftlern für ihre Analysen und Veröffentlichungen genutzt werden können.“

Verschiedene Blickwinkel

Die Forderung entspricht im Übrigen auch den Ansprüchen vieler öffentlicher Förder­institute, denen an einer schnellen Verfügbarkeit der Daten für Wissenschaft und Gesellschaft gelegen ist. Die Befürworter sehen viele Vorteile, die aus dem Open Data-Ansatz entstehen: beispielsweise die Möglichkeit, Metaanalysen durchzuführen oder den Datensatz aus verschiedenen Blickwinkeln zu analysieren. Sie glauben auch, dass so ein Wettbewerb entsteht, der die Wissenschaft schneller voranbringt. „Anzunehmen, dass die Personen, die die Daten erheben, automatisch dieselben sind, die sie analysieren, ist wie von einem Drehbuchautor zu erwarten, dass er auch die Regie des Films übernimmt“, meinen die Autoren.

Um den Open Data-Ansatz für alle Wissenschaftler attraktiver zu machen, fordern die Autoren Möglichkeiten und Richtlinien, um die Urheber der Daten entsprechend zu würdigen. Auch wenn noch keine offizielle Publikation erfolgt ist, sollen die Forscher in Veröffentlichungen anderer Arbeitsgruppen entsprechend zitiert werden können – und auch müssen.

Dies ist mitunter gar nicht so einfach: Mittlerweile werden riesige und komplexe Datensätze in öffentliche Datenbanken und Reposi­torien eingespielt und mit anderen Datensätzen vermischt. Da kann es schwierig werden, Informationen über die Erzeuger und den Publikationsstatus auf Dauer zuzuordnen und aktuell zu halten.

Belohnungssysteme schaffen

Eine Möglichkeit, die elektronischen Daten eindeutig und dauerhaft zu markieren, besteht in den DOIs (Digital Object Identifier). Zudem sollen in den Metadaten Protokolle verlinkt werden, in denen beschrieben wird, mit welchen Methoden und Parametern die Daten erhoben wurden. Es muss garantiert werden, dass diese Verlinkungen auch dann erhalten bleiben, wenn man die Daten in größere Datensätze inkorporiert. Die Autoren fordern auch, dass Universitäten und Forschungsinstitute Möglichkeiten zur Wertschätzung für Wissenschaftler schaffen, die solche Datensätze für die Allgemeinheit produzieren – beispielsweise durch bessere Arbeitsbedingungen.

Open Data ist auf dem Vormarsch: Journals wie PLOS Medicine und BMJ publizieren bereits keine Studien mehr, zu denen die Rohdaten nicht öffentlich gemacht werden. Im Zeitraum zwischen 2015 und 2017 wurden bei einem Fünftel der biomedizinischen Veröffentlichungen die Daten zur Verfügung gestellt. Eine Vorreiterrolle hat hier die Genetik: Daten aus DNA-Sequenzierungen werden häufig schon 24 Stunden nach der Erhebung in öffentliche Datenbanken eingespeist – das soll nun auch für Metagenome, Mikrobiome und andere Standard werden.

Amann et al. sehen die Verantwortung bei den Förderinstituten, Verlagen und Repositorien. Sie sollen Belohnungssysteme und händelbare Plattformen für den uneingeschränkten Datenaustausch schaffen. Nicht zuletzt ist aber auch die wissenschaftliche Gemeinschaft gefordert, der immer komplexer werdenden (Wissenschafts-)Welt mit gegenseitigem Vertrauen und Wertschätzung entgegenzutreten.

Melanie Erzler



Letzte Änderungen: 18.03.2019