Editorial

Wie sicher sind E-Only-Publikationen? (Teil 1)

Können elektronische Publikationen auf Dokumentenservern irgendwann verloren gehen?

editorial_bild

(28. Juni 2012) Viele wissenschaftliche Artikel erscheinen inzwischen ausschließlich elektronisch. Doch sind diese E-only-Publikationen genauso gut für künftige Forschergenerationen aufgehoben, wie auf Papier gedruckte wissenschaftliche Ergebnisse? Laborjournal fragte bei Peter Schirmbacher, Direktor des Computer- und Medienservice der Humboldt-Universität Berlin, nach.

Laborjournal: Herr Schirmbacher, wenn ich mein Manuskript bei einem Journal einreiche, das nur elektronisch publiziert, liegt meine Publikation später irgendwo auf einem Server, von dem andere sie sich herunter laden können. Was ist, wenn der Server kaputt geht, auf dem mein Dokument lagert?

Peter Schirmbacher: Dann haben Sie keinen seriösen Anbieter! Natürlich ist Technik nicht immer fehlerfrei. Aber für jeden Betreiber von Journalen oder von Repositorien, in denen wissenschaftliche Arbeiten niedergelegt werden, gehört eine ordentliche Datensicherung, die 24 Stunden am Tag, sieben Tage die Woche verfügbar ist, zum guten Ton. Dafür gibt es eine ganze Reihe von einfachen organisatorischen Maßnahmen, beispielsweise sogenannte Spiegelserver. Die Wahrscheinlichkeit, dass eine Arbeit durch einen Hardwaredefekt verlorengeht, ist nahezu Null.

Sie spiegeln die Inhalte auf mehreren Servern. Wo stehen die?

Peter Schirmbacher: Lassen Sie mich als Beispiel die Humboldt-Universität nehmen. Wir haben einen Dokumenten- und Publikationsserver, auf dem die Wissenschaftlerinnen und Wissenschaftler der Humboldt-Universität ihre Artikel entweder als Erst- oder als Zweitpublikation ablegen können. Dieser Server ist gesichert durch die Mannschaft des Rechenzentrums. Wir haben drei Spiegelserver an drei verschiedenen Orten in Berlin stehen. Jede Nacht werden die Daten zwischen diesen Servern synchronisiert, das heißt auf jedem dieser drei Server ist derselbe Inhalt. Sollte einer der Server crashen oder ein Brand ausbrechen, ist die Gewähr sehr groß, dass an anderer Stelle derselbe Inhalt noch einmal gespeichert ist, sodass ein Verlust sehr unwahrscheinlich ist. Nahezu jede wissenschaftliche Einrichtung in Deutschland hat inzwischen einen solchen Server. Hinzu kommt, dass zum Beispiel die Deutsche Initiative für Netzwerkinformation (DINI) ein Zertifikat für Dokumenten- und Publikationsserver erarbeitet hat, das acht verschiedene Kriterien umfasst, die ein Server erfüllen muss, damit er als Dokumenten- und Publikationsserver anerkannt wird. Eines dieser Kriterien ist die Sicherheit des Servers. Maßnahmen, wie ich sie beschrieben habe, sind zwingend vorgeschrieben, nur dann hat man die Chance ein DINI-Zertifikat zu bekommen.

Wie läuft die langfristige Archivierung über Unigrenzen hinaus ab?

Peter Schirmbacher: Es gibt zum Beispiel das Langfristarchivierungssystem LOCKSS (Lots of Copies Keep Stuff Safe), entwickelt an der Stanford-University, was darauf beruht, dass man an sieben verschiedenen Orten Dokumente speichert. Das Management-System von LOCKSS vergleicht den Inhalt der Dateien an diesen sieben Orten. Wenn es einen Fehler an einem der Orte feststellt, wird die fehlerhafte Datei durch eine neue Datei von einem der anderen sechs Orte ersetzt. Die Humboldt-Universität ist Mitglied von CLOCKSS (Controlled LOCKSS), einer Vereinigung, die auf der Basis dieser LOCKSS-Software arbeitet. Die Server stehen an elf verschiedenen Standorten auf der Welt, einer in Tokyo, einer in Australien, einer bei uns an der Humboldt-Universität, einer in Edinburgh und die weiteren Server stehen in den USA. So haben wir eine vergleichsweise sichere Langfristarchivierung elektronischer Dokumente.

Muss man die Daten regelmäßig auf neue Festplatten überspielen? Was ist wenn die Hardware älter wird?

Peter Schirmbacher: Man muss im Wesentlichen zwischen der physischen Lesbarkeit und der tatsächlichen Aktualität, der unmittelbaren Verfügbarkeit unterscheiden. Was die Lesbarkeit angeht, hat jedes etwas auf sich haltende Rechenzentrum eine sogenannte Backup- und Archivierungsstrategie. Zum Beispiel gibt es Regelungen, dass Bänder, die dort gelagert werden, sobald sie älter als zwei Jahre sind, kopiert werden, sodass nicht der Fall eintritt, dass ein uraltes Band physisch nicht mehr lesbar ist. Durch diese Maßnahmen ist jedoch die Verfügbarkeit, das heißt die unmittelbare Lesbarkeit der Dateien, noch nicht gesichert. Wenn ich meine Vorlesungen anfange, halte ich als erstes eine acht Zoll Diskette hoch und sage: 'Ich behaupte darauf ist meine Dissertation'. Daran kann man eigentlich sämtliche Probleme festmachen. Wer kann eine solche Diskette noch lesen? Wer hat ein Lesegerät dafür? Die Datei ist erstellt worden mit einer Textsoftware des damaligen Weltmarkführers: Wordstar. Kein Mensch kennt heute noch Wordstar, ein proprietäres System mit einem besonderen Dateiformat. Wie gewährleiste ich, dass ich solche Arten von Dateien noch lesen kann?

Wie bereitet man die Dokumente auf, sodass man sie auch künftig noch lesen kann?

Peter Schirmbacher: Bei der Auseinandersetzung mit den Problemen der Langzeitarchivierung digitaler Objekte unterscheiden wir im Wesentlichen zwei Verfahren: die Emulation und die Migration. Bei der Emulation versuche ich mit der heutigen modernen Technik die Technik aus der Zeit, aus der die Datei stammt, auf meinem Rechner zu emulieren. Das Standard-Beispiel dafür sind Computerspiele. Viele Menschen sind verliebt in die Atari- oder Commodore-Spiele, also Spiele, für die ich heute gar keine Geräte mehr habe. Was machen wir? Man emuliert auf der heutigen, viel leistungsfähigeren Hardware die Technik von damals. Wenn ich das schaffe, können die Programme von damals wieder laufen, also kann ich die Spiele von damals wieder benutzen oder die Dateien von damals wieder lesen. Das ein recht kostspieliges Verfahren. Der einzelne wissenschaftliche Artikel wird den Aufwand selten lohnen, aber für ein ganzes Repertoire, zum Beispiel die letzten 20 Jahrgänge einer Zeitschrift, die alle in demselben System geschaffen wurden, könnte es Sinn machen.

… und die Migration?...

Peter Schirmbacher: Beim Migrieren ist es anders. Dafür beobachtet der Betreiber eines solchen Servers oder der Herausgeber eines wissenschaftlichen Journals die Entwicklungslinie der eingesetzten Software und konvertiert die alten Dateien in das jeweils neue Format. Trivial gesprochen nehme ich eine Word 3.1-Datei aus dem Jahr 1995 und öffne sie im heutigen Word 2010. Anschließend speichere ich sie in dem aktuellen Format ab und habe dadurch eine gegenwärtig gut lesbare Datei. Das Migrieren ist allerdings arbeitsaufwendig, denn ich muss erstens beobachten, wie „alt“ meine Dateien sind, um zu sehen, wann ich migrieren muss. Zweitens muss ich sie in das aktuelle Format konvertieren. In vielen Fällen geht das nicht ausschließlich automatisch, sondern nur unter Einsatz menschlicher Arbeitskraft, was das Verfahren teuer macht. Noch viel gravierender an der Stelle ist: durch jedes Migrieren kommt es im gewissen Sinne zu einer Verfälschung der ursprünglichen Datei. In der Mehrzahl der Fälle wird das eine Passage des Layouts betreffen. Sehr häufig werden Bildunterschriften betroffen sein oder die Darstellung von Tabellen und Ähnlichem. Aber nehmen wir an irgendwann kommt die übernächste deutsche Rechtschreibreform und es gibt kein Eszett mehr, was passiert dann? Wie migriere ich ein Eszett? Dahinter stecken Probleme, die heftig in der Diskussion sind. Handelt es sich bei der Anpassung an modernere Systeme lediglich um eine „Schönheitsoperation“ oder um eine Verfälschung des Originals?

Wie will man derartige Probleme lösen?

Peter Schirmbacher: Es gibt es das Bestreben, dass wir die Dateien, die für eine langfristige Archivierung vorgesehen sind in ein dafür besonders geeignetes Format konvertieren. Von diesen Formaten gibt es zwei Favoriten. Das eine ist xml, extensible markup language. Dadurch, dass xml ein internationaler Standard ist und kein Firmenformat, wie zum Beispiel Microsoft Office, ist die Wahrscheinlichkeit groß, dass dieser Standard auch in 50 Jahren mindestens verstanden wird, weil er sehr gut und in jedem Detail dokumentiert wurde, wir sagen dazu offengelegt. Jedermann kann ihn also lesen. Deutlich verbreiteter ist PDF, portable document format. Im PDF/A-Standard, A steht für Archivierung, sind Kriterien beschrieben, die festlegen, was man tun muss, damit das PDF so archiviert wird, damit es auch zu späterer Zeit wieder unverändert geöffnet werden kann. Im Wesentlichen heißt das, dass alle Elemente, die benötigt werden, um das PDF lesen zu können in dieser Datei integriert sein müssen. Zum Beispiel sogenannte Stylesheets: Wenn ich eine besondere Schriftart habe, vielleicht weil ich einer Firma mit einem Coorporate Design angehöre, muss ich diese Schriftart in die Datei einbetten, damit man auch in 20 Jahren diese Schriftart noch rekapitulieren kann. Mit PDF/A kann die Dokumentenechtheit über diese lange Zeit erreicht werden und ich kann zu einem deutlich späteren Zeitpunkt die Datei wieder so lesen, wie ich sie eingespeichert habe. Ich gebe gerne zu, dass all das, was ich erzählt habe, die vereinfachte, und problemfrei dargestellte Sachlage ist. Es gibt auf diesem Weg viele noch ungeklärte Dinge und viele Forschungsthemen, die es zu bearbeiten gilt.

Hätten Sie da ein Beispiel?

Peter Schirmbacher: Ein Problem sind die heute vielfach in wissenschaftlichen Arbeiten vorgenommenen Verlinkungen zu anderen Texten, Bildern oder Forschungsdaten. Wenn ich diese Verlinkungen speichere, bleibt die Frage nach der Verlässlichkeit des Links. Wird es künftig die Quelle noch geben, auf die heute der Link verweist?


Interview: Valérie Labonté
Bild: privat




Teil 2: Kann man elektronische Publikationen manipulieren?



Letzte Änderungen: 12.07.2012
© 2009 Laborjournal und F & R Internet Agentur