Advertisement
Info

Verlage mauern, Forscher meckern

Textmining ist eine vielversprechende Methode, um publizierte Informationen sinnvoll zu bündeln. Bislang ziehen die Verlage jedoch nicht wirklich mit. Jetzt gehen die Forscher auf die Barrikaden: „The right to read is the right to mine“.
editorial_bild

(03. April 2013) Ein typischer Samstagvormittag an meiner alten Uni-Bibliothek, damals im Jahr 1997: Der Zellbio-Prof schreitet feierlich die Regale mit den neuesten Fachzeitschriften ab und setzt sich mit einem Stapel Journals an einen Tisch. Mit strengem Blick bringt er schwatzende Studenten zum Schweigen, setzt die Lesebrille auf und krakelt Informationen zu seinen Forschungsthemen in ein Notizbuch. Zwei Stunden später verlässt er zufrieden die Bibliothek, wohlwissend, sich in seiner Zellbiologie-Nische der auf den neuesten Stand gebracht zu haben.

Schnell wieder ins Jahr 2013. Einerseits haben es die Forscher heute leichter: PubMed hilft bei der gezielten Literatursuche vom Büro aus, und mancher Forscher hat die Bibliothek seit Jahren nicht mehr von innen gesehen. Gleichzeitig jedoch ist die Zahl der Fachartikel explosionsartig angewachsen, Jahr für Jahr erscheinen etwa 1,5 Millionen wissenschaftliche Veröffentlichungen. Wie können Forscher diese aufgeblähte wissenschaftliche Literatur überhaupt effektiv und sinnvoll nutzen? Ein Teil der Antwort könnte sein: Indem sie Computerprogramme einsetzen, die gezielt Informationen extrahieren und bündeln; „Textmining“ heißt diese Methode.

Ein Anwendungsbeispiel: Forscher der Universität Manchester haben eine Software entwickelt, die DNA-Sequenzen in Genom-Browsern mit der Primärliteratur verknüpft („Text2Genome“, http://text2genome.smith.man.ac.uk). Stößt ein Forscher zum Beispiel in einem Experiment auf ein Stück DNA, kann er direkt auf entsprechende Passagen aus Fachartikeln zugreifen, die Teile dieser DNA-Sequenz erwähnen.

Textmining ist somit ein vielversprechender Ansatz – indes, all zu viele konkrete Anwendungen gibt es noch nicht. Das liegt unter anderem auch an technischen Schwierigkeiten: Computerprogramme können bisher noch eher schlecht Informationen aus einem für verständige Menschen geschriebenen Text sinnvoll zuordnen. Wobei es die stupiden Rechenknechte auch nicht leichter hätten, wenn Gleiches überall gleich benannt wird und Unterschiedliches unterschiedlich.

Davon abgesehen bremsen aber auch die wissenschaftlichen Traditionsverlage. Elsevier, Macmillan und Wiley verbieten beispielswesie ausdrücklich das automatisierte Abgrasen ihrer Artikel-Bestände – und zwar auch dann, wenn die jeweilige Arbeitsgruppe oder ihr Institut ein bezahltes Abonnement hat. Nur wenn sich Forscher und Verlag auf eine individuelle Lizenzvereinbarung einigen (eventuell nochmals kostenpflichtig), dürfen Computer auf Artikelbestände losgelassen werden.

Forscher, die anfragen Verlagsinhalte für automatisiertes Durchforsten freizugeben, erhalten oft nur nach langer Verzögerung eine Antwort. Für ein umfassendes Textmining kommt es jedoch oft darauf an, Zugang zur gesamten Literatur zu haben – man müsste sich also für jedes Projekt separat mit allen großen Verlagen einigen. Ein logistischer Albtraum, wie jeder weiß, der schon mal versucht hat, nur mit einem einzigen Verlag eine Sonderlösung für ein Copyright-Problem auszuhandeln. 

Im Kern geht es darum, dass die Traditionsverlage ihr etabliertes Geschäftsmodell schützen wollen: Wer lesen will, soll zahlen. Eine ihrer Befürchtungen ist nämlich, dass sogenannte „Webcrawler“ ganze Artikel en masse abziehen, um sie anderswohin weiterzureichen. Die Verlage wollen deshalb die Kontrolle darüber behalten, welche Computer ihre Server durchforsten dürfen. Daneben argumentieren manche Verlage auch, dass die Kapazitäten der Server auf den Ansturm von automatisierten Datensammlern gar nicht vorbereitet seien. 

Hinter diesen eher vorgeschobenen Argumenten schwelt indes ein anderer Konflikt: Fakten und Informationen sind grundsätzlich nicht urheberrechtlich geschützt und können jederzeit von allen weiterverbreitet werden. Das Urheberrecht schützt „Werke“, nicht Informationen. Wie aber sieht die rechtliche Lage aus, wenn ein Computerprogramm zum Beispiel Tausende Artikel einliest, nach Stichworten durchsucht und dann ausgewählte Sätze in eine Datenbank kopiert? Andere Länder, wie etwa die USA, Japan, Südkorea und ab Ende des Jahres auch Großbritannien, haben klare Regelungen getroffen, die diese Art Text- und Datenmining grundsätzlich erlauben; Europa hinkt leider hinterher.

Textmining wird demnach also auf zweierlei Weise ausgebremst: Durch Lizenzvereinbarungen, die das automatisierte Abrufen der Inhalte auf den Verlagsservern verbieten, wie auch durch wissenschaftsunfreundliche Copyright-Regelungen. „The right to read is the right to mine“ ist inzwischen deshalb der Kampfslogan der Forscher. Auf deutsch könnte man sagen: Wenn ich einen Artikel lesen darf, dann darf mein Computer auch gezielt Informationen daraus einsammeln – genau so wie mein Zellbio-Prof früher mit Bleistift und Papier Exzerpte angefertigt hat, ganz ohne spezielle Erlaubnis des Verlags.

Eine Arbeitsgruppe der Europäischen Kommission, bestehend aus Forschern, Bibliothekaren, Verlagsleuten und Brüssler Beamten, versucht seit Jahresbeginn, die rechtlichen Rahmenbedingungen für das Text- und Datenmining abzustecken. Das hört sich bürokratisch, frustrierend und langwierig an; und nach allem, was man hört, ist es das auch. Zuletzt haben sich teilnehmende Wissenschaftler und Bibliothekare in einem Brief an die zuständigen EU-Kommissare sinngemäß darüber beschwert, dass die Verlage mauern und offenbar gar nicht wirklich darüber verhandeln wollten, Textmining vom Copyright auszunehmen.

Was wieder einmal zeigt: Forschungsergebnisse hinter Bezahlschranken zu packen und nur streng kontrolliert herauszurücken – das traditionelle Geschäftsmodell der Verlage also – ist mit dem datenhungrigen Wissenschaftsbetrieb des 21. Jahrhunderts kaum noch kompatibel.

Hans Zauner

Weitere Quellen:

- Nature-Artikel vom 21. März (vol. 495: 295): Text-mining spat heats up

- Interessanter Blog zum Thema: Research Remix; darin unter anderem auch ein Erfahrungsbericht über das Aushandeln einer Textmining-Lizenz mit Elsevier



Letzte Änderungen: 12.07.2013

Diese Website benutzt Cookies. Wenn Sie unsere Website benutzen, stimmen Sie damit unserer Nutzung von Cookies zu. Zur ausführlichen Datenschutzinformation