Editorial

"Mehr Licht"

Alternative Metriken in der Forschungsbewertung

Von Robin Haunschild, Stuttgart


(12.07.2016) Alternative Metriken analysieren die Nennungen von wissenschaftlichen Artikeln in sozialen Medien und anderen Online-Quellen. Was können sie zur Bewertung von Forschungsleistungen beitragen?

Essays
Foto: Photosindia / CSP_pterwort

Die Bibliometrie als Teilgebiet der Informetrie und Szientometrie hat sich mittlerweile als eigenständiger Forschungsbereich etabliert. Es gibt eigene Lehrstühle an Hochschulen, eigene Fachzeitschriften, regelmäßige Konferenzen und Forschungspreise. Bibliometriker beschäftigen sich hauptsächlich mit der Anwendung, der fortwährenden Verbesserung und der Entwicklung von neuen Indikatoren für die Forschungsbewertung.

Innerhalb der Bibliometrie ist gerade ein sehr junges Forschungsgebiet dabei, sich zu etablieren: die alternativen Metriken, beziehungsweise Altmetrics. Im Forschungsgebiet der alternativen Metriken gibt es bereits jährliche Konferenzen (siehe etwa altmetricsconference.com), aber noch keine eigenen Lehrstühle, keine eigenen Fachzeitschriften oder relevanten Forschungspreise. Fortschritte und Entwicklungen in diesem sehr jungen Fachgebiet werden derzeit in bibliometrischen Fachzeitschriften publiziert.

Der Begriff „Altmetrics“ wurde 2010 durch Jason Priem auf Twitter geprägt.1 2011 wurde die britische Firma Altmetric gegründet, die sich auf die Sammlung und kommerzielle Bereitstellung von alternativen Metriken spezialisiert hat. Das Altmetrics-Manifest2 stellt die Motivation und Zielsetzung von Forschern auf dem Gebiet der alternativen Metriken dar.

In der Bibliometrie werden Zitate in Fachzeitschriften ausgewertet, um die Wirkung eines Artikels zu bewerten. In den alternativen Metriken werden im Gegensatz dazu (fast) alle anderen Referenzierungen außer Zitierungen von Artikeln verwendet, um die Wirkung eines wissenschaftlichen Artikels zu beurteilen. Im Kern bestehen alternative Metriken aus Nennungen von wissenschaftlichen Artikeln in sozialen Medien wie Google+, LinkedIn, Twitter und Facebook. Ebenso gehören aber auch Erwähnungen von wissenschaftlichen Artikeln in Blogs und Nachrichtenforen (etwa BBC oder CNN), Zählungen in Online-Referenz-Managern wie etwa Mendeley, Besprechungen und Empfehlungen von wissenschaftlichen Artikeln nach deren Publika­tion („Post-Publication Peer-Review“, zum Beispiel in F1000Prime, Pub­Peer und Pub­lons) sowie Nennungen in politikrelevanten Dokumenten (etwa Dokumente des IPCC oder der WHO), Wikipedia-Einträgen und vielen weiteren Quellen zum Sammelsurium der alternativen Metriken.

Diese Referenzierungen in alternativen Metriken erfolgen zum Teil in ähnlicher Form wie in Fachartikeln, zumeist aber in Form eines Hyperlinks auf die Verlagswebseite des Artikels. Die Anbieter alternativer Metriken (Beispiele sind Altmetric, Plum Analytics und Impact Story) sammeln die Nennungen von wissenschaftlichen Artikeln in diversen Quellen und aggregieren diese auf Artikelbasis. Daher gehören die alternativen Metriken zur Klasse der Artikel-Level-Metriken – auch wenn sie oftmals höher aggregiert ausgewertet werden, wie etwa auf der Ebene von Fachzeitschriften, Universitäten oder Ländern.

Altmetric bietet nicht nur die aggregierten Daten in den einzelnen Quellen an, sondern erzeugt auch ein Altmetric-Score für alle wissenschaftlichen Artikel.3 Hierbei kommt eine recht willkürliche Formel zum Einsatz, in der Nennungen in Nachrichtenmedien mehr zählen als Nennungen in Blogs oder Tweets. Zum Teil wird auch innerhalb der einzelnen Quellen unterschieden. Beispielsweise zählt der Tweet eines bekannten Wissenschaftlers (etwa Richard Dawkins) unabhängig vom Fachgebiet mehr als der Tweet eines unbekannten Twitter-Nutzers.

Eine wichtigere Differenzierung wäre inhaltlicher Natur: Hat der Twitter-Nutzer „nur“ den Link zum wissenschaftlichen Artikel, gegebenenfalls mit Autorennamen und Titel, getwittert? Ein solcher Tweet lässt nicht auf eine detaillierte Beschäftigung mit dem wissenschaftlichen Artikel schließen. Wenn ein Twitter-Nutzer jedoch einen für ihn wichtigen Teil des Artikels in den 140 Zeichen des Tweets unterbringt, deutet dies auf eine deutlich intensivere Beschäftigung mit dem Artikel hin. In einem Tweet, einem Facebook- oder Blog-Eintrag könnte auch eine inhaltliche Stellungnahme zu einem wissenschaftlichen Artikel stehen (beispielsweise „gute Studie“ oder „nicht-reproduzierbarer Mist“). Angesichts der jüngsten Fortschritte in der automatisierten Textanalyse lässt sich erahnen, dass bei alternativen Metriken künftig mehr in diese Richtungen differenziert werden wird.

Man erhofft sich von alternativen Metriken vieles, vielleicht zu viel. Zum einen erwartet man eine schnellere Wirkungsmessung, als sie mit Zitaten möglich ist. Es ist bekannt, dass die Zitat-basierte Wirkungsmessung träge und langsam ist: Nach der Publikation muss ein wissenschaftlicher Artikel zunächst gefunden, gelesen und verstanden werden, bevor er zitiert werden kann. Diese Schritte (zumindest das Finden) müssen zwar auch bei alternativen Metriken stattfinden, dann kann das Feuerwerk der alternativen Metriken allerdings unmittelbar starten. Bis dagegen die ersten Zitate eintrudeln, dauert es meist Monate bis Jahre, weil üblicherweise erst ein Forschungsprojekt durchgeführt und ein Manuskript geschrieben werden muss. Dieses Manuskript wird bei einer Fachzeitschrift eingereicht und begutachtet. Allein dies kann je nach Fachgebiet bisweilen plusminus ein Jahr dauern. Wird das Manuskript dann zur Publikation in einer Fachzeitschrift akzeptiert, dauert es üblicherweise noch einige Monate, bis sich die Referenzen als Zitate in Literaturdatenbanken widerspiegeln.

Anhand dieses Zeitverlaufs wird aber auch klar erkennbar, dass alternative Metriken eine andere Bedeutung haben müssen als Zitate, weil meistens ein bedeutender Teil des Prozesses der Referenzierung fehlt: sowohl die neue Forschung, die auf dem referenzierten Artikel aufbaut, als auch der Begutachtungsprozess gehen den meisten Beiträgen in den Quellen alternativer Metriken ab (etwa in Twitter, Facebook und Blogs). Nur die politikrelevanten Dokumente haben sich als noch träger und langsamer als Zitate erwiesen. Das hängt damit zusammen, dass Berichte (etwa des IPCC oder der WHO) deutlich seltener als wissenschaftliche Artikel erscheinen und es bei politikrelevanten Dokumenten zudem einen Qualitätssicherungsprozess ähnlich wie beim Peer-Review-Verfahren gibt. Außerdem dauert die Akzeptanz wissenschaftlicher Erkenntnisse in politisch aktiven Organisationen zum Teil recht lange.

Berechnet man Korrelationen zwischen alternativen Metriken und Zitaten, sieht das Bild ernüchternd aus: Signifikante Korrelationen mit Zitaten zeigen sich nur bei F1000Prime-Empfehlungen und Leserzählungen bei Online-Referenzenmanagern (insbesondere Mendeley). Die Korrelationen zwischen Zitaten und anderen Quellen alternativer Metriken sind verschwindend gering. Hieraus folgt aber, dass eine Hoffnung, die mit alternativen Metriken verbunden wird, womöglich tatsächlich verwirklicht werden könnte: In den ersten paar Jahren nach Publikation könnte die Wirkung von wissenschaftlichen Artikeln auf die Wissenschaft über Daten aus Online-Referenzmanagern bestimmt werden. Für ältere Publikationen sind Zitatdaten dagegen zuverlässiger für die Forschungsbewertung.

Bei Quellen wie Twitter kann man derzeit nur aussagen, dass die Nennung eines wissenschaftlichen Artikels auf Twitter lediglich die Wirkung widerspiegelt, die dieser Artikel auf Twitter-Nutzer hat. Ähnliches lässt sich für Facebook, Nachrichtenportale, LinkedIn und andere Quellen formulieren. Weitere Forschung auf diesem Gebiet ist notwendig, um diesen Quellen später vielleicht einmal weitergehende Bedeutung zusprechen zu können.

Die alternativen Metriken werden oft im Zusammenhang mit der Messung gesellschaftlicher Wirkung von wissenschaftlichen Artikeln gesehen, weil man bei alternativen Metriken zum Teil die Nutzergruppen unterscheiden kann. In der Bibliometrie ist man sich einig, dass durch Zitate die Wirkung von Wissenschaft auf die Wissenschaft gemessen wird. Bei Twitter und Facebook können die Selbstbeschreibungen der Nutzer ausgewertet werden. Anhand bestimmter Suchbegriffe werden Nutzer als Wissenschaftler, Fachmann, Wissenschaftsvermittler und Teil der allgemeinen Gesellschaft eingeteilt. Bei Mendeley müssen Nutzer angeben, zu welcher akademischen Nutzerkategorie (etwa Student, Professor oder Bibliothekar) sie gehören. Mit Hilfe solcher Zuordnungen kann man zielgerichteter als mit Zitaten die Wirkung von wissenschaftlichen Artikeln auf die Gesellschaft messen. Dazu kommen noch die geografischen Daten. Bei Mendeley erhält man „nur“ das Land, das der Nutzer angibt, bei Tweets dagegen sind zum Teil sehr genaue geografische Daten verfügbar. Zusätzlich geben Mendeley-Nutzer oft ihr wissenschaftliches Fachgebiet an.

Essays
Zählungen in sozialen Medien spielen eine große Rolle in den alternativen Metriken. Illustration: wallpaper.zon

Man muss jedoch Vorsicht walten lassen, wenn alternative Metriken von Aggregatoren (Anbieter von Daten aus vielen verschiedenen Quellen alternativer Metriken) verwendet werden. Die Primärquellen für wissenschaftliche Artikel sind Plattformen, die leicht durchsucht werden können (üblicherweise Twitter und Facebook). Die Artikel, die in diesen Primärquellen gefunden wurden, werden ebenfalls auf anderen Plattformen gesucht. Mir ist aufgefallen, dass sich bei Mendeley direkt abgefragte Leserzahlen eines Satzes von Artikeln deutlich von denjenigen unterscheiden, die Aggregatoren ermitteln. Bei Aggregatoren findet man etwa viele wissenschaftliche Artikel nicht, für die Leserzahlen bei Mendeley hinterlegt sind. Das liegt daran, dass die Aggregatoren keine bibliographische Datenbank zur Hand haben und viele wissenschaftliche Artikel Leserzahlen auf Mendeley haben, dagegen aber keine Nennung auf Twitter oder Facebook. Allerdings unterscheiden sich andere soziale Netzwerke stark von Twitter und Facebook. Daher sollte man auch nicht erwarten, dass ein wissenschaftlicher Artikel, der in einem Tweet oder Facebook-Beitrag genannt wird, auch Online-Referenzmanager-Leser hat oder in Beiträgen auf LinkedIn genannt wird.

Die Nennung von wissenschaftlichen Artikeln in politikrelevanten Dokumenten dagegen ist interessant, weil dadurch festgestellt werden kann, welche wissenschaftlichen Artikel für Gesetzgebung und politisch aktive Organisationen relevant sind. Leider gibt es derzeit sehr wenige Artikel, die in politikrelevanten Dokumenten genannt werden. Dafür gibt es drei offensichtliche Gründe:

  1. Nur ein kleiner Teil der wissenschaftlichen Literatur ist in der Art politikrelevant, dass er in entsprechenden Dokumenten referenziert wird.
  2. Die Datenanbieter von alternativen Metriken können noch nicht alle politikrelevanten Dokumente nach Referenzierung von wissenschaftlichen Artikeln durchsuchen.
  3. Die Autoren politikrelevanter Dokumente sind häufig keine Wissenschaftler oder haben sich recht weit von der Wissenschaft entfernt. Daher kann man in politikrelevanten Dokumenten nicht unbedingt das Zitierverhalten eines Wissenschaftlers erwarten.

Ähnlich wie bei Zitaten sind auch bei alternativen Metriken fachspezifische Unterschiede zu erwarten: Artikel in multidisziplinären Wissenschaftsgebieten weisen die höchste Aktivität in alternativen Metriken auf, gefolgt von verschiedensten bio-logischen und medizinischen Fachgebieten. Alternative Metriken haben mit Zitaten gemein, dass die geringste Aktivität in den Geisteswissenschaften zu beobachten ist, was jedoch zum Teil an der schlechten Datenbankabdeckung liegt.

Wegen dieser fachspezifischen Unterschiede sagen einfache Nennungen in alternativen Metriken ähnlich wenig aus wie einfache Zitatzahlen. In der Bibliometrie haben sich Normierungsverfahren etabliert, um fachliche und zeitbedingte Effekte zu berücksichtigen. Diese Normierungsverfahren sollten Schritt für Schritt in die alternativen Metriken übertragen werden. Zusammen mit Lutz Bornmann (siehe Essay S. 36-39) habe ich begonnen, die wichtigsten etablierten Normierungsverfahren aus der Biblio­metrie in die alternativen Metriken zu übertragen: Wir haben den MNRS (Mean Normalized Reader Score)4 und MDNRS (Mean Discipline Normalized Reader Score)5 für Online-Referenzmanager (insbesondere Mendeley) vorgeschlagen. Ebenfalls haben wir einen Perzentil-basierten Indikator (Twitter-Perzentile)6 auf Twitter angewendet. Diese drei Indikatoren sind fach- und zeitnormiert.

Beim MNRS-Indikator wird die Anzahl der Mendeley-Leser eines wissenschaftlichen Artikels durch die mittlere Leseranzahl derjenigen wissenschaftlichen Artikel geteilt, die in demselben Fachgebiet und Publikationsjahr veröffentlicht wurden. Dabei bedeuten Werte über 1, dass dieser wissenschaftliche Artikel eine überdurchschnittliche Wirkung erzielt hat; Werte unter 1 bedeuten, dass eine unterdurchschnittliche Wirkung erzielt wurde.

Der MDNRS basiert analog zum MNRS auf dem Verhältnis der Leseranzahl eines wissenschaftlichen Artikels zum Fachdurchschnitt im selben Publikationsjahr. Beim MDNRS wird das Fach aber nicht durch die Fachkategorie des wissenschaftlichen Artikels, sondern die bei Mendeley hinterlegte Fachkategorie des Lesers bei dem Normierungsverfahren verwendet. Der MNRS ist verwandt mit den „Cited-Side“-Methoden der Bibliometrie, und der MDNRS ist verwandt mit den „Citing-Side“-Methoden der Bibliometrie. Die MDNRS-Werte lassen sich nicht so einfach interpretieren wie die MNRS-Werte – aber je größer der MDNRS-Wert ist, desto stärker ist die Wirkung, die dieser wissenschaftliche Artikel auf Mendeley gehabt hat.

Bei den Twitter-Perzentilen werden die wissenschaftlichen Artikel nach der Anzahl der Tweets pro Artikel absteigend sortiert, und es werden Rangplätze vergeben. Es gibt verschiedene Vorschläge, die Rangplätze in Perzentilränge umzurechnen, die sich lediglich in kleineren Details unterscheiden. Diese Prozedur wird für jedes Fachgebiet und jedes Publikationsjahr separat durchgeführt. Man erhält für jeden Artikel einen Perzentil-Rang zwischen 0 und 100. Ein Perzentil-Rang von 50 bedeutet eine durchschnittliche Wirkung des Artikels (in diesem Fall auf Twitter). Methoden, die auf Perzentil-Rängen beruhen, haben weitere Vorteile bei der Interpretation: Ein Perzentil-Rang von 90 bedeutet, dass der Artikel gerade noch zu den Top-10 Prozent aller Artikel gehört und dass 90 Prozent aller Artikel weniger Wirkung entfaltet haben. Des Weiteren leiden Perzentil-Methoden nicht unter der verzerrenden Auswirkung von starken Ausreißern.

Von wenigen Ausnahmen abgesehen ist es unbekannt, welche Wirkung eines wissenschaftlichen Artikels durch alternative Metriken aufgezeigt wird. Auch ist die Bedeutung der aggregierten Zahlen unklar. Zumindest sollten keine unnormierten Zahlen aggregiert werden. Bei Online-Referenzmanager-Leserzahlen deutet viel darauf hin, dass sie größtenteils die Wirkung auf die Wissenschaft widerspiegeln – und das schneller als Zitate. Legt ein Benutzer einen Artikel in seine Online-Bibliothek, kann dies als wissenschaftliches Interesse an diesem Artikel gedeutet werden. Daher kann man einen Online-Referenzmanager-Leser als ein mögliches zukünftiges Zitat in der Wissenschaftsliteratur auffassen. Allerdings trifft dies nicht auf alle gespeicherten Publikationen in Online-Referenz-Managern zu. Des Weiteren ist es auch möglich, dass nach der Speicherung einer Publikation diese tatsächlich auch in einem neuen Manuskript zitiert wird, das Manuskript aber abgelehnt und nicht veröffentlicht wird. Es hat sich gezeigt, dass Mendeley-Leserzählungen mittelmäßig mit Zitatzählungen korrelieren. Es wird daher auch eine von Zitaten abweichende Wirkung mit Online-Referenzmanager-Zählungen gemessen. Welche Wirkung dies ist, ist jedoch noch unklar.

Artikel-Empfehlungen (zum Beispiel via F1000Prime) sind auch sehr interessant für die Forschungsbewertung. Allerdings existieren derzeit noch zwei Hindernisse:

  1. Es gibt noch zu wenig empfohlene Artikel, um von einer umfassenden Abdeckung ausgehen zu können. Daher hat es eine positive Aussagekraft, wenn ein Artikel empfohlen wurde, aber es hat gar keine Aussagekraft, wenn ein Artikel nicht empfohlen wurde.
  2. Es gibt derzeit nur eine geringe fachliche Abdeckung. F1000Prime hat mit Biologie, Medizin und Lebenswissenschaften zwar bereits eine relativ große Menge der Wissenschaftsliteratur erfasst, es fehlen jedoch noch viele weitere Wissenschaftsbereiche, so dass von einer umfassenden Abdeckung der Wissenschaftsliteratur noch nicht gesprochen werden kann.

Alternative Metriken sind insgesamt noch nicht reif für die Verwendung in der Forschungsbewertung. Jedoch scheinen normierte Leserzählungen in Online-Referenzmanagern ein guter Kandidat zu sein, um zukünftig in der Forschungsbewertung eine gewisse Rolle zu spielen. In bestimmten Gebieten, insbesondere Biologie, Medizin und Lebenswissenschaften, kann es auch hilfreich sein, sich die Anzahl der empfohlenen Artikel sowie die Empfehlungen selbst anzusehen. Bei Quellen wie Facebook und Twitter sollte man sich derzeit mehr die Inhalte der Beiträge ansehen als die aggregierten Zahlen. Aggregierte Daten zu alternativen Metriken sollten derzeit nur verwendet werden, um in der Szientometrie zu erforschen, welche Wirkung von den alternativen Metriken abgebildet wird – sie sollten aber nicht für die Forschungsbewertung eingesetzt werden.

Robin Haunschild arbeitet als Wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Festkörperforschung in Stuttgart und ist verantwortlich für die Servicegruppe Fachinformation der Max-Planck-Gesellschaft.



Referenzen

  1. Priem J „I like the term #articlelevelmetrics, but it fails to imply *diversity* of measures. Lately, I’m liking #altmetrics.“ https://twitter.com/#!/jasonpriem/status/25844968813.
  2. Priem J, Taraborelli D, Groth P, Neylon C. Altmetrics: a manifesto 2010. Retrieved 28 March 2015, from http://altmetrics.org/manifesto/.
  3. Altmetric How is the Altmetric score calculated? https://help.altmetric.com/support/solutions/articles/6000060969-how-is-the-altmetric-score-calculated
  4. Haunschild R, Bornmann L (2016) Normalization of Mendeley reader counts for impact assessment. Journal of Informetrics 10:62-73. doi: 10.1016/j.joi.2015.11.003.
  5. Bornmann L, Haunschild R (2016) Normalization of Mendeley reader impact on the reader- and paper-side: A comparison of the Mean Discipline Normalized Reader Score (MDNRS) with the Mean Normalized Reader Score (MNRS) and bare reader counts. Journal of Informetrics. doi: 10.6084/m9.figshare.2554957.v2.
  6. Bornmann L, Haunschild R (2016) How to normalize Twitter counts? A first attempt based on journals in the Twitter Index. Scientometrics 1-18. doi: 10.1007/s11192-016-1893-6.




Letzte Änderungen: 12.07.2016