Editorial

Künstlich-intelligente Wissenschaftsbegutachtung

Henrik Müller


(09.06.2021) Maschinelle Sprachverarbeitung und neuronale Netzwerke versprechen, Peer-Review-Verfahren zu beflügeln und von menschlichen Schwächen zu befreien. Evaluieren sie eventuell sogar wissenschaftliche Qualität effizienter?

Unterzöge sich das Peer Review einem Peer Review, stünde das Begutachtungsurteil fest: Revise and Resubmit! Lutz Bornmann, Wissenschafts- und Innovationsforscher an der Münchner Generalverwaltung der Max-Planck-Gesellschaft erklärt zwar: „Peer Review ist die zentrale Säule der Wissenschaftsbegutachtung. Es ist alternativlos, weil nur Fachkollegen wissenschaftliche Qualität beurteilen können.“ Er ergänzt aber direkt: „Natürlich ist kein System perfekt. Seine Schwachstellen liegen seit Jahren auf dem Tisch.“ Zu diesen zählen:

  • Peer Review ist ineffizient. Fälle von HARKing, Statistikschwächen, p-Hacking, selektiver Datenanalyse bis hin zu Fälschungen entgehen ihm.
  • Peer Review ist voreingenommen. Weder verhindert es, dass Editoren und Gutachter auf Basis von Geschlecht, Nationalität oder Sprachfähigkeit von Autoren urteilen, noch legt es Interessenskonflikte oder Peer-Review-Ringe befreundeter Wissenschaftler offen.
  • Peer Review ist langsam und kostspielig. Durchschnittlich dauert die wissenschaftliche Begutachtung drei Monate und kostet Gutachtern weltweit Zeit im Wert von mehreren Milliarden Euro pro Jahr (RIN Report, doi: 10.1629/21194).
  • Peer Review verzerrt. Es verachtet negative und bestätigende Ergebnisse und favorisiert Modethemen auf Kosten neuartiger oder interdisziplinärer Randstudien. Gleichzeitig garantiert es nicht, dass Zeitschriften hohen Ansehens die bedeutendsten Publikationen enthalten.

Neu ist natürlich nichts davon. Doch das digitale Zeitalter entblößt die Verstaubtheit des Peer-Review-Verfahrens umso mehr, indem es dessen Schwächen potenziert.

hg_21_06_01a
Illustr.: AdobeStock / pathdoc

Gegenwärtig erscheinen pro Jahr drei Millionen Artikel in 40.000 Peer-Review-Journalen. Laut einer Publons-Umfrage von 2018 sind dafür jährlich 13,7 Millionen Reviews nötig. Zusätzlich wächst laut International Association of Scientific, Technical, and Medical Publishers die Anzahl an Manuskripten und Zeitschriften um jährlich vier beziehungsweise fünf Prozent. Bornmann benennt das zentrale Problem, das sich dadurch ergibt: „Hochwertige Gutachter finden! Als Editor von PLOS ONE muss ich manchmal mehr als zehn Personen anschreiben, um nach Wochen eine Zusage zu erhalten.“ Laut Publons-Umfrage verschicken alle Journal-Editoren jedes Jahr zehn Prozent mehr Einladungen. Nimmt die Gutachter-Müdigkeit weiter zu, leidet die Manuskript-Qualität – und das gegenwärtige Peer-Review-Verfahren verliert komplett seinen Nutzen.

Einen möglichen Ausweg aus der Flut an Manuskripten bieten maschinelle Sprachverarbeitung und neuronale Netzwerke, also umgangssprachlich „künstliche Intelligenz“ (KI). Für Einreichung und Prozessierung von Manuskripten nutzen die großen Fachzeitschriften Online-Plattformen, und zwar entweder Clarivate Analytics ScholarOne (Nature Publishing Group, SAGE, Taylor & Francis) oder Aries Editorial Manager (Elsevier, PLOS, Springer, Taylor & Francis, Wiley). Diese koordinieren den Arbeitsablauf zwischen Autoren, Editoren und Gutachtern, sammeln Metadaten, vernetzen eingereichte Referenzlisten mit den Originalarbeiten und suchen nach Plagiaten. All das macht die Manuskript-Begutachtung bereits effizienter, transparenter und bequemer. Komplexe Algorithmen maschinellen Lernens sind dafür freilich noch nicht unbedingt nötig.

Keine Vorurteile

KI-Werkzeuge binden sie erst in einem Pre-Peer-Review-Screening ein, das Manuskript-Texte und Abbildungen auf Vollständigkeit, Formatierung und Lesbarkeit überprüft. Für Letzteres analysiert Text-Mining-Software Worthäufigkeiten, Satzlängen und die Komplexität des Vokabulars. Unerfüllte Qualitätsstandards meldet sie unmittelbar an die Autoren zurück.

Tatsächlich kann KI-gestütztes Vor-Screening das Ergebnis menschlicher Begutachtung oft schon anhand der Lesbarkeit voraussagen (Humanit. Soc. Sci. Commun., doi: 10.1057/s41599-020-00703-8). Menschlichen Gutachtern sind derartige Maschinen-Algorithmen also bereits in einem Punkt überlegen: Sie erkennen das Vorurteil, von schlecht formatierten oder holprig präsentierten Ergebnissen auf deren wissenschaftliche Qualität zu schließen.

Die Ambitionen der Software-Ingenieure reichen indes weiter: Wissenschaftliche Qualität soll vorurteilsfrei bewertet und Peer Review von Systemfehlern befreit werden.

Wie steinig der Weg dorthin ist, demonstriert beispielsweise das Statcheck-Projekt des Meta-Research Center der Universität Tilburg (mbnuijten.com/statcheck/). Dessen Text-Mining-Werkzeug spürt Statistikfehler in Forschungsartikeln auf, indem es Originaldaten aus PDF- oder HTML-Dateien extrahiert und p-Werte und Freiheitsgrade erneut berechnet. Laut seiner Entwickler finden sich in der Hälfte von 50.000 derart überprüften Psychologie-Publikationen statistische Unstimmigkeiten, die in einem von acht Fällen die Aussage der Veröffentlichung beeinflusst.

hg_21_06_01b
Illustr.: AdobeStock / mast3r

Fatale Fehlalarme

Eine Kontroverse löste das Statcheck-Team aber erst aus, als es die angeblichen Statistikschwächen auf der Whistleblowing-Plattform PubPeer veröffentlichte, ohne betroffenen Autoren die Chance zu geben, ihre Ergebnisse zu verifizieren oder zu kommentieren. Unter ihnen fand sich zu seiner eigenen Überraschung auch Thomas Schmidt, Fachgebietsleiter für Allgemeine Psychologie an der Technischen Universität Kaiserslautern: „Tatsächlich enthalten zwei unserer Veröffentlichungen Tippfehler in fünf von 180 statistischen Tests. Normalerweise wären wir für solch einen Hinweis dankbar. Ärgerlich war aber, dass das Programm in unserem Fall auch noch dreißig Fehlalarme auslöste, obwohl an diesen Tests alles in Ordnung war.“

Schmidt drehte den Spieß um und analysierte seinerseits die Funktionsweise von Statcheck: „Das Programm detektiert nur Zeichenketten eines bestimmten Formats und übersieht deshalb jede Statistik, die summarisch, in Textform oder in Tabellen wiedergegeben ist.“ Im oben genannten Datensatz aus 50.000 Psychologie-Publikationen offenbart es somit nur eine Sensitivität von 51,8 Prozent.

„Und wenn Statcheck eine inkonsistente Statistik findet“, fährt Schmidt fort, „liegt es nur in 60,4 Prozent der Fälle richtig.“ Denn korrigierte Statistikergebnisse erkennt es nicht. Verletzt eine statistische Analyse stochastische Annahmen zur Datenverteilung, müssen ermittelte p-Werte etwa durch die Greenhouse-Geisser-, Bonferroni- oder Huynh-Feldt-Methoden angepasst werden. Statcheck schlägt dann jedoch Alarm. Schmidt fasst zusammen: „Publikationen, die p-Werte konservativ korrigieren, werden mit einer Warnflagge versehen. Publikationen, die notwendige Korrekturen unterlassen, werden hingegen als konsistent zertifiziert. Ein Programm, das genauso viele falsche Alarme wie Treffer verursacht und die Hälfte der Statistiktests gar nicht erst erkennt, ist sowohl als Schreibtischhilfe wie auch als Forschungs-Tool ungeeignet.“

Die Deutsche Gesellschaft für Psychologie stimmte 2016 zu, sprach sich öffentlich gegen Statcheck aus und verlangte die sofortige Löschung aller falsch positiven Anschuldigungen auf PubPeer. Bis heute ist das nicht geschehen. Dafür setzen zahlreiche Subskriptions-Journale als auch Open-Access-Verlage wie PsychOpen die Software in ihrem Peer Review ein.

Auch andere Text-Mining-Werkzeuge kämpfen mit Misstrauen. Elsevier und Springer-Nature setzen beispielsweise auf StatReviewer (statreviewer.com), das Manuskripte zusätzlich auf Probengrößen, Verblindung und erfundene Datenpakete überprüft. Springer-Natures Kommunikationsabteilung gab zwar Fehler des KI-Werkzeugs zu. Autoren würden dadurch aber immerhin auf Erklärungslücken aufmerksam gemacht.

Doch StatReviewer geht einen Schritt weiter: Zusätzlich zur Statistikanalyse gibt es eine erreichte Gesamtpunktzahl und einen Peer-Review-ähnlichen Report aus. Auch der KI-Forschungsassistent Scholarcry (scholarcy.com) verdaut Veröffentlichungen und fasst Schlüsselinformationen auf interaktiven Karteikarten zusammen. Dadurch sollen Manuskripte in dreißig Prozent der Zeit bewertet werden können.

Lassen sich Gutachter und Editoren folglich von derartigen Vorzügen verführen, Entscheidungen auf der Basis automatisiert erstellter Berichte zu treffen? Thomas Schmidt bleibt skeptisch: „Gegenwärtig kann kein Algorithmus wissenschaftliche Qualität feststellen. Ein Programm bräuchte dafür eine Art Tiefenverständnis, wie Wissenschaft funktioniert und berichtet wird. Da Text-Mining-Software weder kontextsensitiv arbeitet noch semantisch versteht, ist sie überfordert.“

Viel Verständnis

Allerdings scheint all das nur eine Frage der Zeit zu sein. Laut seinen Programmierern „versteht“ zum Beispiel das dänische KI-Werkzeug UNSILO (unsilo.ai) bereits komplexe Sprachelemente wie Präpositionen, Negationen, Attribute sowie Ungewissheiten und erfasst sogar deren semantische und syntaktische Varianten. Das Extraktionswerkzeug sucht in Manuskripttexten nach Schlüsselphrasen, erstellt aus ihnen hochdimensionale Netzwerkmodelle und nutzt diese, um Autoren zu identifizieren, deren PubMed-Artikel identische Schlüsselkonzepte enthalten. Autoren mit möglichen Interessenskonflikten entfernt es anhand ihrer Affiliation und schlägt schließlich die besten Übereinstimmungen als Gutachter vor. Dies baut die Gefahr von Vorurteilen im Peer-Review-Verfahren ab, da als Gutachter auch dem Editorial Board unbekannte Personen in Frage kommen. Auch wenn Forscher aus demselben Schaffensort nicht automatisch schlechtere Gutachter sein müssen.

hg_21_06_01c
Illustr.: AdobeStock / gearstd

Schon regelmäßig am Start

Kommerzielle Interessenskonflikte analysierte die Arbeitsgruppe um Scott Graham am Department of Rhetoric and Writing der University of Texas mithilfe maschineller Lernverfahren. Aus einem Datensatz von 128.781 Medline-Artikeln in 159 biomedizinischen Journalen fischten die Kommunikationswissenschaftler Prädikatoren für wohlwollende Beurteilungen von Pharmaprodukten heraus. Ihr Ergebnis überraschte, denn nicht Werbeeinnahmen stimmen demnach Fachzeitschriften großzügiger gegenüber Pharmakonzernen, sondern Nachdruckgebühren als Einnahmequelle sowie die Zugehörigkeit zu großen Verlagen. Letztere veröffentlichen dreimal mehr Artikel von Autoren, die Zuwendungen durch die Pharmaindustrie erhalten.

Eines dürften all diese Beispiele jedoch klar zeigen: In der Wissenschaftsbegutachtung führt kein Weg mehr an maschinellen Lernalgorithmen vorbei. StatReviewer kommt regelmäßig im Aries Editorial Manager zum Einsatz. UNSILO ist Bestandteil von Clarivate Analytics ScholarOne. Elsevier hat mit Expert Lookup ein ähnliches Werkzeug am Markt. Seit Juni 2020 vereint auch der Artificial Intelligence Review Assistant (AIRA) des Open-Access-Herausgebers Frontiers alle genannten Funktionalitäten. Und KI-Initiativen wie Meta, eine Analyseplattform biomedizinischer Literatur (meta.org), blicken sogar in die Zukunft, indem sie den Entwicklungsverlauf von Forschungsfeldern vorhersagen.

Wie aber empfinden es die Autoren, wenn KI ihre Manuskripte analysiert? Christophe Trefois, Leiter des Support-Teams „Verantwortungsvolle und Reproduzierbare Forschung“ am Luxembourg Centre for Systems Biomedicine der Universität Luxemburg, erklärt: „Seit Anfang 2021 setzen wir im Rahmen unserer Bemühungen, Forschungsqualität und Reproduzierbarkeit durch standardisierte Arbeitsabläufe zu steigern, das Text-Mining-Werkzeug Sciscore ein, um wissenschaftliche Artikel vor ihrer Einreichung automatisiert zu validieren.“ Es überprüft, ob Manuskripte bestimmte Berichtsstandards erfüllen – konkret etwa hinsichtlich Forschungs-Ressourcen wie Antikörpern, Plasmiden, Zelllinien, Organismen und Studienteilnehmern, aber auch bezüglich Randomisierungen und Verblindungen sowie statistischer Details wie Stichprobengrößen bis hin zur Einhaltung ethischer Standards und der Verfügbarkeit von Originaldaten. Über alles erstellt Sciscore binnen Minuten eine Checkliste. Das erspart Autoren einige Mühen, denn seit 2020 verlangt unter anderem die Fachzeitschrift Science, dass Autoren neben ihrem Manuskript eine ebensolche Transparenz- und Reproduzierbarkeits-Checkliste übermitteln.

Dem Menschen öfter überlegen

Statistische Daten dazu, ob Sciscore die Manuskript-Qualität tatsächlich verbessert, kann Trefois aufgrund der Kürze des Projekts bislang noch nicht vorweisen. Doch seinen ersten Eindruck fasst er zusammen: „Der Großteil unserer Autoren schätzt es, die Genauigkeit ihrer Veröffentlichungen zu verbessern und den Vorgaben von Geldgebern zeitsparend entsprechen zu können. Natürlich gibt es aber auch diejenigen, die es nur skeptisch ausprobieren.“ Dennoch ist Trefois überzeugt: „Letztendlich werden KI-Werkzeuge die Güte wissenschaftlicher Artikel in manchen Bereichen besser evaluieren können als menschliche Gutachter – vor allem wenn es darum geht, ob experimentelle Designs bestimmte Qualitätsstandards erfüllen. Eine Evaluierung der Wissenschaft dahinter ist natürlich eine andere Hausnummer. Den meisten Sinn ergibt für mich ein assistiertes Peer Review, in dem KI die Korrektheit und Schlüssigkeit von Manuskripten verifiziert, sodass sich menschliche Gutachter auf den kreativen Teil der Wissenschaft konzentrieren können.“

Wissenschafts- und Innovationsforscher Bornmann stimmt zu, dass ein Indikatoren-gestütztes Informed Peer Review wahrscheinlich der Königsweg ist: „Das finale Urteil werden aber immer Fachexperten fällen. Ein Computerprogramm mag quantitative Analysen zwar effizienter durchführen können als jeder Mensch. Aber das Potenzial einer Forschungsarbeit kann es nicht erkennen.“ Maschinelle Netzwerke werden notwendige Konzepte für ein qualitatives Verständnis wie Originalität, Relevanz und Signifikanz in absehbarer Zeit wohl nicht widerspiegeln.

Darüber hinaus sind auch neuronale Netzwerke nicht frei von Vorurteilen. Vielleicht verstärken sie diese sogar, da sie Entscheidungen einzig anhand ihrer Trainingsdaten treffen. Stammten Gutachter beispielsweise traditionell aus einkommensstarken Ländern, lernt ein maschineller Algorithmus, vorzugsweise dort nach Expertise zu schauen. Lehnten Gutachter sprachlich holprige Manuskripte ab, findet auch ein neuronales Netzwerk weniger wissenschaftliche Qualität in ihnen. Bevor KI-Werkzeuge also Wissenschaft begutachten können, müssen innewohnende Systemfehler aufgedeckt und aus ihren Trainingsdaten entfernt werden.

Zu viel Verlass auf Algorithmen?

Natürlich dürfen sie ihren menschlichen Entscheidungsträgern indes auch keine neuen Vorurteile vermitteln. Weist ein KI-Werkzeug beispielsweise auf potenzielle Schwachstellen hin, die in der Vergangenheit eine Ablehnung von Manuskripten rechtfertigten, bewertet ein Gutachter diese heute vielleicht anders. Sagen maschinelle Algorithmen wenig Zitations-Erfolg für bestimmte Forschungsergebnisse voraus, sieht vielleicht auch ein Editor wenig Potenzial. Und lernen umgekehrt Autoren, worauf KI Wert legt, ändern sie vielleicht ihren Schreibstil auf Kosten des wissenschaftlichen Inhalts ihrer Manuskripte.

Lieber das System entlasten

Ungeachtet dieser Baustellen bleibt die große Herausforderung der wachsenden Flut an Wissenschaftlern, Journalen und Manuskripten im digitalen Zeitalter. Sind KI-Werkzeuge in Anbetracht all dessen also alternativlos? Der Psychologe Thomas Schmidt verneint: „Peer Review würde besser funktionieren, wenn Wissenschaftler nicht die Anzahl ihrer Publikationen maximieren und ihre Impact-Faktoren optimieren würden. Letztere sollten abgeschafft und dafür neue Publikationsformate wie etwa die Diskussionsdebatten in Behavioral Brain Sciences kultiviert werden. Das würde erst den Publikationsdruck und dann die Gutachter-Müdigkeit aus dem System nehmen.“

Bibliometrie-Experte Bornmann sieht das ähnlich: „Anstatt auf KI-Tools zu setzen, sollten Wissenschaftsverlage und Fördergeber das Wissenschaftssystem entlasten, indem sie die Begutachtungstätigkeit mit einem öffentlichen Reputationsgewinn koppeln und Qualität statt Quantität betonen. Lange Publikationslisten in No-Name-Zeitschriften sollten nicht zählen.“

So gesehen würden KI-Helfer also eher kontraproduktiv wirken. Weil sie die Manuskriptflut begünstigen, indem sie Erleichterungen beim Peer Review bieten – und damit eine Modernisierung des wissenschaftlichen Evaluations- und Belohnungssystems weniger drängend erscheinen lassen.