Künstlich-intelligente Begutachtung
(22.06.2021) Maschinelle Sprachverarbeitung und neuronale Netzwerke versprechen, Peer Review zu beflügeln und von menschlichen Schwächen zu befreien.
Gegenwärtig erscheinen pro Jahr drei Millionen Artikel in 40.000 Peer-Review-Journalen. Laut einer Publons-Umfrage von 2018 sind dafür jährlich 13,7 Millionen Reviews nötig. Zusätzlich wächst laut International Association of Scientific, Technical, and Medical Publishers die Anzahl an Manuskripten und Zeitschriften um jährlich vier beziehungsweise fünf Prozent.
Einen möglichen Ausweg aus der Flut an Manuskripten bieten maschinelle Sprachverarbeitung und neuronale Netzwerke, also umgangssprachlich „künstliche Intelligenz“ (KI). Für Einreichung und Prozessierung von Manuskripten nutzen die großen Fachzeitschriften Online-Plattformen. Diese koordinieren den Arbeitsablauf zwischen Autoren, Editoren und Gutachtern, sammeln Metadaten, vernetzen eingereichte Referenzlisten mit den Originalarbeiten und suchen nach Plagiaten. All das macht die Manuskript-Begutachtung bereits effizienter, transparenter und bequemer. Komplexe Algorithmen maschinellen Lernens sind dafür freilich noch nicht unbedingt nötig.
Keine Vorurteile
KI-Werkzeuge binden sie erst in einem Pre-Peer-Review-Screening ein, das Manuskript-Texte und Abbildungen auf Vollständigkeit, Formatierung und Lesbarkeit überprüft. Für Letzteres analysiert Text-Mining-Software Worthäufigkeiten, Satzlängen und die Komplexität des Vokabulars. Unerfüllte Qualitätsstandards meldet sie unmittelbar an die Autoren zurück.
Die Ambitionen der Software-Ingenieure reichen indes weiter: Wissenschaftliche Qualität soll vorurteilsfrei bewertet und Peer Review von Systemfehlern befreit werden.
Statcheck beispielsweise – ein Projekt des Meta-Research Center der Universität Tilburg – spürt Statistikfehler in Forschungsartikeln auf, indem es Originaldaten aus PDF- oder HTML-Dateien extrahiert und p-Werte und Freiheitsgrade erneut berechnet. Allerdings: „Das Programm detektiert nur Zeichenketten eines bestimmten Formats und übersieht deshalb jede Statistik, die summarisch, in Textform oder in Tabellen wiedergegeben ist,“ konstatiert Thomas Schmidt, Fachgebietsleiter für Allgemeine Psychologie an der Technischen Universität Kaiserslautern. Auch korrigierte Statistikergebnisse erkennt es nicht. Deshalb kommt Schmidt zu dem Urteil: „Ein Programm, das genauso viele falsche Alarme wie Treffer verursacht und die Hälfte der Statistiktests gar nicht erst erkennt, ist sowohl als Schreibtischhilfe wie auch als Forschungs-Tool ungeeignet.“
Fehlerhafte Werkzeuge
Auch andere Text-Mining-Werkzeuge kämpfen mit Misstrauen. Elsevier und Springer-Nature setzen beispielsweise auf StatReviewer, das Manuskripte zusätzlich auf Probengrößen, Verblindung und erfundene Datenpakete überprüft. Springer-Natures Kommunikationsabteilung gab zwar Fehler des KI-Werkzeugs zu. Autoren würden dadurch aber immerhin auf Erklärungslücken aufmerksam gemacht.
Doch StatReviewer geht einen Schritt weiter: Zusätzlich zur Statistikanalyse gibt es eine erreichte Gesamtpunktzahl und einen Peer-Review-ähnlichen Report aus. Auch der KI-Forschungsassistent Scholarcry verdaut Veröffentlichungen und fasst Schlüsselinformationen auf interaktiven Karteikarten zusammen. Dadurch sollen Manuskripte in dreißig Prozent der Zeit bewertet werden können.
Lassen sich Gutachter und Editoren folglich von derartigen Vorzügen verführen, Entscheidungen auf der Basis automatisiert erstellter Berichte zu treffen? Thomas Schmidt bleibt skeptisch: „Gegenwärtig kann kein Algorithmus wissenschaftliche Qualität feststellen. Ein Programm bräuchte dafür eine Art Tiefenverständnis, wie Wissenschaft funktioniert und berichtet wird. Da Text-Mining-Software weder kontextsensitiv arbeitet noch semantisch versteht, ist sie überfordert.“
Viel Verständnis
Allerdings scheint all das nur eine Frage der Zeit zu sein. Laut seinen Programmierern „versteht“ zum Beispiel das dänische KI-Werkzeug UNSILO bereits komplexe Sprachelemente wie Präpositionen, Negationen, Attribute sowie Ungewissheiten und erfasst sogar deren semantische und syntaktische Varianten. Das Extraktionswerkzeug sucht in Manuskripttexten nach Schlüsselphrasen, erstellt aus ihnen hochdimensionale Netzwerkmodelle und nutzt diese, um Autoren zu identifizieren, deren PubMed-Artikel identische Schlüsselkonzepte enthalten. Autoren mit möglichen Interessenskonflikten entfernt es anhand ihrer Affiliation und schlägt schließlich die besten Übereinstimmungen als Gutachter vor. Dies baut die Gefahr von Vorurteilen im Peer-Review-Verfahren ab, da als Gutachter auch dem Editorial Board unbekannte Personen in Frage kommen. Auch wenn Forscher aus demselben Schaffensort nicht automatisch schlechtere Gutachter sein müssen.
Eines dürften all diese Beispiele jedoch klar zeigen: In der Wissenschaftsbegutachtung führt kein Weg mehr an maschinellen Lernalgorithmen vorbei. StatReviewer kommt regelmäßig im Aries Editorial Manager zum Einsatz. UNSILO ist Bestandteil von Clarivate Analytics ScholarOne. Elsevier hat mit Expert Lookup ein ähnliches Werkzeug am Markt. Seit Juni 2020 vereint auch der Artificial Intelligence Review Assistant (AIRA) des Open-Access-Herausgebers Frontiers alle genannten Funktionalitäten. Und KI-Initiativen wie Meta, eine Analyseplattform biomedizinischer Literatur, blicken sogar in die Zukunft, indem sie den Entwicklungsverlauf von Forschungsfeldern vorhersagen.
Aus einem anderen Blickwinkel könnten KI-Helfer allerdings eher kontraproduktiv wirken. Weil sie die Manuskriptflut begünstigen, indem sie Erleichterungen beim Peer Review bieten – und damit eine Modernisierung des wissenschaftlichen Evaluations- und Belohnungssystems weniger drängend erscheinen lassen.
Henrik Müller
Bild: AdobeStock/pathdoc
Dieser gekürzte Artikel erschien in ausführlicher Form in Laborjournal 6-2021.
Weitere Artikel aus unserem aktuellen Heft
- „Ich mache mir keine großen Sorgen“
Leif Erik Sander ist Infektiologe an der Berliner Charité. Im Interview berichtet er über die Lage rund um die SARS-CoV-2-Mutanten und verrät, welchen Einfluss sie auf die Impfstrategie haben.
- Polarisierend
Hefegenetiker haben ein neues Detail der Polarisierung von Zellen beschrieben – und mussten dabei so manche Hypothese begraben.
- Schwerpunkt weiblich – Publikationsanalyse Reproduktionsforschung 2010-2019
Viele Zitierungen zur Reproduktionsbiologie sammeln insbesondere Forscher an Instituten zur Tierzucht. Oozyte, Zygote und der weibliche Uterus sind dabei von größerem Interesse als männliche Gameten.