Editorial

Wissenschaftsbetrug ist selten. Oder?

(31.01.2023) Der Narr hat recherchiert: Wissen­schaft­liches Fehlverhalten ist viel häufiger als wir uns eingestehen. Gegen­maßnahmen sind dringend angesagt.
editorial_bild

Fast wöchentlich lesen wir von Fällen wissen­schaftlichen Fehlverhaltens. Häufig spielen darin renommierte Journale und prominente Wissenschaftler eine Rolle. Unablässig versorgt uns die Website Retraction Watch von Ivan Oransky und Adam Marcus mit entsprechenden „Enthüllungs­nachrichten“ und deren Hintergründen. Und auch im Laborjournal findet sich fast in jeder Ausgabe eine Story über ein Labor, in dem es nicht mit rechten Dingen zuging.

Meist wurden solche Machen­schaften ruchbar, nachdem ein Artikel mit manipulierten, gefälschten oder gar erfundenen Daten aufgeflogen war. Ans Licht der wissen­schaftlichen Öffentlichkeit bringen dies oft Whistleblower. Oder aufmerksame Leser, die ihre Zweifel an der Verlässlichkeit von Abbildungen anonym auf PubPeer veröffentlichen.

Auffällig selten dagegen decken Universitäten, Fördergeber oder Journale solche malignen Machenschaften auf.

Editorial

Recht häufig greifen dann auch die Wissen­schafts­seiten der Tageszeitungen derartige Nachrichten aus den moralischen Niederungen der Wissenschaft auf. Aktuell versorgen sie uns etwa mit Berichten über fragwürdige Publikationen aus den „Ställen“ des Nobelpreis­trägers Gregg Semenza, dem „Entdecker“ des Hypoxie-induzierten Faktors (HIF), oder des Neuro­wissenschaftlers und derzeitigen Präsidenten der Stanford University Marc Tessier-Lavigne. Dabei geht es nicht nur um Arbeiten aus der Grundlagen­forschung: Gerade COVID-19 hat uns einen wahren Tsunami von Artikel-Retraktionen beschert – angeführt etwa von Studien aus The Lancet und dem New England Journal of Medicine, die auf komplett erfundenen Daten beruhten.

Wir selbst goutieren Berichte über wissen­schaftliches Fehlverhalten oft mit wohligem Gruseln, doch groß aufregen tun wir uns darüber nicht. Wir haken es vielmehr unter der Rubrik „Jede Branche hat ihre schwarzen Schafe“ ab – ist das doch menschlich, allzu menschlich. Oder wir tun es – wenn es beispielsweise um Massen-Retraktionen von Artikeln aus sogenannten „Paper Mills“ geht, die gegen Gebühr komplett erfundene Artikel verfassen – als exotische Phänomene des Wissenschafts­betriebes in uns fernen Weltgegenden ab. Bei uns spielt Wissen­schafts­betrug – also das Plagiieren sowie Falsifizieren oder Fabrizieren von Daten – doch keine wichtige Rolle.

Wenn überhaupt, dann vielleicht Plagiarismus – allerdings eher in nicht-natur­wissen­schaftlichen Fächern. Solches Abschreiben ist zwar unschön, aber doch ein eher geringfügiges Vergehen. In ihren Presse­mitteilungen listet die DFG für das Jahr 2022 ganze sechs Fälle, in denen Wissenschaftler wegen wissen­schaftlichem Fehlverhalten gerügt und für ein paar Jahre von der Förderung ausgeschlossen wurden. Zeigt das nicht, wie selten Betrügereien in unserem Wissenschafts­betrieb sind?

Auch der Narr hat sich bis vor kurzem dieser bequemen Illusion hingegeben. Und geglaubt, dass es fast exklusiv sogenannte „fragwürdige wisse­nschaftliche Praktiken“ sind, die unsere Aufmerksamkeit verdienen. Also das Weglassen von Befunden, die eine Story nicht mehr ganz so glatt erscheinen lassen. Oder die Durch­führung multipler Tests, bis man auf einen stößt, der die ersehnte statistische Signifikanz ergibt – auch als p-Hacking bekannt und beliebt. Oder das Formulieren von Hypothesen, nachdem man die Ergebnisse bereits kennt – aber so tut, als wären die Versuche durchgeführt worden, um genau diese Hypothesen zu testen (sogenanntes „HARKing – Hypothesizing after the results are known“).

Oder das Bearbeiten von Banden auf Western-Blots mit Photoshop? Oder das Manipulieren von Ergebnissen in Spreadsheets? Die Verwendung von Kontroll­ergebnissen, die gar nicht zum aktuellen Experiment gehören? Nicht bei uns, und auch nicht im Nachbarlabor!

Doch warum sind wir uns da eigentlich so sicher? Denn eigentlich spricht sehr viel dafür, dass wissen­schaftliches Fehlverhalten weit häufiger ist, als wir uns das eingestehen. Eine aufwendige und methodisch exzellente Arbeit ergab gerade erst, dass acht Prozent von etwa 7.000 nieder­ländischen Wissenschaftlern, die auf eine anonyme Umfrage zu Forschungs­praktiken geantwortet hatten, zwischen 2017 und 2020 mindestens einmal Daten gefälscht und/oder erfunden hatten! In Medizin und Biowissen­schaften waren es sogar über zehn Prozent. Mehr als die Hälfte gab außerdem zu, häufig (!) fragwürdige Wissenschafts­praktiken anzuwenden.

Haben nieder­ländische Wissenschaftler etwa mehr kriminelle Energie als deutsche? Vermutlich schon alleine deshalb nicht, weil die Niederlande mit dem Fall „Diederik Stapel“ einen wissen­schaftlichen Betrugsskandal erlebten, der die gesamte Nation bis ins Mark erschütterte – und der überdies weitreichende Konsequenzen im nieder­ländischen Wissenschafts­system zur Folge hatte. Zum Beispiel einen nationalen Plan unter Beteiligung der Universitäten und Fördergeber mit dem Ziel, offene Wissenschaft zu fördern („Open Science“). Oder den Start einer Reform des akademischen Karriere- und Belohnungs­systems („Every talent counts“). Um beides beneiden wir unsere Nachbarn mittlerweile.

So schockierend die Ergebnisse der nieder­ländischen Umfrage sind, so sehr passen sie doch ins Bild. Beispielsweise können mittlerweile wissen­schaftliche Abbildungen automatisiert auf Manipulationen untersucht werden. Und tatsächlich zeigt die Anwendung dieser Techniken, dass mehr als vier Prozent aller biomedizinischen Publikationen Graphen und Abbildungen enthalten, die hochgradig verdächtig auf maligne Manipu­lationen sind – etwa die Verschiebung von Banden, Duplikationen, nicht plausible Fehlerbalken und so weiter. Diese Zahlen werden auch durch Arbeiten bestätigt, in denen Menschen die Abbildungen untersuchten.

Gleichzeitig jedoch hat ein Wettlauf begonnen zwischen Software, die kaum noch zu erkennende „Deep Fakes“ von wissen­schaftlichen Grafiken erzeugen kann, sowie Software, die in der Lage ist, genau diese zu erkennen. Die steigende Zahl von Retraktionen sowie die vermehrten Berichte über nachgewiesenen Wissenschafts­betrug können uns ja immer nur die Spitze des Eisbergs von tatsächlich realisiertem Fehlverhalten anzeigen – vermutlich mit einem Bias in Richtung der krasseren Verstöße.

Hieraus auf die wirkliche Größe des Problems, also auf die Gesamtmasse des Eisbergs zu schließen, ist nicht möglich. Aber klar ist, dass dieser viel größer sein muss als das, was sichtbar aus dem Wasser ragt: Handelt es sich doch um sanktioniertes, wenn nicht gar justiziables Verhalten. Deshalb dürften vermutlich auch Umfragen wie die erwähnte nieder­ländische ebenfalls zu niedrige Prävalenzen von Verstößen aufzeigen.

Aufgeschreckt und verunsichert durch die Zahlen aus den Niederlanden hat sich der Narr kürzlich selbst in der Literatur umgetan (siehe wie immer unter dirnagl.com/lj) und fand überraschend viele Belege – Umfrage-Ergebnisse, Stichproben, systematische Reviews und anderes mehr –, die in ihrer Totalität nur einen Schluss zulassen: Wissen­schaftliches Fehlverhalten jenseits von HARKing und p-Hacking – also Plagiarismus, Falsifikation und Fabrikation von Daten – ist viel häufiger, als wir uns eingestehen.

Erhellende Hinweise darauf, warum das so ist, finden sich übrigens in der Autobio­graphie des bereits erwähnten Wissenschafts­betrügers Diederik Stapel. Er beschreibt, wie leicht es ihm gefallen ist, durch nicht offengelegte Selektion von Daten und Analyse­verfahren die „Storys“ seiner Paper interessanter zu machen – und sie dadurch in renommierten Journalen publizieren zu können. So fing er an, sich in der Psychologie einen Namen zu machen – die Tenure war greifbar. Der Übergang von der Selektion zur Manipulation seiner Daten war dann fließend. Niemand an der Uni und auch kein Reviewer fragte nach oder wollte Daten sehen. Das ging alles so einfach und glatt, dass Stapel allmählich dazu überging, Studien­ergebnisse komplett zu erfinden. Seine Studenten führten die Befragungen durch, und er hübschte die Daten dann in großem Stil auf. Damit wurden Stapels Ergebnisse letztlich so spektakulär, dass Science und Nature sie mit Handkuss nahmen. So erfand er zum Beispiel Daten, deren Auswertung zeigte, dass in einer vermüllten Umgebung Befragte eher zu rechtsextremen Antworten neigen als in einer sauberen. Über solche Ergebnisse berichtete sogar die New York Times, und in kurzer Zeit wurde er zum Shootingstar der Psychologie!

An einer anderen Stelle seiner Autobio­graphie beschreibt Stapel, dass er sich fühlte wie ein Kind, das man allein im Bonbonladen zurückgelassen hatte. Einzig mit dem Hinweis, doch bitte keine Süßigkeiten zu stibitzen. Was Stapel letztlich indes das Genick brach, waren seine eigenen Studenten. Die konnten sich zwar zunächst freuen, Koautoren auf tollen Papern zu sein, fanden es aber nach einiger Zeit befremdlich, die Daten nie selbst auswerten zu dürfen, sondern stattdessen immer nur bereits vom Chef prozessierte Daten zu Gesicht zu bekommen.

Sicher, der Fall Diederik Stapel ist extrem. Und wie er seine Verfehlungen ganz lässig auf das System abwälzt, das ihm das alles zu leicht gemacht habe, ist natürlich wohlfeil. Aber nichtsdesto­trotz kann man an seiner Karriere sehr schön die wesentlichen allgemeinen Elemente des modernen Wissenschafts­betrugs studieren:
- das auf einer Journal-Reputations­ökonomie basierende akademische Belohnungs­system;
- Journale, die spektakuläre Studien soliden vorziehen;
- mit der Qualitätskontrolle überforderte Reviewer;
- Berufungs­kommissionen und universitäre Gremien, die sich von Storys und Selbst­vermarktern blenden lassen;
- fragwürdige Wissenschafts­praktiken, die als normal gelten und nicht sanktioniert werden als „Einstiegsdrogen“;
- mangelhafte Diskussions- und Führungskultur in der Arbeitsgruppe;
- sowie methodische Inkompetenz bei allen Beteiligten.

In den meisten Forschungs­einrichtungen finden sich zu jeder Zeit mehrere Elemente dieses toxischen Gemisches. Wenn aber alle zusammen­kommen, ist es nur noch eine Frage der Zeit, bis einzelne Wissenschaftler der Versuchung erliegen, ihrer wissen­schaftlichen Karriere ein bisschen nachzuhelfen und Abkürzungen zu nehmen. Nur wenn sie es allzu doll treiben, wie eben Herr Stapel, müssen sie damit rechnen aufzufliegen. Und auch dann sind die Konsequenzen, falls es überhaupt zu Sanktionen kommt, recht überschaubar.

Besteht die Lösung des Problems also darin, Wissenschafts­betrug härter zu sanktionieren? Schaden würde das sicher nicht. Schließlich kann man die Fälle, in denen bislang Strafen verhängt wurden, an einer Hand abzählen. Wissenschafts­betrug wird also nicht nur selten aufgedeckt, sondern noch seltener geahndet.

Müssen wir mehr gute wissen­schaftliche Praxis lehren und trainieren? Auch das ist eine gute Idee, aber sehr viel nützen wird es wohl nicht. Es gibt ja auch keine Kurse, in denen Schülerinnen und Studenten erklärt wird, dass Banküberfall und Urkunden­fälschung gegen gesell­schaftliche Normen verstoßen, daher verboten sind und konse­quenter­weise bestraft werden. Wissenschafts­betrüger wissen, was sie tun – und tun es nicht aus Unkenntnis ihnen unbekannter Regeln.

Brauchen wir vielleicht eine Wissenschafts­polizei, die unangekündigte Kontrollen von Western Blots und Festplatten in Laboren durchführt? Ganz sicher nicht! Moderne Wissenschaft ist viel zu komplex, als dass sie durch solche Visiten kontrollierbar wäre. Ganz abgesehen davon, dass die dadurch entstehende Big-Brother-Atmosphäre alles andere als förderlich für gutes Forschen wäre.

Ein viel naheliegender Ansatz zur Abhilfe ist es, sich dem Kern des Problems anzunehmen und das toxische Karriere- und Bewertungs­system zu reformieren – also Forscher nicht auf Basis fragwürdiger Metriken, sondern mit Fokus auf Forschungs­qualität, Inhalte und dem tatsächlichen wissen­schaftlichen oder gesell­schaftlichen Impact zu beurteilen. Das ist in der Tat der Königsweg, und in Ansätzen findet das zum Glück derzeit auch statt. Die von der Europäischen Union initiierte Coalition for Reforming Research Assessment (CoARA), der die DFG übrigens bereits beigetreten ist, wird hierbei eine wichtige Rolle spielen. Allerdings geschieht all dies eher im Schnecken­tempo, sodass ein schnellerer Fix erstrebenswert wäre.

Vielleicht gibt es den sogar! Wissenschafts­betrug ist nämlich nur dort möglich, wo einzelne die Auswertung und Analyse von Forschungs­daten monopolisiert haben – und zudem häufig noch die methodische Kompetenz im unmittelbaren Umfeld fehlt. Nur wenn Western Blots lediglich von einer Person angefertigt und ausgewertet werden, und auch niemand sonst mit der nötigen Kompetenz draufschaut, dann können diese mittels Photoshop manipuliert werden. Analoges gilt für Datenreihen und die darauf angewendeten Analyse­verfahren: Manipulationen sind dann besonders gut möglich, wenn nur eine Person die Datenbanken oder Spreadsheets verwaltet und selbstverfasste Codes darüber laufen lässt – und wenn die Ergebnisse nicht von anderen kontrolliert werden. Was ja schon alleine wegen der ehrlichen Fehler, die wir alle leider häufig machen, notwendig wäre. Wenn aber dann noch der Gruppenleiter einsam vor dem Rechner sitzt und die Ergebnisse in eine Story verwandelt, kann es durchaus passieren, dass ihm ein übereifriger Mitarbeiter ein „faules Ei“ vorlegt – oder dass umgekehrt er selbst allzu „kreativ“aus den Ergebnissen eine Story bastelt.

In den Arbeitsgruppen braucht es folglich eine funktionierende Struktur und Arbeitskultur, dann ist wissen­schaftliches Fehlverhalten praktisch ausgeschlossen. Problematisch wird es nämlich immer dann, wenn Arbeitsgruppen zu groß werden, die Expertise zu fragmentiert ist oder punktuell gar komplett fehlt. Leider sind das Bedingungen, die gerade in der biomedi­zinischen Forschung nicht wirklich selten sind.

Wie kann da Abhilfe geschaffen werden? Auf jeden Fall durch Thematisierung und Fokus auf gute Arbeitskultur und Gruppenleitung, wo immer das möglich ist. Dazu natürlich in der Ausbildung, wo diese Inhalte meist zu kurz kommen. Zwar bieten viele Unis im Rahmen der Personal­entwicklung ein „Führungs­kräftetraining“ an, darin müsste aber ein stärkerer Fokus auf die Wichtigkeit von offener und kollaborativer Arbeitsweise als Bollwerk gegen wissenschaftliches Fehlverhalten gelegt werden.

Aber auch bei Berufungen und Tenurisierung sollten wir uns stärker mit dem Thema befassen. Die zuständigen Kommissionen könnten Kandidaten gezielt über Größe, Struktur und den Interaktionen in ihrer Arbeitsgruppe befragen. Sie könnte sogar Gespräche mit ehemaligen (oder auch noch aktiven) Mitgliedern der Arbeitsgruppe führen. An mancher Stelle wird dies bereits praktiziert, zum Beispiel bei EU-LIFE, einer Allianz von renommierten europäischen Forschungs­instituten. Bei klinischen Berufungen ist es übrigens gängige Praxis, dass Berufungs­kommissionen die Abteilung der Bewerber aufsuchen und sich vor Ort einen Einblick in deren „Arbeitsweise“ verschaffen. Ein Vorschlag zur Steuerung der Arbeits­gruppen­dynamik durch die Universitäten wäre zum Beispiel das Kappen der Leistungs­orientierten Mittelvergabe (LOM) ab einer gewissen Gruppengröße.

Ob all dies jedoch eher närrische und letztlich unrealistische oder uneffektive Maßnahmen sind, und ob damit wissen­schaftliches Fehlverhalten tatsächlich vermindert werden könnte, muss offen bleiben. Allein ein breiter Diskurs über die Arbeitskultur in wissen­schaftlichen Arbeitsgruppen und wie wir sie verbessern können, würde uns aber sicher schon weiterbringen.

Ulrich Dirnagl

Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj.


Weitere Einsichten unseres Wissenschaftsnarren


- Das Märchen von denen, die auszogen, der Alzheimer-Krankheit den Garaus zu machen

Wie eine Forschungs-Monokultur über dreißig Jahre in einer Echokammer abgeschottet und unbeirrbar vor sich hin forscht – sodass sie bei einer komplexen Hirnerkrankung zwangsläufig erfolglos bleiben muss.

- Vom professoralen Herrschafts­instrument zum Jodeldiplom für Chefärzte

Die medizinische Habilitation ist eine große Zeit- und Ressourcen­verschwendung. Und noch schlimmer: Sie gaukelt wissenschaftlichen Professionalismus vor, wo keiner ist.

- Es irrt der Mensch, solang er strebt

Aus Fehlern lernt man, heißt es. Wieso gibt es dann in der biomedizinischen Grundlagen­forschung keine nennenswerte Fehlerkultur?

 



Letzte Änderungen: 31.01.2023