Verlorene Sterne und erfundene Zielscheiben

Von Bettina Bert, Berlin


Editorial

(07.07.2020) Warum gute Wissenschaft und guter Tierschutz zusammengehören.

Gute Wissenschaft und Tierschutz – ein Widerspruch? „Natürlich nicht!“, würde da jeder reflexhaft antworten, der schon mal ein Labor von innen gesehen hat. Schließlich ist es doch das, worum wir uns täglich bemühen. Natürlich halten wir uns an die Regeln der guten wissenschaftlichen Praxis und achten gleichzeitig auf das Wohlergehen der Versuchstiere. Ist doch klar!

Aber ist das wirklich immer so? Ein Blick in die wissenschaftlichen Fachzeitschriften und in die Boulevardpresse lässt anderes vermuten. Die Übertragbarkeit von Tierversuchen auf den Menschen wird immer wieder in Frage gestellt, und dies nicht nur von Tierversuchsgegnern. Meta-Research, also die Wissenschaft über die Wissenschaft, sowie zusätzliche Daten und Auswertungsmethoden ermöglichen es, besser zu verstehen, wie es zu dieser Diskrepanz kommt. Inzwischen dürfte jede Wissenschaftlerin und jeder Wissenschaftler schon von der Reproduzierbarkeitskrise gehört haben. Klinische Studien aus Berlin lassen sich zuweilen in Houston nicht wiederholen (und umgekehrt), und zwar unabhängig vom eigentlichen Ort.

e_20_10a
Foto: Pixabay/barskefranck; Montage: LJ

Editorial

Die Reproduzierbarkeitskrise steht für ein Phänomen, das nicht erst seit Auftauchen des Begriffs vor wenigen Jahren existiert. Schon in den 1950er-Jahren häuften sich Befunde, nach denen neue Arzneimittel-Wirkstoffe nicht so vielversprechend waren, wie es die Wissenschaft glauben machte. Diese Beobachtung führte in den USA nur wenig später dazu, dass randomisiert kontrollierte Studien in der klinischen Forschung eingeführt wurden.

Inzwischen ist klar, dass alle wissenschaftlichen Disziplinen von Reproduzierbarkeitsproblemen betroffen sind – von der Grundlagenforschung bis zur präklinischen und klinischen Forschung, von der angewandten Ökonomie zur organischen Chemie. Zuletzt hat vor allem die Pharmaindustrie diese Tatsache als Ursache dafür ausgemacht, dass vielversprechende Arzneistoff-Kandidaten in der Klinik nicht die erhoffte Wirksamkeit entfalten und es somit nie zur Marktreife schaffen.

Irgendwas läuft anscheinend schief in der Wissenschaft. Die fehlende Reproduzierbarkeit ist dafür ein Symptom. Die Gründe, dass Versuche und Ergebnisse von anderen Laboren nicht wiederholt werden können, sind mannigfaltig. Es gibt einfache und komplexe. Manche Ursachen liegen auf der operationalen, methodischen Ebene, andere haben mit Strukturen, Institutionen oder politischen Zusammenhängen zu tun.

Auf der methodischen Ebene lassen sich viele Gründe unter dem Oberbegriff „fragwürdige wissenschaftliche Praktiken“ zusammenfassen. Fragwürdig heißt nicht, dass Dinge immer bewusst und mit voller Absicht falsch gemacht werden. Häufig sind sie einer ungenügenden Ausbildung, Zeitmangel, Unaufmerksamkeit, aber auch Schlampigkeit geschuldet. Zudem spielen oft äußere Umstände eine Rolle: Projektmittel, die bald auslaufen, Publikationen, die fertig werden müssen, Mitarbeitende, die die Stelle wechseln oder in Elternzeit gehen. Wer hat es nicht schon erlebt, dass die Verblindung bei den Versuchs- oder Substanzgruppen entfallen musste, weil nicht genügend Personal vorhanden war. Oder dass der Masterand oder die Doktorandin die Versuchsgruppen nicht randomisiert hat – einfach, weil vergessen wurde, auf dieses kleine, aber nicht unwesentliche Detail ausdrücklich hinzuweisen.

Fehlerquellen sind auch hieroglyphische Laborbücher, ungeeignete Methoden, die nicht ausreichend recherchiert wurden, oder Abweichungen in Standardreagenzien, die zu unterschiedlichen Zeitpunkten verwendet wurden. Methoden, die in der Publikation nur unzureichend beschrieben werden, oder die fehlende Bereitstellung von Rohdaten sind ebenfalls nicht hilfreich für die Wiederholung von Versuchsergebnissen. Häufig lassen sich positive Resultate selbst im eigenen Labor nicht bestätigen – und werden trotzdem publiziert. Im tierexperimentellen Bereich hat das einen guten Grund: Die Versuche können nicht eben mal wiederholt werden. Das Tierschutzgesetz regelt explizit, dass Doppel- oder Wiederholungsversuche nur gemacht werden dürfen, wenn sie absolut unerlässlich sind und dies wissenschaftlich gut begründet wurde. Diese Liste der Unachtsamkeiten ließe sich noch erweitern.

Unkenntnis oder im schlimmsten Fall Absicht kann ins Spiel kommen, wenn es um die Auswertung von Versuchsergebnissen geht. Das beginnt schon mit der Aufstellung der Hypothese für den geplanten Versuch. Oft ist dem Wissenschaftler nicht bewusst, welche Art von Experiment er oder sie durchführen will. Da werden zum Beispiel exploratorische, Hypothesen-generierende Versuche mit konfirmatorischen, Hypothesen-testenden verwechselt. Die präklinische und die Grundlagenforschung sind meist von Neugierde getrieben und daher von exploratorischer Natur. In der Regel hat man eine Vorstellung davon, welche Annahme in den Versuchen überprüft werden soll. Wie im echten Leben kommt es dann jedoch häufig anders, und das Ergebnis stimmt nicht mit der ursprünglichen Hypothese überein. Dafür hat sich ein ganz anderer, interessanter Befund ergeben, der zukünftig weiterverfolgt werden soll.

Das Dilemma sei an einem typischen Beispiel aus der Grundlagenforschung verdeutlicht. Von Enzym X wird vermutet, dass es eine wichtige Rolle für Bluthochdruck spielt. Um dies zu überprüfen, wird eine genetisch veränderte Mauslinie mit einem Knockout des entsprechenden Gens hergestellt. Die Bestimmung verschiedener relevanter Messwerte bei den Knockout-Mäusen (Blutdruck, Herzfrequenz, Laborwerte) ergibt keinen eindeutigen Hinweis darauf, dass Enzym X eine wichtige Rolle beim Bluthochdruck spielt. Aber routinemäßig, wie es bei neuen genetisch veränderten Linien häufig der Fall ist, werden die Tiere noch weiteren Tests unterzogen. Es stellt sich heraus, dass sie eindeutige Unterschiede im Lernverhalten zeigen. So weit, so gut. Das ist Forschung – wenn das Ergebnis vorher schon bekannt wäre, müssten die Versuche nicht gemacht werden.

Was allerdings nun häufig passiert, fällt unter die Kategorie fragwürdige wissenschaftliche Praktiken. Die Ergebnisse werden für eine Publikation aufbereitet, und der Schwerpunkt bei der Darstellung und Diskussion wird dabei auf die deutlichen lern-assoziierten Veränderungen gelegt. Die Schlussfolgerung, die am Ende gezogen wird, könnte in etwa so lauten: „Unsere Ergebnisse zeigen, dass das Enzym X eine wichtige Rolle für das Lernverhalten spielt.“ Im extremsten Fall wird die ursprüngliche Hypothese weggelassen, und die entsprechenden Ergebnisse werden gar nicht gezeigt. Im Gegenteil, es wird geschrieben, dass genau die erst später aufgestellte Hypothese (Enzym X spiele eine Rolle bei kognitiven Störungen) mit den Versuchen getestet werden sollte.

Das ist der Fehler: Die Ergebnisse werden im Nachhinein so dargestellt, dass sie eine konkrete Hypothese bestätigen, die zuvor gar nicht aufgestellt wurde. Diese Vorgehensweise ist allgemein als Hypothesizing After The Results are Known, kurz „HARKing“, bekannt. Das hier häufig genannte Bild ist die Dartscheibe, bei der man nach einem Wurf behauptet, dass man genau dieses Feld treffen wollte. Oder das Scheunentor, auf das man die Zielscheibe erst malt, nachdem man den Dartpfeil geworfen hat.

Warum ist das so schlimm? Weil es allen Regeln einer guten statistischen Planung und Auswertung von Versuchen widerspricht. Eine konfirmatorische Versuchsanordnung setzt voraus, dass a priori eine Hypothese zugrunde gelegt wurde, die mit dem Versuch widerlegt oder bestätigt werden soll. Im Zuge dessen müssen die Hauptzielgrößen, statistische Power, Fallzahlberechnung sowie die Ein- und Ausschlusskriterien vorher festgelegt werden. Befunde wie die Unterschiede im Lernverhalten aus dem Beispiel können reiner Zufall sein und sich nicht wiederholen lassen. Sie können aber sehr wohl dazu dienen, neue Hypothesen aufzustellen, die in unabhängigen Folgeexperimenten überprüft werden müssen.

Werden solche Zufallsbefunde als Tatsachen dargestellt, kann das dazu führen, dass alle darauf aufbauenden Versuche und Studien in die Irre geleitet werden. Das mag vielleicht bei In-vitro-Experimenten auf den ersten Blick nicht so ins Gewicht fallen. Wenn aber Tierversuche darauf aufbauen, die dann ihrerseits wiederum falsche Ergebnisse erzielen, so ist das eine ethische Frage. Diese Untersuchungen liefern unter Umständen keinen weiteren Erkenntnisgewinn, waren nutzlos und haben letztendlich Tierleben vergeudet.

Nicht nur die fehlende Unterscheidung zwischen exploratorischen und konfirmatorischen Versuchen ist ein Problem. Ein weiteres Fehlverhalten bei der statistischen Auswertung ist die „Suche nach dem (verlorenen) Stern“, auch bekannt als p-Hacking. Damit werden die Bestrebungen umschrieben, die Wissenschaftler bei der statistischen Auswertung der Daten anstellen, um ein signifikantes Ergebnis zu erzielen. Die graphischen Abbildungen sollen durch ein Sternchen (oder auch zwei oder drei) gekrönt werden. Denn Sternchen sind sexy und bekanntermaßen gilt: Sex sells. Um das zu erreichen, werden schon mal einzelne Ausreißer entfernt, die sonst das Ergebnis vermasseln würden. Oder es werden noch ein paar Tiere mehr getestet, um ein signifikantes Resultat zu erreichen. Im umgekehrten Fall wird die Versuchsreihe früher beendet, wenn das gewünschte Ergebnis schon erzielt wurde. Auch mit den statistischen Methoden wird herumgespielt, da wird der nicht parametrische Mann-Whitney-U-Test schon mal durch den parametrischen t-Test ersetzt.

e_20_10b
Foto: Adobe Stock/filin174; Montage: LJ

Aber nicht nur Unsauberkeiten bei der statistischen Planung und Auswertung führen zu einer fälschlichen Darstellung der Ergebnisse, die sich dadurch nicht wiederholen lassen. Entscheidend ist natürlich auch, welche Ergebnisse letztendlich in die Publikation einfließen. Signifikante Unterschiede zwischen einer Kontrollgruppe und einem neu zu entwickelnden Medikament sind immer noch leichter zu publizieren als die Aussage, die neue vielversprechende Substanz zur Behandlung der Alzheimer-Erkrankung hatte im Versuch keinen Effekt gezeigt. Diese „Null“-Ergebnisse werden gerne unter den Teppich gekehrt oder verstauben in der Schublade.

Hinter diesem Reporting Bias steckt nicht immer böse Absicht. Manchmal werden Ergebnisse weggelassen, weil sie einfach nicht erklärt werden können oder weil die Gutachterin während des Reviewprozesses das Weglassen der Ergebnisse sogar fordert. Der Anteil an Publikationen mit „positiven“ Ergebnissen – also Ergebnissen, die die Hypothese untermauern – variiert je nach Fachgebiet zwischen siebzig und neunzig Prozent. Jede Forscherin und jeder Forscher wird mir aber zustimmen, dass diese Zahl nicht mit der Realität übereinstimmen kann und der Anteil an „Null“-Ergebnissen eigentlich höher sein müsste. Dieses Weglassen der unerwünschten Ergebnisse verzerrt die Forschungsdaten-Landschaft und kann zur Folge haben, dass bereits gescheiterte Versuche irgendwo auf der Welt wiederholt werden. Für den tierexperimentellen Bereich bedeutet dies wiederum, dass Tierleben verschwendet werden.

Wie kann all diesen Faktoren, die zur Reproduzierbarkeitskrise beitragen, begegnet werden? Die gute Nachricht lautet, es gibt bereits jetzt viele operationale Ansatzpunkte, die die wissenschaftliche Qualität von Versuchen verbessern können. Allein die Entwicklungen in der Datenspeicherung und -verarbeitung haben schon vieles bewirkt. Nach jahrelanger Reduzierung der Seitenzahlen ermöglichen Journale es wieder, die Methoden umfassend zu beschreiben und zur Publikation ergänzende Unterlagen mit zu veröffentlichen. In zahlreichen Repositorien können Rohdaten abgelegt und für Dritte zugänglich gemacht werden.

Unveröffentlichte Manuskripte können auf Preprint-Servern zur Verfügung gestellt und offen diskutiert werden. Reporting-Guidelines geben vor, welche Informationen in einer Publikation enthalten sein sollten. Die ARRIVE (Animal Research: Reporting of In Vivo Experiments)-Guidelines zielen insbesondere darauf ab, den Informationsgehalt von Publikationen zu erhöhen, die Tierversuche beinhalten. All diese Maßnahmen tragen zu einer verbesserten Transparenz bei. Allerdings ist auch allen gemeinsam, dass sie sehr spät im wissenschaftlichen Prozess ansetzen, erst dann, wenn die Versuche schon durchgeführt wurden. Viele Fehler bei der Versuchsplanung, wie das Weglassen von Randomisierung und Verblindung oder eine ungenügende statistische Planung der Versuche, sind dann bereits schon geschehen.

Es braucht also auch Maßnahmen, die früher ansetzen, bereits vor dem Versuch. Wichtig ist die Ausbildung der jungen Nachwuchswissenschaftler, ebenso die Unterstützung der erfahrenen Forscherinnen bei der Versuchsplanung und statistischen Auswertung. Der Experimental Design Assistant, entwickelt vom britischen 3R-Zentrum NC3R (National Centre for the Replacement Refinement and Reduction of Animal Research) ist ein solches Online-Tool. Es leitet Wissenschaftlerinnen und Wissenschaftler bei der Planung ihrer Experimente an.

Die Präregistrierung von Studien geht noch einen Schritt weiter. Präregistrierung bedeutet, dass das Studiendesign, die Auswahl der Methoden und die statistische Planung noch vor Beginn der Versuche offengelegt werden müssen. Zwar werden auch hier Forscher durch die gezielten Abfragen auf bestimmte Fehlerquellen aufmerksam gemacht, aber die Präregistrierung zielt gleichzeitig auf eine erhöhte Transparenz ab. Indem der originäre Studienplan für Dritte sichtbar wird, ist ein Vergleich mit den später publizierten Daten möglich. So kann nachvollzogen werden, was die ursprüngliche wissenschaftliche Fragestellung war, welche Gruppengröße für die Versuche berechnet wurde oder welche Ausschlusskriterien angelegt wurden. Wird in der Publikation davon abgewichen, muss der Autor gegebenenfalls Dritten erklären, wie es dazu kam. Langfristig könnte dies dazu führen, dass sich der Anteil an „positiven“ Ergebnissen in den Publikationen verringert und der Anteil an „Null“-Ergebnissen steigt.

In der Klinik gibt es erste Belege für eine solche Entwicklung. In der Humanmedizin ist die Präregistrierung von klinischen Studien seit fast zwei Jahrzehnten etabliert. Hier konnte beispielhaft für die Herz-Kreislauf-Forschung gezeigt werden, dass bei präregistrierten Studien die Anzahl der „positiven“ Ergebnisse (die Testsubstanz hatte einen signifikanten Effekt) abnimmt.

An dieser Stelle werden sich viele fragen, ob die Präregistrierung tatsächlich auch für die präklinische und Grundlagenforschung sinnvoll ist. Hier lässt sich, wie eingangs beschrieben, nur Weniges genau planen oder vorhersehen. Wissenschaftlerinnen und Wissenschaftler fühlen sich in ihrer Forschungsfreiheit eingeschränkt, wenn der Versuchsplan vorher öffentlich abgelegt und dann auch noch eingehalten werden soll. Die Präregistrierung hat aber nicht zum Ziel, Forschende festzunageln. Wichtig ist dabei, für Dritte nachvollziehbar darzulegen, welche Ergebnisse mit der Forschungsarbeit erzielt wurden und mit welchen Mitteln. Dazu gehört aber eben auch, dass die Wissenschaft anerkennen muss, dass nicht nur „positive“ Ergebnisse, sondern alle Ergebnisse zu einem Erkenntnisgewinn beitragen.

Helfen kann dabei das Tierstudienregister Animal Study Registry (animalstudyregistry.org) des Bundesinstituts für Risikobewertung (BfR). Es dokumentiert das Design tierexperimenteller Studien. Dabei kann der Autor oder die Autorin einer Studie bei einer bereits registrierten Studie Kommentare hinzufügen, die beispielsweise Änderungen am Versuchsaufbau erklären oder auf die daraus resultierenden Publikationen hinweisen. Die Animal Study Registry hat darüber hinaus auch das Tierwohl im Fokus und fragt Besonderheiten zur Haltung der Tiere und Refinement (Verbesserungs)-Maßnahmen ab. Registrierte Studien erhalten einen Digitalen Objektbezeichner (DOI), der zusammen mit dem PDF einem eingereichten Manuskript beigefügt werden kann. Die kompletten Inhalte einer registrierten Studie werden erst nach Ablauf einer Sperrfrist mit einer maximalen Dauer von fünf Jahren sichtbar.

Die Präregistrierung ist aus meiner Sicht ein wertvolles Instrument, die Qualität der biomedizinischen Forschung voranzutreiben. Durch die verbesserte Aussagekraft der Ergebnisse in der präklinischen und Grundlagenforschung können langfristig unnötige Tierversuche vermieden und gleichzeitig die Übertragbarkeit erhöht werden.

Bei dieser Diskussion darf aber nicht vergessen werden, dass es bei den vielen operationalen Fehlern und Lösungsvorschlägen auch eine übergeordnete Ebene gibt. Wie kommt es dazu, dass Wissenschaftlerinnen und Wissenschaftler Versuche schlampig planen oder Daten bei der Publikation weglassen? Werden sie gefragt, erhält man immer wieder die gleiche Antwort: der hohe Publikationsdruck, der von allen Seiten auf sie ausgeübt wird. Publikationen, besonders in hochrangigen Journalen, sind immer noch die Währung der Wissenschaft. Sie öffnen die Türen zu Drittmitteln sowie Jobs – und ermöglichen vielerorts erst die wissenschaftliche (Hochschul-)Karriere. Alle an dem Spiel beteiligten Gruppen tragen ihren Teil dazu bei: Die Verlage, die ihre Zeitschriften verkaufen wollen, sowie die Drittmittelgeber und Universitäten oder wissenschaftlichen Einrichtungen, die Antragsteller oder Bewerber meist nach ihrer Publikationsleistung bewerten. Die Wissenschaft muss daher über ein neues Bewertungssystem nachdenken [1]. Qualität und Transparenz in der Forschung müssen einen Eigenwert erhalten. Die Präregistrierung kann ein wichtiger Teil dieses neuen Systems sein.

Referenzen

[1] Rethinking the incentive system in science: animal study registries: Preregistering experiments using animals could greatly improve transparency and reliability of biomedical studies and improve animal welfare. Heinl C, Chmielewska J, Olevska A, Grune B, Schönfelder G, Bert B. EMBO Rep. 2020 Jan 7;21(1):e49709. doi: 10.15252/embr.201949709.



Zur Autorin

Bettina Bert ist kommissarische Leiterin der Fachgruppe „Tierschutz und Wissenstransfer“ am Bundesinstitut für Risikobewertung in Berlin.


Letzte Änderungen: 07.07.2020