Editorial

Nager vermisst

(24.3.16) „Wo sind all die Nager hin?“ fragen Ulrich Dirnagl und Kollegen in Plos Biology (14: e1002331). Die Autoren sorgen sich dabei nicht um ein Artensterben, sondern um den Verlust von Versuchstieren bei der Datenauswertung.
editorial_bild

© imacture / fotolia

 Wenn eine Studie beispielsweise mit 16 Mäusen beginnt, von denen nur noch 12 im Ergebnisteil der zugehörigen Publikation erwähnt werden, dann horchen Statistiker auf. Oder auch nicht, denn hin und wieder fallen die verlorenen Nager anscheinend komplett unter den Tisch und werden nicht mal im Material- und Methodenteil erwähnt.

Im Märzheft hatten wir über die Reproduzierbarkeitskrise in den Neurowissenschaften berichtet. Wenn explorative Studien im Nachhinein als Hypothesenbestätigung dargestellt werden oder wenn man unliebsame Ergebnisse einfach beiseite lässt, dann muss sich niemand wundern, falls andere Arbeitsgruppen die Resultate nicht bestätigen können. Das gilt nicht nur für die Neurowissenschaften! Aber wie verbreitet ist das Problem wirklich? Kann man tatsächlich abschätzen, wie viele biomedizinische Studien letztlich für die Füße sind?

Selektiver Schwund

Ulrich Dirnagl ist die Einteilung in gute und schlechte Paper zu plakativ. „Die Leute wollen da immer eine Prozentzahl hören.“ Viel wichtiger erscheint dem Leiter der Experimentellen Neurologie der Charité und Direktor des Centrums für Schlaganfallforschung Berlin die Grauzone dazwischen. Dirnagl und Kollegen hatten bei der Suche nach den „verschwundenen Nagern“ zunächst fiktive Datensätze erzeugt, wie sie auch in einer präklinischen Studie hätten erhoben werden können.

Editorial

Eine Rattengruppe bekommt ein Medikament, die Kontrollgruppe ein Placebo, und dann vergleicht man die Effekte. Die Autoren hatten nun zufällig Datenpunkte herausgenommen. Die statistische Power sank dadurch, und tendenziell bekommt man häufiger falsch-negative Ergebnisse. Klammert man für die Berechnungen aber gezielt Datenpunkte aus, die dem erwarteten Ergebnis widersprechen, dann erhöht sich die Zahl falsch-positiver Ergebnisse.

Soweit nicht überraschend. Doch Dirnagl und Kollegen nahmen auch bereits publizierte Arbeiten unter die Lupe und wollten wissen, wie oft Versuchstiere „verlorengehen“. 100 Paper umfasste die Metaanalyse, insgesamt hatte das Team 316 Experimente zu Schlaganfällen und 206 Experimente zur Tumorbehandlung ausgewertet. Für jedes Experiment suchte Dirnagls Team im Material- und Methodenteil der entsprechenden Publikation nach der Anzahl der verwendeten Tiere und prüfte, ob sich diese Anzahl mit den Tieren im Ergebnisteil deckt oder nicht.

Überschätzte Effekte durch Datenschwund

In rund zwei Drittel aller Experimente ließ sich dazu gar keine Aussage treffen. Ob und warum Versuchstiere herausgenommen wurden, kann man in diesen Fällen also gar nicht nachvollziehen. In gut 20 Prozent der Versuche stimmten die Vorher/Nachher-Zahlen überein. Schaut man sich die wenigen Experimente an, in denen der Verlust von Tieren dokumentiert ist, so erklären die Autoren meistens nicht, warum einzelne Ratten oder Mäuse in der Auswertung unberücksichtigt blieben.

In vielen Fällen war der Verlust der Versuchstiere größer als 25 Prozent. Außerdem gingen die meisten Versuchstiere in den Experimentalgruppen verloren, und nicht in den Kontrollgruppen. Die Effektstärken könnten daher, so die Schlussfolgerung von Dirnagl und Kollegen, in vielen der analysierten Paper überschätzt worden sein.

Besorgniserregend: Auch bei Versuchen, in denen die Anzahl der Tiere im Methoden- und Ergebnisteil übereinstimmt, waren die Experimentalgruppen tendenziell kleiner als die Kontrollgruppen. Da drängt sich der Verdacht auf, dass der Verlust von Ratten und Mäusen manchmal schlicht verheimlicht worden ist und die Forscher hinterher so taten, als hätte es die Tiere nie gegeben.

Dirnagl und Co. verweisen noch auf ein weiteres Problem: Manchmal sterben Tiere im Verlauf der Experimente und können dann natürlich nicht bis zum Ende der Versuche beobachtet werden. Genau diese Todesfälle können in präklinischen Studien aber ein Hinweis auf ernsthafte Nebenwirkungen einer Therapie sein. Wenn der Tod der Versuchstiere nicht genau dokumentiert wird, kann das also böse Folgen haben.

 „Die Arbeit hat mich nach Veröffentlichung eine Woche meines Lebens gekostet, wegen Non Stop-Interviews“, berichtet Dirnagl. Und in der Tat stellt sich die Frage, was man aus einer solchen Metaanalyse mitnimmt. Schließlich werden die meisten Forscher für sich in Anspruch nehmen, dass sie nicht in betrügerischer Absicht Datenpunkte unter den Teppich kehren.

Keine Ausreden für mangelhafte Dokumentation

 Anderseits wird sich niemand von bestimmten Erwartungen freisprechen können; in der Regel hofft ein Wissenschaftler nun mal auf ein bestimmtes Ergebnis! Dirnagl und seine Mitautoren raten daher, man solle bereits vor den Experimenten klare Kriterien formulieren, die einen Ausreißer definieren. Den Tod von Versuchstieren müsse man sorgfältig dokumentieren und auch im Paper mitteilen.

 Nun scheint der Trend aber zu immer knapperen Methodenteilen überzugehen – eine Sache, die wir kürzlich auch im Laborjournal-Blog diskutiert hatten. Was also tun, wenn Journals überhaupt keine ausführlichen Berichte zu den Versuchen wünschen? Dirnagl lässt diese Ausrede nicht gelten. „Sie können immer Supplemental Data liefern, und da kann man Originaltabellen mit jedem Datenpunkt beifügen.“

 Ebenfalls viel diskutiert: Forscher beklagen, dass Paper mit Negativergebnissen von Journals abgelehnt würden. Es müsse immer irgendein bedeutsamer, signifikanter Unterschied zwischen den Gruppen gezeigt werden, damit man seine Forschungsergebnisse unter die Leute bringen kann. Ist die Wissenschaftscommunity also selbst schuld am Publication Bias? Weil Paper mit unspektakulären Ergebnissen gar keine Chance haben? „Das ist ein Mythos“, hakt Dirnagl ein, „da müsste mir erst mal einer einen Nachweis bringen, dass man Negativergebnisse nicht publizieren kann.“ Wohl nicht in den hochrangigen Journals, räumt Dirnagl ein, aber die seien ohnehin kein Qualitätsgarant. „In Plos One wird solch eine Arbeit sicher nicht mit der Begründung abgelehnt, dass dort Nullergebnisse drinstehen“, ist sich Dirnagl sicher, „deshalb finde ich diese Begründung faul“.

Jagd nach Signifikanz

Die Jagd nach dem "p<0,05 um jeden Preis" sollte also nicht das Maß aller Dinge sein, zumal der P-Wert allein keine große Aussagekraft hat. Hans Zauner hat hierzu ein paar Fakten und Missverständnisse zusammengetragen.

Auch Ulrich Dirnagl hatte dem Thema Statistik 2014 einen eigenen Laborjournal-Essay gewidmet und erklärt, dass eine Studie mit signifikanten Gruppenunterschieden weniger wert sein kann als ein Münzwurf; dann nämlich, wenn die statistische Power zu niedrig ist.

 Wenn man aber

 - Planung und Durchführung der Versuche sauber dokumentiert,

 - wo immer möglich, verblindet experimentiert und auswertet

 - vorher Kriterien definiert, wie mit Ausreißern umzugehen ist und

 - strikt zwischen hypothesengeleiteter und explorativer Forschung unterscheidet,

dann können andere Forscher zumindest nachvollziehen, was man gemacht hat.

Vielleicht zweifeln die Kollegen später die statistische Aussagekraft der Studie an und kommen zu anderen Schlussfolgerungen. Aber immerhin kann sich die Community damit auseinandersetzen und mit den Daten weiterarbeiten, sofern alles vollständig berichtet ist.

Sorgen Sie also dafür, dass sich Ihre Ratten und Mäuse nicht einfach in Luft auflösen!

 

Mario Rembold



Letzte Änderungen: 10.05.2016