Varianz gehört
zum Leben
(23.05.2022) Dennoch will man mit Standardisierung die Replikationskrise beenden. Machen unterschiedliche Versuchsbedingungen Ergebnisse nicht robuster?
Auch wenn die Zahlen schwanken und es zwischen den verschiedenen Fachdisziplinen große Unterschiede gibt: Dass sich die Ergebnisse wissenschaftlicher Experimente in anderen Laboren nicht unbedingt immer bestätigen lassen, ist unter dem Stichwort „Reproduzierbarkeitskrise“ oder „Replikationskrise“ längst Allgemeinwissen. Darüber, wie sich dieser „Krise“ beikommen lässt, streitet sich die Wissenschaftscommunity allerdings noch. Vor allem in der biomedizinischen Forschung haben Experimente, die sich nicht reproduzieren lassen, weitreichende Konsequenzen – bis hin zu teuren klinischen Studien, die vorzeitig abgebrochen werden müssen und Versuchstieren, die unnötig leiden oder ihr Leben lassen müssen.
Gemeinhin werden für nicht reproduzierbare Ergebnisse eine unvollständige Dokumentation der Versuchsbedingungen und/oder eine mangelnde Standardisierung verantwortlich gemacht. Die Konsequenzen daraus lauten: Experimente besser beschreiben und Standardisierung strikt einhalten. Für beide Empfehlungen gibt es bereits gute Ansätze. So werden viele präklinische Studien bereits vorab registriert und umfangreiche Metadaten publiziert. Tierversuche werden auf die immer gleiche Weise mit genetisch identischen Tieren durchgeführt, die unter exakt gleichen Bedingungen gehalten werden und immer nur mit demselben Experimentator in Berührung kommen. Einen durchschlagenden Erfolg hatten diese Bemühungen jedoch noch nicht. Vielleicht ein Grund, einen anderen Weg zu gehen?
Einzigartige Lebewesen
Ein Blick in die Natur zeigt, dass Standardisierung und Leben nicht wirklich zusammenpassen. Jedes Lebewesen ist für sich einzigartig; selbst bei gleicher genetischer Ausstattung können Individuen sich deutlich anders entwickeln und handeln – man denke nur an zweieiige Zwillinge. Bei Versuchstieren – insbesondere bei Mäusen, die als Säugetiere dem Menschen, der in der Regel von biomedizinischen Studien profitieren soll, durchaus nahe kommen – hat man diesen Aspekt bislang weitgehend vernachlässigt. Dabei ist längst bekannt, dass Lebewesen äußerst sensibel auf kleinste Veränderungen der Umweltbedingungen reagieren und daraufhin unterschiedliches Aussehen und Verhalten entwickeln können – auch bei gleichem genetischen Hintergrund. Man spricht dabei von phänotypischer Plastizität, einem Phänomen, dessen Bedeutung zunehmend in den Fokus von Wissenschaftlern rückt.
Man muss sich also die Frage stellen, wie viel wert ein Ergebnis ist, dass unter streng standardisierten Bedingungen erhalten wurde. Sollte nicht ein Ergebnis, das die Realität abbildet, bei unterschiedlichen Mausstämmen, in verschiedenen Laboren und unter verschiedenen Bedingungen (sofern sie keinen Einfluss auf den Gegenstand der Untersuchung haben) zumindest qualitativ gleich bleiben? Immerhin sollen zukünftige Medikamente auch bei Europäern und Afrikanern, im Sommer und im Winter und bei Männern und Frauen auf die gleiche Weise wirken.
Nur robuste Ergebnisse sind gute Ergebnisse
Aus diesen Überlegungen leitet sich der Ansatz ab, die Reproduzierbarkeit von wissenschaftlichen Ergebnissen zu verbessern, indem man bei den Experimenten eine gewisse Heterogenität einführt. Durch eine systematische Veränderung einzelner Parameter, dem Hinzunehmen eines zweiten Mausstamms oder eines zusätzlichen Experimentators sollten Ergebnisse robuster werden. Denn wenn man unter verschiedenen Bedingungen zumindest qualitativ das Gleiche findet, ist das ein starkes Indiz dafür, dass man keinem Artefakt aufgesessen ist.
Diesen Ansatz verfolgen die beiden Verhaltensforscherinnen Vanessa von Kortzfleisch und Helene Richter von der Westfälischen Wilhelms-Universität Münster. In einer empirischen Studie widmeten sie sich vor allem dem Einfluss der Störgröße, die als die wichtigste bei Tierversuchen gilt: dem menschlichen Experimentator. Um herauszufinden, ob das Hinzunehmen mehrerer Experimentatoren ausreichend Heterogenität einführt, um die Ergebnisse robuster zu machen, entwickelten die Forscherinnen ein Experiment, bei dem zwei Maus-Inzuchtstämme mithilfe von verschiedenen gängigen Verhaltenstest miteinander verglichen werden sollten. Dabei fanden die gleichen Versuche in Laboren an drei Standorten statt: den Universitäten Münster, Osnabrück und Bern.
Weniger Einfluss als gedacht
Pro Labor wurden in einem Ansatz je 12 Tiere der beiden Inzuchtstämme von einem einzigen Experimentator untersucht. Im zweiten Ansatz wurde der Versuch so aufgeteilt, dass drei Experimentatoren jeweils Daten von vier Tieren pro Inzuchtstamm beitrugen. Um das Experiment verblinden zu können, testeten allerdings an jedem Standort alle vier Experimentatoren die Gesamtanzahl von zweimal 12 Tieren; anschließend wurde dann zufällig ausgewählt, welche Tiere jeweils für die Auswertung herangezogen wurden.
Die Ergebnisse waren eher unerwartet. Zwar konnten von Kortzfleisch und Richter bestätigen, was eigentlich unerwünscht ist: Die Ergebnisse zwischen den drei Laboren – immerhin alle mit Tierversuchen vertraut – variierten zum Teil stark. Manchmal ging es dabei nur um quantitative Unterschiede, doch bei einzelnen Messgrößen erzielten die Labore auch gegensätzliche Ergebnisse, sodass sie zu unterschiedlichen Schlussfolgerungen kamen. Den großen Einfluss des Experimentators, den die Verhaltensforscherinnen vorab postuliert hatten, sahen sie aber nicht. Tatsächlich war der beobachtete Effekt mit fünf Prozent verschwindend gering. Einen größeren Einfluss mit 25 Prozent hatte das Labor, in dem die Versuche durchgeführt worden waren. Aber was ist mit dem Rest? „Erstaunlicherweise waren bisher unerklärte interindividuelle Unterschiede zwischen den Mäusen für den größten Anteil der Varianz verantwortlich“, erklärt von Kortzfleisch.
Das Labor als Regenschirm
Ist also die Einführung von Heterogenität doch nicht dazu geeignet, Ergebnisse robuster zu machen? Das kann man aus den Ergebnissen nicht schließen, sagen die Autorinnen. Vermutlich war die durch die zusätzlichen Experimentatoren eingeführte Heterogenität einfach viel zu klein, um einen Effekt zu haben. „Wenn man bedenkt, dass die Tiere alle unter nahezu identischen Bedingungen getestet wurden, zeigt die von uns gefundene große interindividuelle Varianz besonders deutlich, dass biologische Variation ein unausweichlicher Bestandteil von tierbasierten Studien ist. Es ist daher wichtig, diese biologische Variation systematisch im Versuchsdesign abzubilden“, so die Verhaltensforscherin.
Hierfür könnte zumindest im ersten Schritt das Versuchslabor besonders gut geeignet sein, vermuten von Kortzfleisch und Richter. Einerseits beeinflusst es in der Regel nicht den Gegenstand der Forschung und außerdem umschließt es wie ein Regenschirm eine ganze Reihe von Einflussgrößen, die sich so mit einem Schlag variieren lassen würden. Gerade bei aufwendigen, teuren Studien lohnt es sich deshalb vermutlich, Experimente parallel in verschiedenen Laboren durchführen zu lassen – eine Vorgehensweise, die bei multizentrischen klinischen Studien ja bereits verwirklicht ist.
Larissa Tetsch
Von Kortzfleisch V. et al. (2022): Do multiple experimenters improve the reproducibility of animal studies? PLoS Biology, 20: e3001564.
Bild: Pixabay/Kapa65
Weitere Artikel zum Thema Replikationskrise
- Das Tier als Messinstrument
Die Wissenschaft steckt in einer Reproduzierbarkeitskrise – besonders dort, wo Tiermodelle zum Einsatz kommen. Ein internationales Forscherteam fordert einen Paradigmenwechsel zu mehr Vielfalt bei Tierversuchen.
- Allianz für reproduzierbare Wissenschaft
Acht Organisationen haben sich zu einem Netzwerk zusammengeschlossen, um die Wissenschaft aus der Reproduzierbarkeitskrise zu führen.
- Vom Triangulieren beim Experimentieren
In den Lebenswissenschaften liefern uns oft verschiedene Methoden das gleiche Ergebnis. Spricht das nicht gegen eine Reproduktionskrise? Leider nicht unbedingt!