Info

Varianz gehört
zum Leben

(23.05.2022) Dennoch will man mit Standardisierung die Replika­tionskrise beenden. Machen unterschiedliche Versuchs­bedin­gungen Ergebnisse nicht robuster?
editorial_bild

Auch wenn die Zahlen schwanken und es zwischen den verschiedenen Fachdisziplinen große Unterschiede gibt: Dass sich die Ergebnisse wissen­schaftlicher Experimente in anderen Laboren nicht unbedingt immer bestätigen lassen, ist unter dem Stichwort „Reproduzier­barkeitskrise“ oder „Replika­tionskrise“ längst Allgemeinwissen. Darüber, wie sich dieser „Krise“ beikommen lässt, streitet sich die Wissenschafts­community allerdings noch. Vor allem in der biomedizinischen Forschung haben Experimente, die sich nicht reprodu­zieren lassen, weitreichende Konsequenzen – bis hin zu teuren klinischen Studien, die vorzeitig abgebrochen werden müssen und Versuchstieren, die unnötig leiden oder ihr Leben lassen müssen.

Gemeinhin werden für nicht reprodu­zierbare Ergebnisse eine unvollständige Dokumentation der Versuchs­bedingungen und/oder eine mangelnde Standardisierung verantwortlich gemacht. Die Konsequenzen daraus lauten: Experimente besser beschreiben und Standar­disierung strikt einhalten. Für beide Empfehlungen gibt es bereits gute Ansätze. So werden viele präklinische Studien bereits vorab registriert und umfangreiche Metadaten publiziert. Tierversuche werden auf die immer gleiche Weise mit genetisch identischen Tieren durchgeführt, die unter exakt gleichen Bedingungen gehalten werden und immer nur mit demselben Experimentator in Berührung kommen. Einen durchschla­genden Erfolg hatten diese Bemühungen jedoch noch nicht. Vielleicht ein Grund, einen anderen Weg zu gehen?

Info

Einzigartige Lebewesen

Ein Blick in die Natur zeigt, dass Standar­disierung und Leben nicht wirklich zusammenpassen. Jedes Lebewesen ist für sich einzigartig; selbst bei gleicher genetischer Ausstattung können Individuen sich deutlich anders entwickeln und handeln – man denke nur an zweieiige Zwillinge. Bei Versuchstieren – insbesondere bei Mäusen, die als Säugetiere dem Menschen, der in der Regel von biomedizinischen Studien profitieren soll, durchaus nahe kommen – hat man diesen Aspekt bislang weitgehend vernachlässigt. Dabei ist längst bekannt, dass Lebewesen äußerst sensibel auf kleinste Veränderungen der Umwelt­bedingungen reagieren und daraufhin unterschiedliches Aussehen und Verhalten entwickeln können – auch bei gleichem genetischen Hintergrund. Man spricht dabei von phäno­typischer Plastizität, einem Phänomen, dessen Bedeutung zunehmend in den Fokus von Wissenschaftlern rückt.

Man muss sich also die Frage stellen, wie viel wert ein Ergebnis ist, dass unter streng standardisierten Bedingungen erhalten wurde. Sollte nicht ein Ergebnis, das die Realität abbildet, bei unterschiedlichen Mausstämmen, in verschiedenen Laboren und unter verschiedenen Bedingungen (sofern sie keinen Einfluss auf den Gegenstand der Untersuchung haben) zumindest qualitativ gleich bleiben? Immerhin sollen zukünftige Medikamente auch bei Europäern und Afrikanern, im Sommer und im Winter und bei Männern und Frauen auf die gleiche Weise wirken.

Nur robuste Ergebnisse sind gute Ergebnisse

Aus diesen Überlegungen leitet sich der Ansatz ab, die Reprodu­zierbarkeit von wissen­schaftlichen Ergebnissen zu verbessern, indem man bei den Experimenten eine gewisse Heterogenität einführt. Durch eine systematische Veränderung einzelner Parameter, dem Hinzunehmen eines zweiten Mausstamms oder eines zusätzlichen Experimen­tators sollten Ergebnisse robuster werden. Denn wenn man unter verschiedenen Bedingungen zumindest qualitativ das Gleiche findet, ist das ein starkes Indiz dafür, dass man keinem Artefakt aufgesessen ist.

Diesen Ansatz verfolgen die beiden Verhaltens­forscherinnen Vanessa von Kortzfleisch und Helene Richter von der Westfälischen Wilhelms-Universität Münster. In einer empirischen Studie widmeten sie sich vor allem dem Einfluss der Störgröße, die als die wichtigste bei Tierversuchen gilt: dem menschlichen Experi­mentator. Um heraus­zufinden, ob das Hinzunehmen mehrerer Experi­mentatoren ausreichend Heterogenität einführt, um die Ergebnisse robuster zu machen, entwickelten die Forscherinnen ein Experiment, bei dem zwei Maus-Inzucht­stämme mithilfe von verschiedenen gängigen Verhaltenstest miteinander verglichen werden sollten. Dabei fanden die gleichen Versuche in Laboren an drei Standorten statt: den Universitäten Münster, Osnabrück und Bern.

Weniger Einfluss als gedacht

Pro Labor wurden in einem Ansatz je 12 Tiere der beiden Inzucht­stämme von einem einzigen Experimentator untersucht. Im zweiten Ansatz wurde der Versuch so aufgeteilt, dass drei Experimen­tatoren jeweils Daten von vier Tieren pro Inzucht­stamm beitrugen. Um das Experiment verblinden zu können, testeten allerdings an jedem Standort alle vier Experimen­tatoren die Gesamtanzahl von zweimal 12 Tieren; anschließend wurde dann zufällig ausgewählt, welche Tiere jeweils für die Auswertung herangezogen wurden.

Die Ergebnisse waren eher unerwartet. Zwar konnten von Kortzfleisch und Richter bestätigen, was eigentlich unerwünscht ist: Die Ergebnisse zwischen den drei Laboren – immerhin alle mit Tierversuchen vertraut – variierten zum Teil stark. Manchmal ging es dabei nur um quantitative Unterschiede, doch bei einzelnen Messgrößen erzielten die Labore auch gegen­sätzliche Ergebnisse, sodass sie zu unterschiedlichen Schluss­folgerungen kamen. Den großen Einfluss des Experi­mentators, den die Verhaltens­forscherinnen vorab postuliert hatten, sahen sie aber nicht. Tatsächlich war der beobachtete Effekt mit fünf Prozent verschwindend gering. Einen größeren Einfluss mit 25 Prozent hatte das Labor, in dem die Versuche durchgeführt worden waren. Aber was ist mit dem Rest? „Erstaun­licherweise waren bisher unerklärte interindi­viduelle Unterschiede zwischen den Mäusen für den größten Anteil der Varianz verantwortlich“, erklärt von Kortzfleisch.

Das Labor als Regenschirm

Ist also die Einführung von Heterogenität doch nicht dazu geeignet, Ergebnisse robuster zu machen? Das kann man aus den Ergebnissen nicht schließen, sagen die Autorinnen. Vermutlich war die durch die zusätzlichen Experimen­tatoren eingeführte Hetero­genität einfach viel zu klein, um einen Effekt zu haben. „Wenn man bedenkt, dass die Tiere alle unter nahezu identischen Bedingungen getestet wurden, zeigt die von uns gefundene große interindi­viduelle Varianz besonders deutlich, dass biologische Variation ein unausweich­licher Bestandteil von tierbasierten Studien ist. Es ist daher wichtig, diese biologische Variation systematisch im Versuchs­design abzubilden“, so die Verhaltensforscherin.

Hierfür könnte zumindest im ersten Schritt das Versuchslabor besonders gut geeignet sein, vermuten von Kortzfleisch und Richter. Einerseits beeinflusst es in der Regel nicht den Gegenstand der Forschung und außerdem umschließt es wie ein Regenschirm eine ganze Reihe von Einflussgrößen, die sich so mit einem Schlag variieren lassen würden. Gerade bei aufwendigen, teuren Studien lohnt es sich deshalb vermutlich, Experimente parallel in verschiedenen Laboren durchführen zu lassen – eine Vorgehens­weise, die bei multizen­trischen klinischen Studien ja bereits verwirklicht ist.

Larissa Tetsch

Von Kortzfleisch V. et al. (2022): Do multiple experimenters improve the reproducibility of animal studies? PLoS Biology, 20: e3001564.

Bild: Pixabay/Kapa65


Weitere Artikel zum Thema Replikationskrise


- Das Tier als Messinstrument

Die Wissenschaft steckt in einer Reproduzierbarkeitskrise – besonders dort, wo Tiermodelle zum Einsatz kommen. Ein internationales Forscherteam fordert einen Paradigmenwechsel zu mehr Vielfalt bei Tierversuchen.

- Allianz für reproduzierbare Wissenschaft

Acht Organisationen haben sich zu einem Netzwerk zusammengeschlossen, um die Wissenschaft aus der Reproduzierbarkeitskrise zu führen.

- Vom Triangulieren beim Experimentieren

In den Lebenswissenschaften liefern uns oft verschiedene Methoden das gleiche Ergebnis. Spricht das nicht gegen eine Reproduktionskrise? Leider nicht unbedingt!

 




Letzte Änderungen: 23.05.2022