Editorial

Make Experimentation Great Again!

Von Tobias Straub, München


(07.07.2020) Die Wissenschaft befindet sich nicht erst seit gestern in der Reproduzierbarkeitskrise. Ein Appell zum besseren experimentellen Set-up, damit die Gesellschaft wieder Vertrauen in die Arbeit von Forschenden gewinnt.

Viel wurde bereits geschrieben und diskutiert zum Thema „Nicht-Reproduzierbarkeit“ in der Grundlagenwissenschaft. Nach diversen Skandalen, John Ioannidis‘ „Why most published research findings are false[1] und verschiedenen Berichten zu vergeblichen Reproduktionsversuchen in der Industrie [2] versuchte man zuerst Ursachen zu erklären, dann Lösungen vorzuschlagen und schließlich mehr oder weniger verbindliche Guidelines aufzustellen, um Kontrolle über das Problem zu gewinnen.

Gefühlt waren und sind mir bei den Diskussionen und Ausführungen immer zu viele verschiedene Gruppierungen im Raum: die besonders gebeutelten Sozialwissenschaftler und Psychologen, die Statistiker und Data Scientists, und natürlich auch die Lebenswissenschaftler. Vermeintlich ziehen sie alle an einem Strang, aber letztendlich reden sie viel aneinander vorbei. Ein Beispiel: Reproduzierbarkeit bedeutet für einen Statistiker etwas fundamental anderes als für einen Lebenswissenschaftler [3]. Für diesen Text verwende ich den Terminus so, wie ihn Stanley Lazic in seinem ausgezeichneten Buch „Experimental Design for Laboratory Biologists[4] als „konzeptionelle Reproduzierbarkeit“ beschrieben hat.

e_20_07a
Foto: Unsplash/Judi Neumeyer; Montage: LJ

Das bedeutet, dass ein bestimmtes Phänomen – zum Beispiel der Effekt einer bestimmten Behandlung – unter verschiedensten Bedingungen betrachtet werden kann. In anderen Worten: Wenn eine Arbeitsgruppe A beschreibt, dass eine Substanz X das Tumorzellwachstum hemmt, dann besteht konzeptionelle Reproduzierbarkeit, wenn eine andere Arbeitsgruppe B mit der gleichen, aber womöglich von einem anderen Hersteller bereitgestellten Substanz X das Wachstum einer Tumorzelle hemmen kann, die nicht notwendigerweise die gleiche ist, welche in der Arbeitsgruppe A verwendet wurde, sowie in einem experimentellen Set-up, welches nicht exakt mit dem der Gruppe A übereinstimmt. Diese konzeptionelle Reproduzierbarkeit ist eine Grundvoraussetzung für die Übersetzung von wissenschaftlichen Ergebnissen in eine Applikation, im Fall der Substanz X für die Entwicklung einer medizinischen Therapie.

Wirklich bedeutsam neben semantischen Verwirrungen ist aber, dass sich die Arbeitsweisen in den unterschiedlichen Disziplinen elementar unterscheiden: eine Besonderheit in der Lebenswissenschaft ist die größtenteils explorative Natur der Datensammlung. Unter der Vorgabe „Mal sehen, was passiert“ werden dort scheibchenweise Messdaten erhoben, Versuch nach Versuch; häufig mit kontinuierlichen Veränderungen der experimentellen Parameter und mit zunehmender oder abnehmender Zahl an unterschiedlichen Einflussnahmen. Irgendwann – meist, sobald „genügend“ überzeugende Daten eingesammelt sind – wird publiziert.

Seit 15 Jahren kollaboriere ich mit Arbeitsgruppen aus verschiedensten Bereichen der Lebenswissenschaften in universitären und außeruniversitären Einrichtungen und unterrichte vor allem Jungwissenschaftler in Biostatistik. Basierend auf vielen Interaktionen wage ich zu behaupten, dass Exploration die nahezu ausschließliche Praxis ist. Unabhängig bestätigt wird das durch einen Blick auf die Checklisten, die heutzutage von vielen Journals zur Publikation eingefordert werden: Wenn dort angegeben ist, dass Sample-Größen nicht berechnet wurden, dass nicht randomisiert und keine Ausschlusskriterien vordefiniert wurden, können wir davon ausgehen, dass es sich um eine explorative Arbeit handelt. Auch mithilfe von Checklisten wird es schwer, eine Publikation zu finden, die keine explorativen Charakteristika dokumentiert hat.

Exploration ist essenziell für den wissenschaftlichen Prozess in den Lebenswissenschaften. Denn mittels Exploration beschreiten wir unbekanntes Land und generieren Hypothesen. Aber Exploration kommt meist Hand in Hand mit Nicht-Reproduzierbarkeit, weil die praktizierte Exploration zumeist nicht das Resultat einer bewussten Strategie, sondern Ausdruck experimenteller Planlosigkeit ist.

Dazu gehört, dass die meisten Wissenschaftler ein Experiment nicht als Stichprobe verstehen. „Was zählt, ist auf der Bench“ – wichtig ist nur das Phänomen, so wie es sich in den eigenen Händen in den eigenen vier Wänden materialisiert. Wofür dies repräsentativ ist, ist völlig egal. Mithilfe von einer Prise Voodoo und nicht-nachvollziehbaren Materialien und Methoden werden dann kleinste Effekte aufgeblasen. Ob und unter welchen Bedingungen sich diese in anderen Händen nachvollziehen lassen, ist nicht Bestandteil der Überlegungen. Selbst in der Exploration sollte aber der erste Gedanke immer der Repräsentativität geschuldet sein, denn ein Effekt, der sich nur ein einziges Mal in einem einzigen Labor in den Händen eines einzigen Menschen darstellt, ist wissenschaftlich unbedeutend. Komischerweise tendiert die wissenschaftliche Gemeinschaft genau diese „einzigartigen“ Effekte – Anekdoten – besonders anzubeten. Im toxischen Zyklus von Publish or Perish werden vor allem spektakuläre Ergebnisse belohnt. Ergebnisse von Wissenschaftlern mit „goldenen Händen“ zum Beispiel, wie Haruko Obokata von ihrem Supervisor Charles Vacanti beschrieben wurde. Jene Postdoc, die im Skandal um die STAP-Zellen (von Stimulus-triggered Acquisition of Pluripotency) hauptverantwortlich war für bahnbrechende aber leider falsche Ergebnisse [5]. Reproduzierbare Ergebnisse werden sich auch in den Händen von durchschnittlich geschickten Kollegen darstellen.

Selbstverständlich werden in der Exploration beim schrittweisen Einfokussieren auf das gewünschte Phänomen Ergebnisse produziert, die nicht den Erwartungen entsprechen. Was passiert mit diesen? Am ehesten liefern junge PhD-Studenten noch ehrliche Auskunft. Natürlich werden unerwünschte Ergebnisse gerne aussortiert, in die Schublade verbannt, weggeworfen. Oft mit fadenscheinigen Begründungen: „Das Kit war abgelaufen oder schlecht.“ Es werden also häufig Daten auf gewünschte Resultate selektiert. Sampling Bias nennt man das, und wissenschaftliches Fehlverhalten ist das auch. Manche Gruppenleiter bekommen sowas häufig gar nicht mit, weshalb man erstaunt-verärgerte Blicke erntet, wenn dieses Problem thematisiert wird. Andere wiederum benutzen ihre Seniorität um Daten basierend auf ihrer großen Erfahrung auszusortieren. Hier helfen nur Aufklärung, lückenlose Dokumentation und umfassende Supervision. Vertrauen ist falsch, Kontrolle die einzige Alternative. Denn Sampling Bias hat selbstverständlich verheerende Auswirkung auf die Repräsentativität der Ergebnisse – wofür sind schon subjektiv ausgewählte Daten stellvertretend?

Diese problematischen Verhaltensweisen sind sicher kein spezifisches Phänomen der jüngsten Vergangenheit und nur der zunehmenden Kompetition und dem Publikationszwang geschuldet. Wissenschaftler verlieben sich gerne in ihre eigenen Ideen und Gedankenmodelle. Und obwohl wir eigentlich neutral und offen auf jeden neuen Daten-Input reagieren sollten, wollen wir viel zu häufig und viel zu dickköpfig unsere eigenen Ideen bestätigt sehen. Auch das macht uns voreingenommen.

Die Resultate aus planloser, monate- bis jahrelanger Exploration zeigen eher selten deutliche Effekte und es wird zunehmend schwierig, Kollegen von diesen zu überzeugen. So sehen wir in den letzten zwanzig Jahren eine massive Proliferation von statistischen Tests, die alle Zweifel an der Allgemeingültigkeit unserer Ergebnisse ausräumen sollen. Den meisten Lebenswissenschaftlern ist unbekannt, dass statistische Testverfahren und die Interpretation ihrer Ergebnisse auf fundamentalen Annahmen basieren, die jenseits von Normalverteilung und Varianzen liegen. Dazu gehört die Repräsentativität der Stichprobe. Um die Hypothese testen zu können, dass eine Substanz X das Tumorwachstum in Mäusen hemmt, müssen die erhobenen Messdaten repräsentativ für alle gleich gearteten Experimente sein. Dies ist mit naiver Exploration nicht gewährleistet. Was wiederum bedeutet, dass statistisches Testen von explorativ erhobenen Daten, wie oben beschrieben, keine belastbaren statistischen Ergebnisse (aka p-Werte) ergibt. Ebenso sind die Signifikanztests aus Cell/Nature/Science-Papern mit explorativen Checklist-Charakteristika nicht viel wert. Denn auch hier wurden mit allerhöchster Wahrscheinlichkeit entscheidende Voraussetzungen für das Testen nicht erfüllt.

e_20_07b
Foto: Pexels/Petr Ganaj; Montage: LJ

Sollte es uns wirklich um den reinen wissenschaftlichen Fortschritt gehen und wollen wir in Zukunft schnell und effizient Wissen erlangen, um akute biomedizinische Herausforderungen mithilfe der Wissenschaft zu lösen, müssen wir unsere Arbeitsweise ändern. Und dazu gehört, dass wir eine valide experimentelle Strategie entwickeln.

Selbstverständlich benötigen wir dafür die Exploration zur Generierung von Hypothesen. Um möglichst breitgefächert zu suchen, macht es keinen Sinn, in diesem Prozess höchste Ansprüche an Repräsentativität zu stellen. Aber ein paar wenige Maßnahmen sollten eingesetzt werden, um nicht nur exotische Eintagsfliegen zu generieren. Dazu gehört zum Beispiel, dass die experimentellen Bedingungen mehr variiert werden müssen. Wir wollen Effekte suchen, die sich sowohl bei 140 mM als auch bei 150 mM Natriumchlorid, bei pH 7,35 wie 7,45; bei 30 und 37 Grad Celsius, in HeLa- und HCT-116-Zellen zeigen. Was ich damit sagen will: Je robuster die Effekte gegenüber veränderten Bedingungen sind, desto größer ist die Gesamteinheit, für die die Experimente repräsentativ sind. Sampling Bias muss aktiv vermieden werden durch objektive Ausschlusskriterien wie zum Beispiel Positiv- und Negativkontrollen und lückenlose, transparente Dokumentation.

Interessante Effekte, die sich in der Exploration abzeichnen, sollten nicht mit den Worten „jetzt noch ein-/zweimal wiederholen, und dann ist gut“ repliziert werden, sondern vor Publikation einem konfirmatorischen Experiment unterzogen werden.

Kurzer Einschub zum Thema „interessanter Effekt“: Was mich wirklich verwundert ist, wie wenig heutzutage biologisch gedacht wird. Wenn ich im Zuge einer Konsultation erfrage, wie groß ein biologisch interessanter Effekt in einem x-beliebigen Experiment sein müsste, ernte ich Sprachlosigkeit. „Wie viel länger müssten die Mäuse leben, damit wir die Wirkung des Medikaments für interessant, aussichtsreich erachten?“ – „…, egal, Hauptsache signifikant.“ Diese Denkweise ist falsch. Es macht einen großen Unterschied, ob die Maus einen Tag oder einen Monat, oder ein halbes Jahr länger lebt. Es ist wichtig, sich klarzumachen, welche Effektgröße relevant ist, biologisch relevant. Wenn in der Zeitung steht, dass die Maß Wiesn-Bier nächstes Jahr mehr kostet, ist hoffentlich allen klar, dass das ob weniger wichtig ist als das wie viel.

Was also, wenn wir ein potenziell biologisch relevantes, ein interessantes Phänomen aus der Exploration bestätigen wollen? Was kennzeichnet ein konfirmatorisches Experiment? Dazu erstellen wir einen Ansatz mit dem die Robustheit eines ganz spezifischen Effektes adressiert wird. Wirkt die Behandlung mit Substanz X? Das ist die Hypothese, die es zu testen gilt. Eine einfache Frage, die mit „Ja“ oder „Nein“ beantwortet werden kann, macht ein konfirmatorisches Experiment einfacher. „Keep it simple“ ist die Devise, auch weil simpel meist mit einer höheren statistischen Power beglückt wird (siehe unten); ohne Zeitreihe, ohne Dosiswirkungs-Kurven, ohne Firlefanz.

Selbstverständlich müssen für dieses Experiment neue Daten gesammelt werden. Außerdem muss zuvor eine geeignete Anzahl von biologischen Replikaten bestimmt werden. Das geht nur mit einer sogenannten Power-Analyse. Hierfür muss wiederum der statistische Test bekannt sein, mit dem die Daten am Ende analysiert werden. Der statistische Test ergibt sich aus der Fragestellung und der Natur der Messdaten. Ein idealer Ansatz besteht aus einem Zwei-Gruppenvergleich (beispielsweise unbehandelt und behandelt) mit einer Messgröße, die normalverteilt ist. Mit dieser Information und der Bestimmung einer biologisch relevanten Effektgröße stehen alle Parameter für die Berechnung von N, der Anzahl der biologischen Replikate, bereit. Es geht bei diesem Verfahren darum, die Sensitivität des Experimentes zu optimieren, sodass bei einer ausreichenden Anzahl von Replikaten ein Vertrauen in das Ergebnis gewährleistet ist. Je kleiner die gesuchte, relevante Effektgröße, desto mehr muss repliziert werden. Auch wichtig: Je mehr Power ein experimentelles Set-up und der verwendete statistische Test hat, desto weniger muss repliziert werden. Hier lohnt es sich, ein wenig mehr Zeit zu investieren und eventuell die Ratschläge und Dienste eines Biostatistikers einzuholen.

Was noch fehlt, ist die Definition der Gesamtpopulation, für die die Stichprobe repräsentativ sein soll (eine bestimmte Zelllinie, ein bestimmter Tumor der Maus, männlich oder weiblich et cetera). Entsprechend müssen die einzelnen Proben auch stichprobenweise gesammelt werden und zufällig einer Behandlungsgruppe zugeführt werden – was man als Randomisierung bezeichnet. Dazu gehört zum Beispiel auch eine zufällige Pipettierfolge der verschiedenen Proben oder auch die zufällige Positionierung von Zellkulturflaschen im Inkubator. Und es fehlt noch die Kontrolle von Störgrößen, die einen nicht-gewünschten Einfluss auf die Messung ausüben. Hier gilt es erstens, die verschiedenen experimentellen Gruppen im Block zu untersuchen, damit alle Gruppen den gleichen Störgrößen ausgesetzt sind; und zweitens, die biologischen Replikate unter maximal unterschiedlichem Set-up durchzuführen, etwa mit anderen Reagenzien, anderen Zell-Batches oder zu anderen Tageszeiten.

Alle diese Maßnahmen sind Bestandteil des experimentellen Designs, welches durch Nicht-Vorhandensein nicht-reproduzierbare Studien sehr gut charakterisiert [1]. Hat man ein solches Design vor der eigentlichen Proben- und Messdatensammlung erstellt, wäre es in Zukunft wichtig, eine Vorregistrierung in Erwägung zu ziehen (siehe zum Beispiel https://osf.io/prereg/). So kann man einen Nachweis erbringen, dass man auf dem Weg von den Daten zu den Ergebnissen nicht geschummelt hat, Stichwort p-Value Hacking. Selbstverständlich sollte auch sein, dass Ergebnisse, welche nicht der Erwartung entsprechen, publiziert werden. Das sind keine gescheiterten Experimente. Experimente scheitern nur dadurch, dass sie nicht ordentlich entworfen werden oder wenn Kontrollen versagen. Für die Gemeinschaft ist es wichtig zu erfahren, dass Substanz X in unserem Set-up keine deutliche Wirkung gezeigt hat.

Für den konfirmatorischen Teil der experimentellen Strategie, die ich hier bewerbe, bedarf es einer Kompetenz, die nicht vom Himmel fällt und die einem Lebenswissenschaftler nicht naturgegeben ist. Leider wird diese auch nicht systematisch unterrichtet, was aber auch nicht wirklich interessiert, denn für die wissenschaftliche Karriere sind Branding und Networking anscheinend viel wichtiger als die Durchführung einer nachhaltigen Studie [6]. Schade.

Es ist schwer, echte Anreize für eine verbesserte experimentelle Strategie zu vermitteln. Sicher bin ich mir allerdings, dass die vielen verschwendeten ersten Jahre, in denen PhD-Studentinnen und -Studenten vergeblich versuchen, Resultate von ihren Vorgängerinnen und Vorgängern zu reproduzieren, vermieden werden können. Sicher bin ich mir auch, dass ein wesentlich höherer Anteil der wissenschaftlichen Arbeit einem nachhaltigen Wissenszuwachs dienen wird und die verwendeten Mittel – Zeit und Geld – viel effizienter eingesetzt wären. Nur so werden wir langfristig das Vertrauen der Gesellschaft in unsere Arbeit bewahren können.

Referenzen

[1] Ioannidis, J.P.A. (2005). Why Most Published Research Findings Are False. PLOS Medicine 2, e124.

[2] Begley, C.G., and Ellis, L.M. (2012). Raise standards for preclinical cancer research. Nature 483, 531–533.

[3] Leek, J.T., and Peng, R.D. (2015). Opinion: Reproducible research can still be wrong: Adopting a prevention approach. PNAS 112, 1645–1646.

[4] Lazic, S.E. (2016). Experimental Design for Laboratory Biologists: Maximising Information and Improving Reproducibility (Cambridge University Press).

[5] Goodyear, D. (2016). The Stem-Cell Scandal.

[6] Tregoning, J.S., and McDermott, J.E. (2020). Ten Simple Rules to becoming a principal investigator. PLOS Computational Biology 16, e1007448.



Zum Autor

Tobias Straub ist seit 2012 Leiter der Bioinformatik am Biomedizinischen Centrum der Universität München.


Letzte Änderungen: 07.07.2020