Editorial

Make Experimentation
Great Again!

(11.08.2020) Ein Appell zum besseren experi­men­tellen Set-up, damit die Gesell­schaft wieder Vertrauen in die Arbeit von Forschenden gewinnt.
editorial_bild

Viel wurde bereits geschrieben und diskutiert zum Thema „Nicht-Reprodu­zierbarkeit“ in der Grund­lagenwissen­schaft. Nach diversen Skandalen, John Ioannidis‘ „Why most published research findings are false“ [1] und verschie­denen Berichten zu vergeblichen Reproduk­tionsversuchen in der Industrie [2] versuchte man zuerst Ursachen zu erklären, dann Lösungen vorzuschlagen und schließlich mehr oder weniger verbindliche Guidelines aufzustellen, um Kontrolle über das Problem zu gewinnen.

Gefühlt waren und sind mir bei den Diskussionen und Ausfüh­rungen immer zu viele verschie­dene Gruppie­rungen im Raum: die besonders gebeutelten Sozial­wissenschaftler und Psycho­logen, die Statistiker und Data Scientists, und natürlich auch die Lebens­wissenschaftler. Vermeintlich ziehen sie alle an einem Strang, aber letztendlich reden sie viel aneinander vorbei. Ein Beispiel: Reprodu­zierbarkeit bedeutet für einen Statistiker etwas fundamental anderes als für einen Lebens­wissen­schaftler [3]. Für diesen Text verwende ich den Terminus so, wie ihn Stanley Lazic in seinem ausge­zeichneten Buch „Experimental Design for Laboratory Biologists“ [4] als „konzep­tionelle Reprodu­zierbarkeit“ beschrieben hat.

Editorial

Das bedeutet, dass ein bestimmtes Phänomen – zum Beispiel der Effekt einer bestimmten Behandlung – unter verschie­densten Bedingungen betrachtet werden kann. In anderen Worten: Wenn eine Arbeits­gruppe A beschreibt, dass eine Substanz X das Tumorzell­wachstum hemmt, dann besteht konzep­tionelle Reprodu­zierbarkeit, wenn eine andere Arbeits­gruppe B mit der gleichen, aber womöglich von einem anderen Hersteller bereit­gestellten Substanz X das Wachstum einer Tumorzelle hemmen kann, die nicht notwen­digerweise die gleiche ist, welche in der Arbeits­gruppe A verwendet wurde, sowie in einem experi­mentellen Set-up, welches nicht exakt mit dem der Gruppe A überein­stimmt. Diese konzep­tionelle Reprodu­zierbarkeit ist eine Grund­voraussetzung für die Übersetzung von wissen­schaftlichen Ergeb­nissen in eine Applikation, im Fall der Substanz X für die Entwicklung einer medizinischen Therapie.

Wirklich bedeutsam neben semantischen Verwir­rungen ist aber, dass sich die Arbeits­weisen in den unter­schiedlichen Disziplinen elementar unterscheiden: eine Beson­derheit in der Lebens­wissenschaft ist die größtenteils explorative Natur der Daten­sammlung. Unter der Vorgabe „Mal sehen, was passiert“ werden dort scheibchen­weise Messdaten erhoben, Versuch nach Versuch; häufig mit konti­nuierlichen Verän­derungen der experi­mentellen Parameter und mit zunehmender oder abnehmender Zahl an unter­schiedlichen Einfluss­nahmen. Irgendwann – meist, sobald „genügend“ überzeugende Daten eingesammelt sind – wird publiziert.

Seit 15 Jahren kollaboriere ich mit Arbeits­gruppen aus verschie­densten Bereichen der Lebens­wissenschaften in universitären und außer­universitären Einrichtungen und unterrichte vor allem Jungwissen­schaftler in Biostatistik. Basierend auf vielen Inter­aktionen wage ich zu behaupten, dass Exploration die nahezu ausschließliche Praxis ist. Unabhängig bestätigt wird das durch einen Blick auf die Checklisten, die heutzutage von vielen Journals zur Publikation eingefordert werden: Wenn dort angegeben ist, dass Sample-Größen nicht berechnet wurden, dass nicht randomisiert und keine Ausschluss­kriterien vordefiniert wurden, können wir davon ausgehen, dass es sich um eine explorative Arbeit handelt. Auch mithilfe von Checklisten wird es schwer, eine Publikation zu finden, die keine explorativen Charak­teristika dokumentiert hat.

Exploration ist essenziell für den wissen­schaftlichen Prozess in den Lebens­wissenschaften. Denn mittels Exploration beschreiten wir unbekanntes Land und generieren Hypothesen. Aber Exploration kommt meist Hand in Hand mit Nicht-Reprodu­zierbarkeit, weil die praktizierte Exploration zumeist nicht das Resultat einer bewussten Strategie, sondern Ausdruck experimenteller Planlosigkeit ist.

Dazu gehört, dass die meisten Wissen­schaftler ein Experiment nicht als Stichprobe verstehen. „Was zählt, ist auf der Bench“ – wichtig ist nur das Phänomen, so wie es sich in den eigenen Händen in den eigenen vier Wänden materialisiert. Wofür dies repräsen­tativ ist, ist völlig egal. Mithilfe von einer Prise Voodoo und nicht-nachvoll­ziehbaren Materialien und Methoden werden dann kleinste Effekte aufgeblasen. Ob und unter welchen Bedingungen sich diese in anderen Händen nachvoll­ziehen lassen, ist nicht Bestandteil der Über­legungen. Selbst in der Exploration sollte aber der erste Gedanke immer der Repräsen­tativität geschuldet sein, denn ein Effekt, der sich nur ein einziges Mal in einem einzigen Labor in den Händen eines einzigen Menschen darstellt, ist wissen­schaftlich unbedeutend. Komischer­weise tendiert die wissen­schaftliche Gemein­schaft dazu, genau diese „einzigartigen“ Effekte – Anekdoten – besonders anzubeten. Im toxischen Zyklus von Publish or Perish werden vor allem spekta­kuläre Ergebnisse belohnt. Ergebnisse von Wissen­schaftlern mit „goldenen Händen“ zum Beispiel, wie Haruko Obokata von ihrem Supervisor Charles Vacanti beschrieben wurde. Jene Postdoc, die im Skandal um die STAP-Zellen (von Stimulus-triggered Acquisition of Pluripotency) haupt­verantwortlich war für bahn­brechende aber leider falsche Ergebnisse [5]. Reprodu­zierbare Ergebnisse werden sich auch in den Händen von durch­schnittlich geschickten Kollegen darstellen.

Selbstverständlich werden in der Exploration beim schrittweisen Einfokus­sieren auf das gewünschte Phänomen Ergebnisse produziert, die nicht den Erwartungen entsprechen. Was passiert mit diesen? Am ehesten liefern junge PhD-Studenten noch ehrliche Auskunft. Natürlich werden unerwünschte Ergebnisse gerne aussortiert, in die Schublade verbannt, weg­geworfen. Oft mit faden­scheinigen Begründungen: „Das Kit war abgelaufen oder schlecht.“ Es werden also häufig Daten auf gewünschte Resultate selektiert. Sampling Bias nennt man das, und wissen­schaftliches Fehl­verhalten ist das auch. Manche Gruppen­leiter bekommen sowas häufig gar nicht mit, weshalb man erstaunt-verärgerte Blicke erntet, wenn dieses Problem thematisiert wird. Andere wiederum benutzen ihre Seniorität um Daten basierend auf ihrer großen Erfahrung auszu­sortieren. Hier helfen nur Aufklärung, lückenlose Dokumen­tation und umfassende Supervision. Vertrauen ist falsch, Kontrolle die einzige Alternative. Denn Sampling Bias hat selbst­verständlich verheerende Auswirkung auf die Repräsen­tativität der Ergebnisse – wofür sind schon subjektiv ausgewählte Daten stellvertretend?

Diese problematischen Verhaltens­weisen sind sicher kein spezifisches Phänomen der jüngsten Vergangenheit und nur der zunehmenden Kompetition und dem Publika­tionszwang geschuldet. Wissen­schaftler verlieben sich gerne in ihre eigenen Ideen und Gedanken­modelle. Und obwohl wir eigentlich neutral und offen auf jeden neuen Daten-Input reagieren sollten, wollen wir viel zu häufig und viel zu dickköpfig unsere eigenen Ideen bestätigt sehen. Auch das macht uns vorein­genommen.

Die Resultate aus planloser, monate- bis jahre­langer Exploration zeigen eher selten deutliche Effekte und es wird zunehmend schwierig, Kollegen von diesen zu überzeugen. So sehen wir in den letzten zwanzig Jahren eine massive Proliferation von statistischen Tests, die alle Zweifel an der Allgemein­gültigkeit unserer Ergebnisse ausräumen sollen. Den meisten Lebens­wissenschaftlern ist unbekannt, dass statistische Testverfahren und die Inter­pretation ihrer Ergebnisse auf fundamentalen Annahmen basieren, die jenseits von Normal­verteilung und Varianzen liegen. Dazu gehört die Repräsen­tativität der Stichprobe. Um die Hypothese testen zu können, dass eine Substanz X das Tumor­wachstum in Mäusen hemmt, müssen die erhobenen Messdaten repräsentativ für alle gleich gearteten Experimente sein. Dies ist mit naiver Exploration nicht gewähr­leistet. Was wiederum bedeutet, dass statistisches Testen von explorativ erhobenen Daten, wie oben beschrieben, keine belastbaren statis­tischen Ergebnisse (aka p-Werte) ergibt. Ebenso sind die Signifi­kanztests aus Cell/Nature/Science-Papern mit explorativen Checklist-Charak­teristika nicht viel wert. Denn auch hier wurden mit allerhöchster Wahr­scheinlichkeit entscheidende Voraus­setzungen für das Testen nicht erfüllt.

Sollte es uns wirklich um den reinen wissen­schaftlichen Fortschritt gehen und wollen wir in Zukunft schnell und effizient Wissen erlangen, um akute biomedizinische Heraus­forderungen mithilfe der Wissenschaft zu lösen, müssen wir unsere Arbeits­weise ändern. Und dazu gehört, dass wir eine valide experi­mentelle Strategie entwickeln.

Selbstverständlich benötigen wir dafür die Exploration zur Generierung von Hypothesen. Um möglichst breit­gefächert zu suchen, macht es keinen Sinn, in diesem Prozess höchste Ansprüche an Repräsen­tativität zu stellen. Aber ein paar wenige Maßnahmen sollten eingesetzt werden, um nicht nur exotische Eintags­fliegen zu generieren. Dazu gehört zum Beispiel, dass die experi­mentellen Bedingungen mehr variiert werden müssen. Wir wollen Effekte suchen, die sich sowohl bei 140 mM als auch bei 150 mM Natrium­chlorid, bei pH 7,35 wie 7,45; bei 30 und 37 Grad Celsius, in HeLa- und HCT-116-Zellen zeigen. Was ich damit sagen will: Je robuster die Effekte gegenüber veränderten Bedingungen sind, desto größer ist die Gesamt­einheit, für die die Experi­mente repräsentativ sind. Sampling Bias muss aktiv vermieden werden durch objektive Ausschluss­kriterien wie zum Beispiel Positiv- und Negativ­kontrollen und lückenlose, transparente Dokumentation.

Interessante Effekte, die sich in der Exploration abzeichnen, sollten nicht mit den Worten „jetzt noch ein-/zweimal wiederholen, und dann ist gut“ repliziert werden, sondern vor Publikation einem konfirma­torischen Experiment unterzogen werden.

Kurzer Einschub zum Thema „interessanter Effekt“: Was mich wirklich verwundert ist, wie wenig heutzutage biologisch gedacht wird. Wenn ich im Zuge einer Konsultation erfrage, wie groß ein biologisch interessanter Effekt in einem x-beliebigen Experiment sein müsste, ernte ich Sprach­losigkeit. „Wie viel länger müssten die Mäuse leben, damit wir die Wirkung des Medikaments für interessant, aussichts­reich erachten?“ – „…, egal, Hauptsache signifikant.“ Diese Denkweise ist falsch. Es macht einen großen Unterschied, ob die Maus einen Tag oder einen Monat, oder ein halbes Jahr länger lebt. Es ist wichtig, sich klarzu­machen, welche Effekt­größe relevant ist, biologisch relevant. Wenn in der Zeitung steht, dass die Maß Wiesn-Bier nächstes Jahr mehr kostet, ist hoffentlich allen klar, dass das ob weniger wichtig ist als das wie viel.

Was also, wenn wir ein potenziell biologisch relevantes, ein interes­santes Phänomen aus der Exploration bestätigen wollen? Was kennzeichnet ein konfirma­torisches Experiment? Dazu erstellen wir einen Ansatz mit dem die Robustheit eines ganz spezifischen Effektes adressiert wird. Wirkt die Behandlung mit Substanz X? Das ist die Hypothese, die es zu testen gilt. Eine einfache Frage, die mit „Ja“ oder „Nein“ beantwortet werden kann, macht ein konfirma­torisches Experiment einfacher. „Keep it simple“ ist die Devise, auch weil simpel meist mit einer höheren statistischen Power beglückt wird (siehe unten); ohne Zeitreihe, ohne Dosis­wirkungs-Kurven, ohne Firlefanz.

Selbstverständlich müssen für dieses Experiment neue Daten gesammelt werden. Außerdem muss zuvor eine geeignete Anzahl von biologischen Replikaten bestimmt werden. Das geht nur mit einer sogenannten Power-Analyse. Hierfür muss wiederum der statistische Test bekannt sein, mit dem die Daten am Ende analysiert werden. Der statistische Test ergibt sich aus der Frage­stellung und der Natur der Messdaten. Ein idealer Ansatz besteht aus einem Zwei-Gruppen­vergleich (beispiels­weise unbehandelt und behandelt) mit einer Messgröße, die normal­verteilt ist. Mit dieser Information und der Bestimmung einer biologisch relevanten Effekt­größe stehen alle Parameter für die Berechnung von N, der Anzahl der biologischen Replikate, bereit. Es geht bei diesem Verfahren darum, die Sensi­tivität des Experi­mentes zu optimieren, sodass bei einer ausreichenden Anzahl von Replikaten ein Vertrauen in das Ergebnis gewähr­leistet ist. Je kleiner die gesuchte, relevante Effekt­größe, desto mehr muss repliziert werden. Auch wichtig: Je mehr Power ein experi­mentelles Set-up und der verwendete statistische Test hat, desto weniger muss repliziert werden. Hier lohnt es sich, ein wenig mehr Zeit zu investieren und eventuell die Ratschläge und Dienste eines Biostatis­tikers einzuholen.

Was noch fehlt, ist die Definition der Gesamt­population, für die die Stichprobe repräsentativ sein soll (eine bestimmte Zelllinie, ein bestimmter Tumor der Maus, männlich oder weiblich et cetera). Entsprechend müssen die einzelnen Proben auch stich­probenweise gesammelt werden und zufällig einer Behand­lungsgruppe zugeführt werden – was man als Rando­misierung bezeichnet. Dazu gehört zum Beispiel auch eine zufällige Pipettier­folge der verschie­denen Proben oder auch die zufällige Positio­nierung von Zellkultur­flaschen im Inkubator. Und es fehlt noch die Kontrolle von Störgrößen, die einen nicht-gewünschten Einfluss auf die Messung ausüben. Hier gilt es erstens, die verschie­denen experi­mentellen Gruppen im Block zu untersuchen, damit alle Gruppen den gleichen Störgrößen ausgesetzt sind; und zweitens, die biolo­gischen Replikate unter maximal unter­schiedlichem Set-up durchzu­führen, etwa mit anderen Reagenzien, anderen Zell-Batches oder zu anderen Tageszeiten.

Alle diese Maßnahmen sind Bestandteil des experi­mentellen Designs, welches durch Nicht-Vorhan­densein nicht-reprodu­zierbare Studien sehr gut charak­terisiert [1]. Hat man ein solches Design vor der eigent­lichen Proben- und Messdaten­sammlung erstellt, wäre es in Zukunft wichtig, eine Vorregis­trierung in Erwägung zu ziehen (siehe zum Beispiel https://osf.io/prereg/). So kann man einen Nachweis erbringen, dass man auf dem Weg von den Daten zu den Ergeb­nissen nicht geschummelt hat, Stichwort p-Value Hacking. Selbst­verständlich sollte auch sein, dass Ergebnisse, welche nicht der Erwartung entsprechen, publiziert werden. Das sind keine gescheiterten Experi­mente. Experi­mente scheitern nur dadurch, dass sie nicht ordentlich entworfen werden oder wenn Kontrollen versagen. Für die Gemein­schaft ist es wichtig zu erfahren, dass Substanz X in unserem Set-up keine deutliche Wirkung gezeigt hat.

Für den konfirma­torischen Teil der experi­mentellen Strategie, die ich hier bewerbe, bedarf es einer Kompetenz, die nicht vom Himmel fällt und die einem Lebens­wissenschaftler nicht natur­gegeben ist. Leider wird diese auch nicht systematisch unter­richtet, was aber auch nicht wirklich interessiert, denn für die wissen­schaftliche Karriere sind Branding und Networking anscheinend viel wichtiger als die Durch­führung einer nach­haltigen Studie [6]. Schade.

Es ist schwer, echte Anreize für eine verbesserte experi­mentelle Strategie zu vermitteln. Sicher bin ich mir allerdings, dass die vielen verschwen­deten ersten Jahre, in denen PhD-Studentinnen und -Studenten vergeblich versuchen, Resultate von ihren Vorgän­gerinnen und Vorgängern zu repro­duzieren, vermieden werden können. Sicher bin ich mir auch, dass ein wesentlich höherer Anteil der wissen­schaftlichen Arbeit einem nach­haltigen Wissens­zuwachs dienen wird und die verwendeten Mittel – Zeit und Geld – viel effizienter eingesetzt wären. Nur so werden wir langfristig das Vertrauen der Gesellschaft in unsere Arbeit bewahren können.

Referenzen

[1] Ioannidis, J.P.A. (2005). Why Most Published Research Findings Are False. PLOS Medicine, 2, e124.
[2] Begley, C.G., and Ellis, L.M. (2012). Raise standards for preclinical cancer research. Nature, 483, 531–533.
[3] Leek, J.T., and Peng, R.D. (2015). Opinion: Reproducible research can still be wrong: Adopting a prevention approach. PNAS, 112, 1645–1646.
[4] Lazic, S.E. (2016). Experimental Design for Laboratory Biologists: Maximising Information and Improving Reproducibility (Cambridge University Press, DOI: 10.1017/9781139696647).
[5] Goodyear, D. (2016). The Stem-Cell Scandal, The New Yorker.
[6] Tregoning, J.S., and McDermott, J.E. (2020). Ten Simple Rules to becoming a principal investigator. PLOS Computational Biology, 16, e1007448.

Zum Autor
Tobias Straub ist seit 2012 Leiter der Bioinformatik am Biomedizinischen Centrum der Universität München.

Foto: Unsplash/Judi Neumeyer; Montage: LJ




Letzte Änderungen: 11.08.2020