Info

Brüder, zur Sonne,
dem p-Wert ein Ende...

(01.10.2019) Viele wollen die statistische Signifikanz via p-Wert neu definieren oder sogar ganz aus der Wissenschaft verbannen. Dabei leistet er meist gar nicht das, was sie ihm zuschreiben.
editorial_bild

Info

Info

Pipettieren, lagern und zentrifugieren Sie Proben in unserem Spiel "Master of Volumes" so schnell wie möglich. mehr

„Die Wissen­schaft wehrt sich gegen die p-Wert-Tyrannei!“ So zumindest verkündete es vor kurzem die Financial Times. Denn überall ist die Aufregung groß. Mehr als acht­hundert Forscher, darunter viele prominente Biosta­tistiker, haben dazu aufgerufen, sich gegen den p-Wert zu erheben. Und dies ist nur der Höhepunkt eines Aufstands, der schon im ver­gangenen Jahr begonnen hatte. Eine Gruppe von Wissen­schaftlern forderte damals, dass wir die Schwelle für „statistische Signifikanz“ ganz neu definieren sollten. Von derzeit meist 0,05 auf 0,005 – insbeson­dere wenn Wissen­schaftler damit behaupten wollen, etwas entdeckt zu haben. Für viele Forscher und Experten ging diese Forderung allerdings nicht weit genug, sie fordern daher, statis­tische Signifikanz gleich ganz zu beseitigen, statt nur neu zu definieren. Wieso die Aufregung? Worum geht es überhaupt? Und ist das alles wirklich neu?

Wir erinnern uns: Im Jahr 2012 gewannen Craig Bennett und Kollegen mit einer bemerkens­werten Studie den Ig-Nobelpreis für Neuro­wissenschaften. Sie positionierten einen toten Lachs aus einem lokalen Supermarkt in einem Kern­spintomo­graphen. Dort zeigten sie dem Fisch Bilder von Menschen in sozialen Situationen mit einer bestimmten emotionalen Aufladung, etwa einen Streit oder einen Kuss. Der tote Lachs musste dann entscheiden, welche Gefühle die Abgebildeten wohl durchlebt haben mussten. Tatsächlich zeigte die Bildgebung mittels funktioneller Magnet­resonanz­tomographie dabei signifikante Verän­derungen in der Oxygenierung des toten Lachshirns – was auf eine Aufgaben-spezifische neuronale Verarbeitung im Fischgehirn hinwies.

Info

Info

Bestellen Sie noch heute Ihr kostenfreies Exemplar. mehr

Wie aber können „Post-mortem-neuronale Korrelate von Interspezies-Einfühl­samkeit im Lachs“ erklärt werden, wie es der Titel des Artikels neuro­wissen­schaftlich formuliert? Ganz einfach: Damit, dass sich die Auswertung auf statistische Standard-Signifikanz­schwellen stützte und Mehrfach­vergleiche nicht angemessen kontrollierte. Der Clou dabei war jedoch: Die Autoren zeigten in der Arbeit zudem, dass in 60 bis 70 Prozent der veröffent­lichten funktionellen Neuro­imaging-Studien ähnlich ausgewertet wurde – und stellten damit die Ergebnisse eines Großteils der kognitiven Neuro­wissen­schaften in Frage.

Finden sich solche „toten Fische“ vielleicht auch im Becken anderer Disziplinen, die ebenfalls stark auf multiple Testungen zurück­greifen? Etwa in Gen­expressions- und -assoziations­studien? In der Tat, auch die Genetik erkannte vor einigen Jahren – ganz ohne Ig-Nobelpreis –, dass sie ein Riesenproblem hatte: Ein Großteil der bis dato beschrie­benen differenziell exprimierten Gene und Gen­assozia­tionen entpuppte sich als falsch-positive Befunde.

Zum Glück haben die Genetiker und funktionellen Hirnbild­geber mittlerweile ihre Lektion gelernt. Genetische oder Bildgebungs-Datensätze sind heute kaum noch ohne Post-hoc-Korrektur für multiple Vergleiche zu veröffentlichen. Außerdem werden, zumindest in der Genetik, Validie­rungen mit unab­hängigen Datensätzen gefordert, bevor Assozia­tionen akzeptiert werden.

Das ist doch mal eine gute Nachricht, dass ganze Forschungs­felder vor ihrer Haustür gekehrt haben! Die schlechte ist jedoch, dass andernorts unzureichende Korrektur für Mehrfach­tests, laxe Schwellen­werte für Typ-I-Fehler, geringe statistische Power sowie fehlende Validierung immer noch die Norm sind.

Info

Info

Informieren und Vernetzen Sie sich zum Thema analytische Flüs­sig­keits­chro­mato­grafie. Teilnahme kostenfrei mehr

Mindestens so problematisch sind jedoch weithin verbreitete falsche Vor­stellungen über das, was der p-Wert ist, und was das Label „Statistisch signifikant“ bedeutet. So glauben viele Forscher, dass p die Wahrschein­lichkeit angibt, dass die Null-Hypothese wahr ist. Und folglich 1-p die Wahrschein­lichkeit, dass die alternative Hypothese (also ihre eigene Hypothese) richtig ist. Oder umgangs­sprachlich ausgedrückt: „Bei einem alpha von 5 Prozent laufe ich Gefahr, dass 5 Prozent meiner Hypothese trotz Signifikanz doch nicht richtig sind“. Also eine Verwechs­lung mit der falsch-positiven Rate.

Ein weiteres häufiges Missverständnis ist, dass der p-Wert mit der theore­tischen oder praktischen Relevanz des Befunds korrelieren würde. So wie der schwer­wiegende Irrtum, dass die Nicht-Ablehnung der Null-Hypothese (p > 0,05) belegt, dass diese richtig wäre, also kein Effekt vorliegt. Und so weiter…

Aber was ist denn dann der p-Wert, und was kann er uns über unsere Ergeb­nisse sagen? Wenn wir die Analyse viele Male wieder­holen würden und jedes Mal neue Daten generieren, und wenn die Null-Hypothese wirklich wahr ist, würden wir sie bei p = 0,05 in nur 5 Prozent der Fälle (fälschlicher­weise) ablehnen. Mit anderen Worten: Der p-Wert stellt die Wahrschein­lichkeit dar, Daten so extrem wie (oder noch extremer als) diejenigen Ergeb­nisse zu erhalten, die gelten, wenn die Null-Hypothese wahr ist.

Ulrich Dirnagl
Foto: BIH/T. Rafalzyk

Aber klingen diese Definitionen nicht vereinbar mit der Interpre­tation des p-Werts als falsch-positive Rate? Schauen wir deshalb genauer hin: In den obigen Lehrbuch-Definitionen wird die Wahrschein­lichkeit auf die Daten bezogen. Ein Irrtum ist es, sie auf die Erklärung, das heißt auf die Hypothese anzuwenden. Außerdem wissen wir ja nicht, ob die Null wahr ist oder nicht. Und dann gibt es da noch das Problem der Wahrschein­lichkeit unserer Hypothese, die sogenannte Base Rate. Ebenso die statistische Power – das heißt die Wahrschein­lichkeit, einen Effekt zu erkennen, wenn es denn einen gibt. Dass Base Rate und Power für die Interpre­tation des p-Werts entscheidend sind, ist vielen Kollegen nicht bekannt. Und genau da liegt der sprich­wörtliche Hase im Pfeffer!

Die Frage, die wir doch eigentlich gerne beantworten möchten, ist die folgende: Wenn wir einen „signifi­kanten“ p-Wert nach einem gut durch­geführten Experiment erhalten haben, mit welcher Wahrschein­lichkeit ist unser Ergebnis dann falsch positiv? Leider ist der p-Wert nur ein Teil der Gleichung, die wir lösen müssten, denn die falsch-positive Rate hängt weiterhin vom Typ-I-Fehler (alpha), dem Typ-II-Fehler (Power) sowie der Wahrschein­lichkeit der Hypothese ab, die wir testen. Je unwahr­scheinlicher nämlich unsere Hypothese und je niedriger die statistische Power sind, desto wahrschein­licher ist es, dass wir ein falsch-positives Ergebnis vor uns haben. Trotz eines signifi­kanten p-Werts.

Zur Verdeutlichung: Bei einem Typ-I-Fehler-Niveau von 0,05, einer Power von achtzig Prozent und einer zehn­prozentigen Wahrschein­lichkeit, dass die alternative Hypothese wahr ist (also zehn Prozent Base Rate), sind fast vierzig Prozent der statistisch signifikanten Ergebnisse falsch positiv! Und aufgemerkt: In vielen Bereichen der Biomedizin, insbeson­dere in der präklini­schen Forschung, liegt die statistische Power oft weit unter achtzig Prozent, eher bei fünfzig Prozent oder darunter. Und wer sich mit explorativer Forschung in wissen­schaftliches Neuland vorwagt (Tun wir das nicht alle?), muss wohl auch mit Base Rates unter zehn Prozent rechnen. Denn sonst wäre man doch nur unorigineller Mainstream-Wissen­schaftler, der beforscht, was auf der Hand liegt oder was man gar schon weiß!

Die Kombination aus niedriger Power, laxem Typ-I-Fehler-Niveau (alpha = 0,05), niedriger Base Rate und stark ausge­prägtem Bias (durch geringe interne Validität, etwa wegen fehlender Verblindung oder Randomi­sierung) erklärt, warum der US-Biostatistiker John Ioannidis 2005 ungestraft und seither unwiderlegt behaupten konnte, dass die meisten veröffent­lichten Forschungs­ergebnisse falsch sein müssen.

Aber bei alpha = 0,05 ist die Wahrschein­lichkeit, einen Idioten aus sich zu machen, viel größer als fünf Prozent. Denn der p-Wert testet nicht nur die Null-Hypothese, sondern auch alles andere im Experiment.

Das schönste Beispiel hierfür ist das extrem aufwendige OPERA-Experiment, das 2011 am CERN in Genf durch­geführt wurde. Dabei gelang eine sensa­tionelle Entdeckung: Neutrinos bewegen sich schneller als Licht! Die New York Times titelte damals, dass „winzige Neutrinos die kosmische Geschwin­digkeits­beschränkung durch­brochen haben“. Mehrfach wurde das Experiment wiederholt, aber das Ergebnis blieb stabil bei einem p-Wert von kleiner 0,00000001. Leider führte dieser spektakuläre Befund nicht zu einem Nobelpreis, sondern zu einer totalen Blamage für die beteiligten Wissen­schaftler. Wie sich später heraus­stellte, war ein Kabel im Set-up lose und ein Mess­instrument war nicht richtig kalibriert. Merke: Der p-Wert bezieht sich auf die Ergeb­nisse eines spezifi­schen Experimentes und nicht auf die Hypothese! Wie spezifisch ist eigentlich Ihr Antikörper?

Der p-Wert, und damit der ganze damit verknüpfte Teststatistik-Kosmos (Frequentist- oder auch Null-Hypothesis-Significance-Testing, NHST), führt uns also schnell auf Abwege. Der p-Wert leistet nämlich meist gar nicht das, was wir von ihm erwarten – nämlich uns zu sagen, ob wir etwa Neues entdeckt haben oder ein Effekt vorliegt. Sollten wir ihn deshalb ganz aufgeben? Einfach nicht mehr testen, wie von den 800 Kollegen gefordert?

Das hieße, das Kind mit dem Bade auszu­schütten! Kürzlich erst argumentierte John Ioannidis in einem Kommentar, dass „die Signifikanz (nicht nur statistisch) sowohl für die Wissen­schaft als auch für das wissen­schafts­basierte Handeln wesentlich ist, und einige Filter­prozesse nützlich sind, um ein Ertrinken im Rauschen der Daten zu vermeiden“. Er meint damit, dass das Aufgeben von Signifikanz­tests unserem Bias freien Lauf lassen würde. Jeder könnte alles behaupten, und „unwiderleg­barer Unsinn würde regieren“.

Wir ertrinken doch bereits jetzt in einem Meer falsch-positiver Ergebnisse. Ohne irgendeine Schwelle für die Behauptung eines Zusammen­hangs oder einer Entdeckung würde sich diese katastro­phale Situation mit Sicherheit weiter verschärfen. Stattdessen sollten wir strengere Regeln für die Daten­erfassung und -analyse festlegen, wozu etwa die A-priori-Benennung und Regis­trierung von Hypothesen und geplanten Analyse­verfahren zählen.

Obwohl weithin üblich, reicht eine Signifikanz­grenze von fünf Prozent nicht aus, um das Vorhan­densein eines Zusammen­hangs oder eines Effekts zu beanspruchen. Wenn überhaupt etwas, dann zeigt ein p-Wert in dieser Region, dass die Ergebnisse „einen Blick wert sind“ und womöglich weitere Unter­suchungen recht­fertigen – etwa eine Validierung mit größerer Fallzahl. Das Verkünden von Entde­ckungen oder Effekten, die nur auf p < 0,05 basieren, ist grund­sätzlich falsch. Und ohne ausreichende Power ist sowieso jeder p-Wert unzuverlässig, während Effekt­größen (bei einem vorhandenen Effekt) überschätzt werden.

Keines der in der aktuellen Debatte zum p-Wert vorge­brachten Argumente und kein vorgeschla­gener Ausweg sind neu. Seit Einführung seiner Grundlagen durch Ronald A. Fisher, also seit fast hundert Jahren, ist er zyklisch Gegen­stand von hitzigen Debatten. Auch seine Abschaffung ist schon mehrfach gefordert worden, ebenso wie die Aufgabe von NHST – also frequen­tistischer Statistik zu Gunsten von alternativen Ansätzen, insbeson­dere Bayes’scher Statistik.

Auffällig ist, dass diese Diskussionen fast ausschließlich von Statistik-Afficio­nados geführt werden, die ohnehin wissen, wie man den p-Wert (nicht) interpretiert. Und die mit Bayes’scher Statistik vertraut sind. Viel wichtiger wäre es aber, dass wir, die „normalen“ Forscher, uns vom Ritual der Hypothesen­testung mit p < 0,05 verabschieden und die Interpre­tation unserer Ergebnisse nicht vom p-Wert abhängig machen. Dass wir uns stattdessen auf biologisches Denken konzen­trieren sowie mehr Sorgfalt auf das Design, die Analyse und die Veröffent­lichung unserer Studien verwenden – und dass wir diese (prä)registrieren. Methoden und Ergebnisse sollten so transparent beschrieben werden, dass Effekte und Schluss­folgerungen unabhängig bestätigt werden können.

Die Angabe von statistischen Signifikanzen ist hyper­inflationär und damit bedeu­tungslos geworden. Teststatis­tiken können unsere Argumen­tation leiten, aber nicht bestimmen.

Ulrich Dirnagl

Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj.





Letzte Änderungen: 01.10.2019

Diese Website benutzt Cookies. Wenn SIe unsere Website benutzen, stimmen SIe damit unserer Nutzung von Cookies zu. Zur ausführlichen Datenschutzinformation