Editorial

Diese 6 Fakten über p-Werte sollte jeder kennen

(11.3.16) Das Experiment ist gemacht, und der Computer spuckt einen p-Wert aus, der  kleiner ist als 0,05? Prima, dann ist die Studie ja publikationsreif! "Moment", sagen die Statistiker, "ihr macht da was falsch".
editorial_bild

© Fotolia

Statistiker sind sich ausnahmsweise einig: Das alleine wäre ja schon eine Nachricht wert. Die American Statistical Association (ASA) warnte kürzlich in einem Statement vor dem Missbrauch des p-Werts.

Neu ist die Warnung nicht unbedingt. Schon seit vielen Jahren versuchen die Experten für Datenanalyse, den Experimentalisten ihren oft falschen und irreführenden Gebrauch dieser omnipräsenten statistischen Größe auszureden.

Der Mathematiker und Evolutionstheoretiker Ron Fisher hatte den p-Wert  in den 1920er-Jahren erfunden. Auf Fisher geht auch die Idee zurück, dass man Signifikanzniveaus heranziehen könne (also die Schwellenwerte von p=0,05 oder, "besser", p=0,01), um zwischen Hypothesen zu unterscheiden. Aber dass dieses Hilfsmittel später zu einer Art Universalwährung zur Beurteilung von Daten wurde, ja, dass Gutachter und Journale einen Fetisch aus dem willkürlich festgelegten Signifikanzniveau "p < 0,05" machten, das hatte Fisher wohl nicht vorausgesehen und nicht gewollt.

Editorial

Sechs Dinge, die jeder über p-Werte wissen sollte

Was sagen p-Werte aus, und was nicht? Wozu darf man sie einsetzen, wozu nicht? In sechs Punkten umreißt das Statistiker-Statement die Problemzonen:

 "1. p-Werte können anzeigen, wie unkompatibel die Daten mit einem vorher spezifizierten Modell sind.

2. p-Werte messen weder die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, noch die Wahrscheinlichkeit, dass die Daten alleine durch Zufall entstanden.

3. Wissenschaftliche Schlussfolgerungen, Entscheidungen in Politik und Wirtschaft sollten nicht alleine darauf beruhen, ob ein p-Wert einen Schwellenwert unterschreitet.

4. Für vernünftige Schlussfolgerungen sind Transparenz und vollständige Berichterstattung nötig.

5. p-Werte oder statistische Signifikanz messen nicht die Effektgröße oder die Bedeutung eines Ergebnisses.

6. der  p-Wert alleine ist kein gutes Maß, um die Evidenz für ein Modell oder eine Hypothese einzuschätzen."

Vor allem bezüglich des  1. und 2. Punktes gab und gibt es große Konfusion bei  manchen Anwendern. Denn entgegen landläufiger Annahme sagt der p-Wert nichts über die Wahrscheinlichkeit aus, ob eine Hypothese wahr oder falsch ist. Ein p-Wert von 0,05 ist beispielsweise kein Hinweis darauf, dass die Nullhypothese "mit 95 prozentiger Sicherheit" falsch wäre – auch wenn das manchmal so erzählt und verstanden wird.

 Umgekehrt ist es richtig: Der Wert sagt etwas darüber aus, wie wahrscheinlich die Daten sind, unter einer angenommenen Hypothese. Das klingt jetzt nach Korinthenkackerei, aber es ist ein wichtiger Unterschied, erklärt z.B der Statistiker Stephen Senn in einem Beitrag von Christie Aschwanden:

"Ist der Papst katholisch? Die Antwort ist ja.

Ist ein Katholik Papst? Die Antwort ist: Wahrscheinlich nicht."

Erst die Hypothese, dann das Experiment

Und auch wenn man den p-Wert richtig interpretiert, darf man ihn in der Regel nur dann anwenden, wenn man damit tatsächlich ein vorher spezifiziertes  Modell testet. Ich muss mein Modell, meine Hypothesen vor dem Experiment aufstellen und sollte erst danach testen, wie gut oder schlecht die Daten zur Hypothese passen. Spielt ein Forscher dagegen nach dem Datensammeln mit verschiedenen Modellen herum, macht er Subgruppen-Analysen, ändert er gar seine Ausgangshypothese ab, weil die Daten so "besser" zu passen scheinen: dann rutscht er schnell ins Territorium des p-Hackings, der unsauberen Praxis also, post hoc an Daten und Modellen zu drehen, bis "etwas Signifikantes" dabei herauskommt.

Deshalb – siehe Punkt 4 – ist es so wichtig, Daten und Ausgangshypothese vollständig zu berichten, und nicht nur Aspekte herauszupflücken, die sich letztlich als "signifikant" herausgestellt haben.

Und aus diesem Grund sollten z.B. alle klinischen Studien registriert werden, bevor die Studienärzte Patientendaten einsammeln. Nur so können die Leser der Studie hinterher transparent nachvollziehen, welche Hypothesen am Anfang der Untersuchung standen, und ob am Ende auch alle Ergebnisse berichtet werden – auch dann, wenn sie den Initiatoren nicht in den Kram passen.

 Ein weiterer Nachteil des p-Werts: Er sagt zwar etwas darüber aus, wie gut meine Daten zu einem vorher definierten Modell passen. Aber ob dieses Ergebnis deshalb wichtig oder bedeutsam ist, das kann man dem p-Wert nicht ansehen.

Nicht jedes signifikante Ergebnis ist wichtig

Wollen Mediziner beispielsweise ein neues Medikament testen, sagen wir gegen Magendrücken, so könnten sie als "Outcome" der Studie  festhalten, wie lange die Beschwerden jeweils anhalten, im Vergleich einer Plazebo- und einer Wirkstoffgruppe.

Was sagt es nun aus, wenn die Beschwerden in der Wirkstoffgruppe "hoch signifikant" kürzer anhalten ("p < 0,01")? Ist das ein guter Grund, das Medikament einzuführen und von den Kassen bezahlen zu lassen? Nein, denn dazu muss man sich auch die Effektgröße anschauen: wie viele Tage weniger müssen die Patienten dank des Medikaments im Durchschnitt leiden? Dazu sagt der p-Wert nichts aus.

Fazit: Es ist nicht sinnvoll, anhand einer einzigen Statistik wie dem p-Wert festhalten zu wollen, wie glaubwürdig, reproduzierbar, bedeutend oder publikationsreif ein Datensatz ist.

 

Hans Zauner

 



Letzte Änderungen: 22.04.2016