Mehr Schaden als Nutzen?

(11.06.2019) Seit kurzem gibt es Diskussionen darüber, ob der p-Wert noch sinnvoll ist. Wir sprachen mit Vertretern der Pro- und Kontra-Seite.
editorial_bild

Editorial

In einem Kommentar in Nature spricht sich der Ornithologe Valentin Amrhein gemein­sam mit amerikanischen Statistik-Experten dafür aus, das Konzept der statistischen Signifikanz aufzugeben. P-Werte sollen nicht mehr dazu herangezogen werden, Ergeb­nisse als signifikant oder nicht-signifikant zu kategorisieren.

Herr Amrhein, können Wissenschaftler wirklich ganz auf das Prinzip der statistischen Signifikanz verzichten?

Amrhein: Tatsächlich können und möchten wir keine Empfehlungen für alle Wissen­schaftler und alle Wissenschaftszweige geben. In der Kernphysik zum Beispiel werden Signifikanz-Schwellenwerte sehr erfolgreich eingesetzt; ebenso kann man in sogenannten Genom-weiten Assoziationsstudien Signifikanz-Schwellenwerte zum Herausfiltern der wichtigsten Assoziationen anwenden. Man muss sich aber bewusst sein, dass man die Größe von Zusammenhängen oder Unterschieden überschätzt, sobald man aufgrund eines Schwellenwertes filtert. Wenn man immer nur Dinge anschaut, die über einen bestimmten Schwellenwert hinausgehen, bekommt man automatisch ein verzerrtes Bild der Wirklichkeit.

Editorial

Durch welche Methoden könnte man dieses Konzept ersetzen?

Amrhein: Es gibt viele Alternativen zum p-Wert, die zum Teil ein Umlernen erfordern, zum Beispiel bayesianische Statistik. Es geht uns aber gar nicht darum, den p-Wert zu erset­zen. Die gleichen Probleme entstehen, wenn man mit bayesianischer Statistik oder irgendeiner anderen Methode Schwellenwerte benutzt. Das Problem liegt nicht in einer einzelnen statistischen Methode, sondern in der Art, wie wir aus wissenschaftlichen Untersuchungen Schlussfolgerungen ziehen. In den allermeisten Studien werden einzelne Untersuchungen mit überschaubaren Stichproben-Größen durchgeführt. Einzelstudien können aber so gut wie nie darüber Aufschluss geben, ob eine wissenschaftliche Hypothese generell falsch oder richtig ist.

Editorial
Pro Abschaffung: Valentin Amrhein. Credit: privat

Warum ist das so?

Amrhein: Ergebnisse von Einzelstudien unterliegen natürlicherweise viel größeren Schwankungen als wir uns bewusst sind, selbst wenn es einen untersuchten Zusammenhang wirklich gibt. Durch die Kategorisierung in „signifikant“ und „nicht signifikant“ wird solchen Einzelstudien ein zu starres Etikett angeheftet. Wissenschaftler und vor allem auch die Öffentlichkeit denken, „signifikante“ Ergebnisse seien zuverlässige Ergebnisse. Wenn dann die nächste Einzelstudie ein Ergebnis zeigt, das vielleicht in die gleiche Richtung geht, aber „nicht signifikant“ ist, sind sie enttäuscht. Ein großer Teil der gegenwärtigen „Replikations­krise“ spiegelt unsere übertriebenen Erwartungen an die Zuverlässigkeit von Einzelstudien wider. Eine Replikation ist nicht automatisch fehlgeschlagen, nur weil der p-Wert auf der anderen Seite eines Schwellenwertes liegt oder der gefundene Zusammenhang eine andere Größe hat. Im Gegenteil: Solche Schwankungen sind bei ehrlich und vollständig beschrie­benen Einzelstudien zu erwarten.

Sie möchten auch die Beschreibung des Konfidenz- oder Vertrauensintervalls ändern. Warum?

Amrhein: Wir schlagen vor, das Vertrauensintervall in Kompatibilitätsintervall umzubenennen. Intervalle sollten eben gerade nicht dazu dienen, dass wir Vertrauen gewinnen. Sie zeigen die Schätzwerte, die mit unseren Daten am kompatibelsten sind, sofern unser statistisches Modell und alle darin enthaltenen Annahmen stimmen. Da aber nie alle Annahmen zutreffen, ist Vertrauen in die so erhaltenen Schätzwerte nicht angebracht.

Editorial

Welche Verbesserungsvorschläge haben Sie für die statistische Auswertung wissenschaftlicher Studien?

Amrhein:In erster Linie sollten Daten umfassender und ehrlicher beschrieben und Schlussfolgerungen weitaus zurückhaltender gezogen werden. Es geht uns nicht um die komplette Abschaffung von „statistischer Signifikanz“ für alle Lebensbereiche. Es geht uns um die Abschaffung von Schwellenwerten zur Entscheidung über wissenschaftliche Hypothesen aufgrund von Einzelstudien. Solche Entscheidungen sind meist nicht nötig und nicht möglich und haben zu vielen falschen Verallgemeinerungen und folglich zu einem Verlust von Vertrauen in die Wissenschaften geführt. Obwohl diese Dinge seit etwa hundert Jahren bekannt sind, ist das Ziel der meisten Einzelstudien immer noch, ein signifikantes Ergebnis zu finden. Wenn eine Methode trotz enormem Aufklärungsaufwand hundert Jahre lang in den meisten Fällen missbraucht wird, ist es Zeit, diese Methode als allgemein empfohlenen Standard abzuschaffen.

---

Schadet also das Konzept der statistischen Signifikanz tatsächlich mehr als es nützt? Nein, meint Christel Weiß, Leiterin der Abteilung für Medizinische Statistik und Biomathematik an der Medizinischen Fakultät Mannheim der Universität Heidelberg.

Frau Weiß, warum ist die statistische Signifikanz von so großer Bedeutung?

Weiß: Man kann es so formulieren: Mit der Berechnung des p-Werts ist es möglich, den Einfluss des Zufalls zu kontrollieren. Bei einem kleinen p-Wert kann sich der Anwender quasi sicher sein, dass ein Effekt, etwa ein Unterschied zwischen zwei Gruppen oder ein Zusammenhang zwischen zwei Merkmalen nachweisbar ist. Das ist gut zu wissen! Freilich sollte er sich nicht dazu verleiten lassen, jedes Ergebnis mit einem p < 0,05 als „sensationell“ oder „brisant“ einzustufen oder ein Ergebnis mit einem p > 0,05 als „wertlos“ oder „uninteressant“ zu erachten.

Was ist bei der Interpretation der statistischen Signifikanz wichtig?

Weiß: Man muss allen Beteiligten, also Initiatoren einer Studie, Anwendern der Statistik und auch den Lesern von Publikationen klarmachen, worauf sie zu achten haben. Freilich ist die Freude groß, wenn aus einer Studie ein signifikantes Ergebnis resultiert. Das besagt aber nicht unbedingt, ob und inwieweit dieses Ergebnis wissenschaftlich oder klinisch relevant ist. Der p-Wert ist nämlich vom Stichprobenumfang abhängig. Mit einem riesen­großen Stichprobenumfang lassen sich auch kleinste Unterschiede nachweisen, die praktisch bedeutungslos sind. Mit einer kleinen Fallzahl kann dagegen kein Unterschied aufgezeigt werden, auch wenn er in Wirklichkeit vorhanden ist.

Editorial
Kontra Abschaffung: Christel Weiß. Credit: Universitätsklinikum Mannheim/Max Grundmann

Was halten Sie von der Forderung, das Prinzip der statistischen Signifikanz abzuschaffen?

Weiß: Das halte ich nicht für praktikabel – dazu ist die Verwendung des p-Werts zu fest etabliert. Dieser Wert beinhaltet ja eine wichtige Information: Er quantifiziert, etwas salopp formuliert, die Wahrscheinlichkeit dafür, dass das Ergebnis eines statistischen Tests rein zufällig zustande gekommen ist – nicht mehr, aber auch nicht weniger. Freilich reicht der p-Wert zur vollständigen Interpretation des Ergebnisses einer statistischen Analyse bei Weitem nicht aus. Darüber sind sich Forscher, die klinische oder epidemiologische Studien durch­führen, durchaus im Klaren. Sie würden sich jedoch kaum vorschreiben lassen, dass sie diesen Wert zur Feststellung der statistischen Signifikanz nicht mehr verwenden dürfen.

Was kann man bei der statistischen Auswertung wissenschaftlicher Studien generell verbessern?

Weiß: Ich erachte für dringend erforderlich, dass Mediziner und Statistiker bei der Durch­führung einer Studie zusammenarbeiten – angefangen von der Studienplanung über die Datenanalyse und die Interpretation der Ergebnisse bis hin zur Publikation eines Papers. Alle Beteiligten sollten zudem die Fähigkeit zur Selbstkritik haben. Auch beim Lesen von Papers sollte man kritisch sein und sich nicht durch kleine p-Werte, effektvolle Graphiken oder aufgebauschte Kenngrößen beeindrucken lassen.

Welches Fazit würden Sie ziehen?

Weiß: Der p-Wert ist eine wichtige Größe, aber bei Weitem nicht das einzig relevante Ergebnis einer Studie. Es bedarf zahlreicher Überlegungen und das Betrachten eines Ergebnisses unter unterschiedlichen Aspekten, um seine Relevanz wirklich zu beurteilen. Das ist nicht einfach. Vielleicht liegt der „Erfolg“ des p-Wertes gerade darin, dass er scheinbar so einfach zu interpretieren ist.

Die Fragen stellte Bettina Dupont