Lieber keine Statistik

15. September 2011 von Laborjournal

Bereits Mark Twain erkannte:

I’ve come loaded with statistics, for I’ve noticed that a man can’t prove anything without statistics. No man can.

Dennoch meiden Biologen Statistik wie Katzen das Wasser — so geht jedenfalls das Vorurteil. Ob’s stimmt? Zumindest füttert eine frische Analyse neurobiologischer Publikationen dieses Vorurteil mit alarmierenden Fakten (Nature Neurosci. 145: 1105-7).

Kurz gesagt, deckte Erstautor Sander Nieuwenhuis von der Universität Leiden mit zwei weiteren holländischen Kollegen auf, dass in der Hälfte aller relevanten Publikationen eine zwingend notwendige statistische Analyse der Daten fehlte. Wodurch die tatsächliche Relevanz ihrer Ergebnisse jetzt natürlich ziemlich schwankt und wackelt.

Nieuwenhuis und Co. nahmen sich 513 neurowissenschaftliche Artikel vor, die innerhalb von zwei Jahren in Science, Nature, Nature Neuroscience, Neuron und Journal of Neuroscience erschienen sind — die „Crème de la Crème“ sozusagen. Aus diesen filterten sie insgesamt 157 Paper mit vergleichenden Ergebnissen, die eine sogenannte „Difference-in-Differences Analyse“ (siehe etwa hier, Kapitel 9.9) zwingend erforderlich machen, um deren tatsächliche Signifikanz zu zeigen. In 79 davon, ziemlich genau der Hälfte also, fehlte diese Analyse komplett.

Was diesen 79 Publikationen genau fehlt, erklärt Ben Goldacre sehr nett mit einem Gedankenexperiment in seiner Kolumne „Bad Science“ im englischen Guardian. Für dieses nehme man eine normale Maus und eine Mausmutante, und messe in beiden die jeweilige Entladungsrate bestimmter Nervenzellen vor und nach Gabe einer Testsubstanz. Jetzt nehmen wir an, die Substanz reduziert die Entladungsrate in der normalen Maus um 15 Prozent, was statistisch nicht signifikant ist. In der mutanten Maus dagegen sinkt die Entladungsrate um 30 Prozent. Intuitiv würde man jetzt sagen, die Substanz wirke in der Mutante signifikant stärker als in der normalen Maus (und die erwähnten 79 Artikel sind auch tatsächlich nach diesem Muster verfahren). Doch dies ist an dieser Stelle noch nicht raus. Es fehlt noch der statistische Test der Differenzen, will sagen die Differenz zwischen der Substanz-induzierten Veränderung in den normalen Zellen und der Substanz-induzierten Veränderung in den mutanten Zellen — die „difference in differences“.

Für Goldacres Beispiel heißt das stark vereinfacht folgendes: Die Differenz der Zellantworten auf die gegebene Substanz unterscheidet sich zwischen Wildtyp und Mutante um 15 Prozent. Zuvor aber haben wir im Wildtyp gesehen, dass ein Absinken der Antwort um 15 Prozent per se keine statistische Signifikanz erreicht. Fazit: Der Unterschied der Effekte in normalen und mutanten Zellen ist daher auch kaum signifikant.

Die Signifikanz der Ergebnisse in den 79 neurobiolgischen Publikation ist damit natürlich „posthum“ stark in Zweifel gezogen. Abgesehen von der Frage, warum die Reviewer das Fehlen dieses wichtigen statistischen Tests nicht bemerkten und ihn einforderten, stellt sich vielmehr die Frage, warum die betreffenden Autoren diesen nicht von sich aus durchführten. Reine Inkompetenz? Könnte man bei den vielen Statistikmuffeln unter den Biologen durchaus vermuten. Ob andererseits jedoch die Analyse in dem ein oder anderen Fall vielmehr absichtlich unter den Tisch fiel, da diese den ansonsten hellen Schein der Ergebnisse stark herunterdimmen könnte? Das wäre wohl die schwärzeste Deutung.

Noch schwärzer dürften allerdings die Befürchtungen sein, dass diese statisitische „Unterlassung“ in anderen biomedizinischen Disziplinen womöglich noch häufiger vorkommt als in den Neurowissenschaften. Denn die Differenz von Effekten in zwei verschiedenen Populationen von irgendwas zu messen, ist ein Standardprinzip — etwa in der Biochemie, Zellbiologie, Pharmakologie, Toxikologie,…

Dass indes eine rigorose Statistik so manche erfolgversprechenden Resultate noch „kaputtrechnen“ kann, ist übrigens schon lange bekannt. So sagte etwa 1938 der Statistiker und Genetiker Ronald Aylmer Fisher:

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.

Schlagworte: , , , , , , ,

3 Gedanken zu „Lieber keine Statistik“

  1. Ralf Neumann sagt:

    Passend dazu folgender Kommentar aus dieser Diskussion:

    It´s important, sensible and helpful to understand and use stats.
    It´s more important to test experimental results for statistical significance.
    It´s most important, to bear in mind that statistical significance does not automatically mean something is also biologically significant.

  2. BadBax sagt:

    Jedoch, manchmal gilt auch: besser gar keine Statistik als schlechte Statistik.

  3. Unter Medizinern der Hautkliniken Erlangen und Marburg gibt es Helden der Wissenschaft, die nicht nur auf Statistik ganz verzichten. Die Tandems Veldman/Hertl und Dieckmann/Schuler sparten sich auch noch die Angaben darüber, auf wievielen Einzelexperimenten ein Mittelwert beruht, oder ob der Fehlerbalken SD oder SEM darstellt.
    Auf diese Weise macht man ein Nachvollziehen der Abbildungsdaten unmöglich.
    Schon Pfadfinder lernen, wie man seine Spuren verwischt.
    Alles auf dem Abnormal Science Blog nachzulesen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Captcha loading...