Info

Pimp Your Paper!

Ulrich Dirnagl


Narr

(06.09.2022) Sie wollen aus den Resultaten irrelevanter oder schlecht designter Studien einen Artikel stricken? Kein Problem, unser Narr hat die richtigen Tipps für Sie.

Täglich ergießt sich ein Tsunami wissenschaftlicher Artikel über uns. Es gibt etwa 30.000 medizinische Journale, keiner weiß das so genau, die jährliche Wachstumsrate liegt bei über fünf Prozent. MEDLINE listet jährlich mehr als 1,7 Millionen Artikel, Tendenz unaufhörlich steigend. Da lesen wir dann Triviales oder gar Obskures, sehr häufig auch Spektakuläres. Befunde, die nach den Worten der Autoren die medizinische Praxis revolutionieren würden.

Sie fragen sich vielleicht, wie auch Sie dazu beitragen können, diesen Strom biomedizinischer Evidenz nicht versiegen zu lassen – und damit gleichzeitig Ihr Curriculum Vitae zu bereichern? Im Folgenden möchte ich Ihnen deshalb einige Tipps aus meiner langjährigen Praxis als Autor, Reviewer und Journal Editor geben. Vieles mag Ihnen selbstverständlich oder gar trivial erscheinen. Ich denke aber, dass meine Handreichungen Ihnen gerade in dieser Zusammenschau helfen können, auch aus noch so fragmentierten, irrelevanten oder schlecht designten Experimenten und Studien einen Artikel zu stricken, der den Peer-Review übersteht und sich danach auch nicht auf der Liste Ihrer Originalarbeiten verstecken muss.

Info

Es beginnt damit, dass Sie auf keinen Fall auf Sprüche wie „Spektakuläre Ergebnisse oder Behauptungen erfordern außergewöhnliche Beweise!“ hereinfallen dürfen. Carl Sagan hat diesen Spruch von Pierre-Simon Laplace plagiiert, der diese Maxime im 18. Jahrhundert folgendermaßen formulierte: „Das Gewicht der Beweise für eine außergewöhnliche Behauptung muss im Verhältnis zu ihrer Seltsamkeit stehen.“ Himmel, das war doch zu einer Zeit, als Gentleman-Scientists forschten, ohne dass sie Anträge schreiben mussten und ohne dass ihr Ansehen oder ihre Karriere von der Anzahl der Publikationen und deren Impact Factor abhängig waren! Diesen Luxus können wir uns heute wahrlich nicht mehr leisten. Lassen Sie also Ihren Spekulationen einfach von vornherein freien Lauf und verengen Sie Ihre Schlussfolgerungen nicht durch einen engstirnigen Blick auf die Qualität der von Ihnen generierten Evidenz. Höchstes Gut ist nach wie vor die Freiheit der Wissenschaft, außerdem ist bekanntlich Kreativität die Haupttriebfeder von Innovation.

Analog gilt das übrigens auch für die Formulierung der Hypothese. Sollte es Ihnen wider Erwarten nicht gelungen sein, diese in der Studie zu belegen, steht Ihnen immerhin offen, diese im Lichte ihrer Ergebnisse kreativ zu modifizieren. Ich rate allerdings davon ab, dies im Manuskript zu erwähnen – es soll schließlich Gutachter geben, die das aus Unkenntnis der aktuellen erkenntnistheoretischen Praxis als unwissenschaftlich kritisieren.

Info

Festzuhalten bleibt jedenfalls, dass sich mit Kenntnis der Ergebnisse immer ein sehr überzeugendes Narrativ aufbauen lässt. Dieses kann man noch erheblich stärken, indem man Befunde, die die sich abzeichnende „Story“ stören, im Artikel nicht erwähnt. Letztlich kommt alles darauf an, aus dem großen Pool der Ihnen zur Verfügung stehenden Ergebnisse die richtigen Befunde für die Studie auszuwählen. Nur durch eine ebenso umsichtige wie selektive Auswahl werden Artikel möglich, die dem Leser eine faszinierend lineare („Next we...“) und schlüssige („We have demonstrated...“) Argumentation bieten, ihn dabei aber nicht mit unwesentlichen Nebenbefunden überfrachten. Unsere Artikel sind ja selbst im von uns gestalteten Narrativ meist schon komplex genug!

Beim Design der Studie werden Sie der statistischen Power, also dem Typ-II-Fehler, schon länger keine große Aufmerksamkeit gewidmet haben. Das ist grundsätzlich eine weise Entscheidung, denn sie präsentieren ja positive Ergebnisse – wozu soll man sich um falsch-negative sorgen? Außerdem ergeben A-priori-Power-Analysen und Fallzahlabschätzungen vermutlich, dass die von Ihnen und Ihren Fachkollegen verwendeten Gruppengrößen viel zu gering sind. Aber zum einen haben wir alle doch schon immer so kleine Gruppen verwendet – und außerdem würden bei den tatsächlich notwendigen Fallzahlen die Ressourcen aus dem Förderantrag nicht reichen, die Genehmigungsbehörde sich beschweren und ein Doktorand viel zu lange brauchen.

Vielleicht haben Sie in diesem Zusammenhang auch schon mal den sogenannten „Sample Size Samba“ tanzen müssen. Falls nein, möchte ich Ihnen diese Technik an dieser Stelle ans Herz legen. Dazu geben Sie einfach eine unrealistisch hohe Effektstärke in das Statistikprogramm ein – beispielsweise 1,5 Standardabweichungen –, dann errechnet sich daraus schon bei den gewohnt niedrigen Fallzahlen ein ausreichendes Niveau für die Fehler des Typs I (5 Prozent) sowie des Typs II (20 Prozent – das heißt 80 Prozent Power). Spielen Sie in der Software mit den Effektgrößen, bis es passt. Dass Sie eine A-priori-Power-Analyse und Fallzahlabschätzung gemacht haben, macht sich auf jeden Fall gut im Artikel. Und die Behörde ist auch glücklich.

Bei der statistischen Analyse halten Sie sich am besten in gewohnter Weise an den seit nunmehr über hundert Jahren bewährten p-Wert und die magische Fünf-Prozent-Signifikanzschwelle – Ronald Fisher sei Dank! Auch hier gilt: Alle machen das schon lange so, dann kann das doch nicht falsch sein! Lassen Sie sich auch nicht durch Unkenrufe sogenannter „Experten“ irritieren, dass ein so wenig stringentes Signifikanzniveau kombiniert mit niedriger Power zu einem sehr hohen Anteil falsch-positiver und falsch-negativer Ergebnisse führen muss. Und dass zudem tatsächlich existierende Effekte größenmäßig stark überschätzt werden.

In den meisten Fällen folgt dann von diesen Besserwissern gleich noch der Hinweis, man solle sich doch bitte auf biologische Effekte und deren Ausmaß, und nicht auf die statistische Signifikanz fokussieren. Solche Kommentare müssen als realitätsfern zurückgewiesen werden. Wenn man sie ernst nehmen würde, könnte man viele der Effekte, die man doch gerade publizieren will, nicht mehr belegen und müsste die gesamte Diskussion umschreiben. Auch die spektakulären Schlussfolgerungen, die für die Akzeptanz durch das Journal ach so wichtig sind, ließen sich dann nicht mehr halten. Das ganze Manuskript wäre gefährdet!

Noch ein Wort zur Wahl der Teststatistik. Nutzen Sie die grenzenlosen Möglichkeiten, die moderne Statistikpakete bieten. Oft führt erst die Durchführung einer Reihe verschiedener Testverfahren zur gewünschten Signifikanz. Auch bei den Post-hoc-Tests sollten Sie nicht zu schnell aufgeben, es findet sich fast immer ein weniger konservativer Kontrast, der eine Signifikanz an der richtigen Stelle ergibt.

Ganz klar muss ich in diesem Zusammenhang allerdings davor warnen, für multiple Vergleiche zu korrigieren. Wir ziehen in einer Studie ja häufig in Form von statistischen Tests viele verschiedene Schlüsse von der Stichprobe auf die Grundgesamtheit, sodass dies schon aus praktischen Gründen gar nicht mehr möglich ist. Da kommen schnell mal mehr Vergleiche zusammen als unabhängige experimentelle Einheiten vorhanden waren. Aber noch viel wichtiger: Das Adjustieren der p-Werte zerstört allzu häufig die mühsam erarbeitete statistische Signifikanz – das geht also gar nicht!

Das bringt mich zur graphischen Darstellung der Resultate. Hier haben sich Säulendiagramme mit Standardfehler des Mittelwertes (SEM) unglaublich bewährt. Diese Darstellungsform zeichnet sich durch die große Klarheit aus, mit welcher sich die Effekte des oben erwähnten statistischen Vorgehens noch weiter schärfen lassen. So ist es zum Beispiel möglich, störende bimodale Verteilungen – und damit das Fehlen einer Normalverteilung – graphisch komplett zum Verschwinden zu bringen. Auch die häufig unangenehm hohe Varianz der Resultate wird durch die SEMs visuell auf ein erträgliches Minimum reduziert. Mit ein bisschen Geschick lassen sich die Statistikprogramme auch dazu bewegen, ordinale Werte auf diese Weise darzustellen – dadurch fällt es auch nicht mehr so auf, dass wir darauf parametrische Tests angewendet haben. Durch Sternchen (*), die über den Balken schweben und von statistischer Signifikanz künden, findet das Auge sofort Halt an den wesentlichen Befunden.

Es ist sicher richtig, dass Box-, Violin-, Dot-Plots et cetera wesentlich mehr Information vermitteln würden, aber gleichzeitig verwässern Sie damit auch die eindeutigen Aussagen, die nicht nur die Leser, sondern insbesondere auch die Reviewer so sehr schätzen. Ich rate daher dringend von diesen Darstellungsformen ab, sie machen im Übrigen auch mehr Arbeit.

Unangenehmerweise fragen Journale immer häufiger, welche Anstrengungen man zur Vermeidung von Verzerrungen (Bias) unternommen hat – also zum Beispiel Verblindung, Randomisierung, Vordefinition von Ein- und Ausschlusskriterien. Lassen Sie sich hiervon nicht einschüchtern. Verzerrungen sind ein notwendiges und noch dazu schwer zu bekämpfendes Übel. Keine Angst, die entsprechenden Check-Listen für die Einreichung des Manuskripts beim Journal lassen sich meist schnell durchklicken – genauso schnell sind die Häkchen an den gewünschten Stellen gesetzt. Sehr praktisch ist es, wenn das Journal es erlaubt, das Ganze mit einfachen Sätzen im Methodenteil zu erledigen – dann können Sie beispielsweise einfach schreiben: „This study was conducted in compliance with the ‚X‘- guidelines‘.“ „X“ können Sie dann ersetzen durch ARRIVE, CONSORT et cetera – je nach Journal und Studie.

Sollte das Journal eine Open-Data-Policy haben und auf der freien Zurverfügungstellung der für die Publikation verwendeten Originaldaten bestehen, versuchen Sie es am besten zunächst mit der Floskel: „Data available upon reasonable request“. Damit sind Sie sicher davor geschützt, diese wertvolle Ressource, die ja von Ihnen und Ihren Mitarbeitern in harter Arbeit erzeugt wurde, mit potenziellen Konkurrenten teilen zu müssen. Ihre Daten können Sie dann ungestört selbst für weitere eigene Publikationen recyclen. Schließlich soll es findigen Kollegen schon gelungen sein, aus einem einzigen Datensatz zwanzig und mehr Publikationen zu schöpfen – das entspricht immerhin zwei Habilitationsäquivalenten!

Durch die kategorische Verweigerung von Open Data beugen Sie übrigens auch ganz allgemein einem wissenschaftlichen Parasitentum vor. Dieses macht sich derzeit, angefeuert von Open-Science-Aktivisten, immer mehr breit. Sollte Ihr Fördergeber Sie dennoch durch Auflagen zur Datenteilung verpflichten wollen, können Sie dies getrost ignorieren. Es ist bisher kein Fall bekannt geworden, bei dem die Nichterfüllung Konsequenzen nach sich gezogen hätte. Irgendeine Ausrede, warum es Ihnen nicht möglich war, die Daten zu teilen, wird Ihnen schon einfallen.

Viele Journale bestehen überdies noch auf der Nennung möglicher Interessenkonflikte. Auch hier sollten Sie der Einfachheit halber gleich mit „None“ antworten. Auch wenn es nicht stimmen sollte, brauchen Sie keine Konsequenzen befürchten. Wer, wenn nicht Sie selbst, sollte am besten wissen, womit Sie einen Konflikt haben könnten?

Häufig heben sich Interessenkonflikte ja auch gegenseitig auf, insbesondere wenn man Fördermittel und Honorare von den verschiedensten Firmen erhält. Als Wissenschaftler sind Sie aber auch ganz grundsätzlich vor solchen Konflikten geschützt, da Sie doch nur der wissenschaftlichen Wahrheit verpflichtet sind. Auch sind Ihre Ergebnisse objektiv und mit aufwendigen Methoden quantifiziert – und von daher durch kollidierende Sekundärinteressen gar nicht beeinflussbar. Einem FACS-Gerät oder einem Mikroskop ist es doch egal, von wem Sie materielle oder finanzielle Mittel erhalten.

Sogar Patente und deren Anmeldungen werden heutzutage als Interessenkonflikte aufgefasst! Das ist natürlich unlogisch, die Unis geben sich doch große Mühe, uns auf wertsichernde Maßnahmen zu verpflichten. Wir sind ja nur die Erfinder, Eigner der Patente sind in der Regel unsere Arbeitgeber – wenn dann müssten doch die Unis einen Konflikt haben. Und überhaupt: Wenn wir wegen des Geldes dabei wären, hätten wir sowieso einen anderen Beruf als Wissenschaftler ergriffen.

Ein Wort noch zum Verhältnis von Kausalität und Korrelation. Das Dogma „Korrelation ist nicht Kausalität“ hat hier viel Verwirrung gestiftet und Regressionsanalysen unnötig stigmatisiert. Insbesondere wenn Sie für zwei Messparameter viele Datenpunkte haben, sollten Sie nicht darauf verzichten, einen Korrelationskoeffizienten zu bestimmen. Bei Bedarf können Sie abhängige und unabhängige Variable auch vertauschen und so eine sinnvolle Interpretation und Einordnung in Ihre Hypothese ermöglichen. Günstigerweise ist der Korrelationskoeffizient trotz eines niedrigen Wertes oft statistisch signifikant. Durch Fokus auf diese Signifikanz – statt dem in der Regel wenig beeindruckenden niedrigen Wert aus dem Quadrat des Regressionskoeffizienten (Determinationskoeffizient) – erhalten wir dann zusätzliche wertvolle Argumente für unser mechanistisches Narrativ. Das Einzeichnen der Regressionsgeraden in der graphischen Darstellung unterstützt die Konstruktion von Kausalzusammenhängen zusätzlich in visuell suggestiver Weise.

Zu guter Letzt noch ein Hinweis bezüglich des Abschnittes „Limitationen der Studie“ – eine Unsitte, die sich aus der angelsächsischen Literatur immer weiter verbreitet und mittlerweile von vielen Journalen erwartet wird. Natürlich hat alles, was wir tun, Limitationen – so auch unsere Forschung. Auf diesen negativen Aspekten herumzureiten, bringt außer einer Verwässerung der Schlüsselaussagen Ihrer Studie gar nichts. Sollten Sie dennoch genötigt werden, sich zu diesem Thema zu äußern, empfehle ich, einfach zwei oder drei triviale Limitationen zu listen. Allerdings sollten Sie diese so auswählen, dass Sie sie in einem direkt anschließenden Satz einfach entkräften können.

Ich vermute, dass ich Ihnen mit dieser Auflistung nichts wirklich Neues bieten konnte, sind wir doch alle als Autoren und Reviewer in dieser über viele Jahrzehnte bewährten Publikationspraxis geschult. Ich hoffe aber, dass es mir gelungen ist, Ihnen mit diesen nicht ganz ernst gemeinten Handreichungen einen Schrecken einzujagen – und eine Reflexion über diese Praxis auszulösen. In der Tat bewegt sich hier derzeit einiges. Viele Fördergeber, Journale und Open-Science-Aktivisten versuchen inzwischen, die methodische Qualität von Publikationen zu erhöhen, deren Inhalte nachvollziehbarer sowie Daten und Code frei verfügbar zu machen. Ebenso machen sie sich mittlerweile stark dafür, dass Ergebnisse veröffentlicht werden, die auf soliden Experimenten beruhen, jedoch die Ausgangshypothese nicht bestätigen können – sogenannte Null-Resultate also.

Unterstützen wir sie dabei!


Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj