Bessere Statistikanalysen ohne Excel

(23.11.2021) Das Komitee für Gen-Nomenklatur richtet sich nach Microsoft Office. Was erstmal lächerlich klingt, hat einen durchaus ernsten Hintergrund.
editorial_bild

Editorial

Während die Autokorrektur von Worten in Handy-Nachrichten manchmal für Lacher sorgt, ärgert sie andernorts die Wissen­schafts­gemeinde. So enthält die PubMed-Datenbank für 2014 bis 2020 insgesamt 11.117 Publi­kationen mit Genlisten im Excel-Format im Anhang. Unter ihnen weisen 3.436 Publika­tionen mindestens einen Gen-Namen auf, der von Excels Auto­korrektur-Funktion in ein Datum oder eine Gleit­kommazahl konvertiert wurde (PLoS Comput Biol, 17(7): e1008984). Als anfällig für Excels automatische Texterkennung erwiesen sich nicht nur Gen-Bezeichnungen wie „MARCH3“, „SEPT8“ oder „DEC1“, sondern auch unauffällige Gen-Akronyme wie „BN7_676“ oder „MGP_AJ_G0035605“ sowie Identifi­kationsnummern biologischer Datenbanken wie etwa „2310009E13“.

Editorial

Bekanntes Problem

Bereits 2016 bemängelte die Arbeits­gruppe um Mark Ziemann, Lecturer in Biotechnologie und Bioinformatik an der australischen Deakin University, dass Excel wissen­schaftliche Daten in falsch verstandener Nutzer­freundlichkeit fehlinter­pretiert (Genome Biol, 17: 177). Einen Nachbes­serungsbedarf sah Microsoft jedoch nicht. Schließlich stellt die Wissen­schafts­gemeinde nur einen vernach­lässigbaren Bruchteil der Gesamt­kundschaft dar, die Excels Standard­einstellungen befriedigen müssen. Kurzerhand zog die Human Genome Organisation ihrerseits Konsequenzen und benannte 27 besonders Auto­korrektur-anfällige Gen-Namen um. So heißen unter anderem die Gene SEPT1 und MARCH1 jetzt SEPTIN1 und MARCHF1, während die tRNA-Synthetasen WARS und CARS auf WARS1 und CARS1 hören (Nat Genet, 52: 754-8).

Im Vergleich zum humanen Genom mit seinen 20.000 Protein-codierenden Genen ist von Excels Fehlinter­pretationen natürlich nur ein Bruchteil betroffen. Doch wenn schon eine Auto­korrektur-Funktion Daten Tausender Publikationen vermurkst, wie viele Fehler schleichen sich durch unsachgemäß verwendete Microsoft-Office-Produkte wohl noch ein?

Editorial

Fallbeispiel Neurologie

Ein Lied davon singen kann die Arbeitsgruppe um Erstautor Julian Klingbeil, Assistenzarzt an der Leipziger Klinik für Neurologie, die im Januar 2021 Studien­ergebnisse zu Magnet­resonanz­tomographie (MRT)-Läsions­profilen nach Schlaganfall (Stroke, 52: e485) veröffentlichte – und nur sechs Wochen später wieder zurückzog. Die Schlaganfall-Forscher waren in einer Excel-Tabelle auf einen simplen Kopier­fehler gestoßen. „Während einer Folgeanalyse fiel einem Mitautor auf, dass Patienten im analysierten Datensatz andere Zeitpunkte ihrer Schlag­anfälle zugeordnet waren als in den Rohdaten“, beschreibt Klingbeil ihren Fehler. Die Ironie folgt jetzt: „Für unsere mehrere Hundert Patienten legten wir extra eine SQL-basierte Datenbank an. Denn uns war klar, dass wir so viele Datensätze unmöglich in Excel-Dateien organisieren können. Da unsere Statistik-Software aber Eingabe­daten im xlsx-Format verlangt, mussten wir alle Datenbank-Einträge kurzerhand konvertieren. Und dabei sortierte ein Mitautor Spalten ungewollt um – im Nachhinein unbegreiflich, dass uns das passiert ist.“

Dass tomographische Läsions­profile nun falschen Zeitpunkten nach Schlaganfall zugeordnet waren, fiel im Peer-Review-Prozess nicht auf. Die rando­misierten Datensätze bestätigten sogar, was frühere Unter­suchungen von Schlaganfall-Patienten nur andeuteten: Läsionen im linken, ventro­lateralen präfrontalen Cortex erhöhten Monate später das Risiko für Depressionen. Eine frühe Diagnose dieser Art psychischer Störungen schien anhand von MRT-Aufnahmen in Reichweite. Das machte die Neurologen extrem glücklich – zumindest bis sie Wochen nach Publikation ihren Irrtum erkannten. „Eine Unaufmerk­samkeit entkräftete alle Schluss­folgerungen unseres Manuskripts. Zwar war es weder Gutachtern noch Lesern möglich, diesen Fehler zu finden, aber nicht nur für Folge­studien wäre es natürlich völliger Wahnsinn gewesen, das unkorrigiert stehen zu lassen.“ Also wiesen Klingbeil et al. den Editor-in-Chief von Stroke schweren Herzens auf ihren Flüchtig­keitsfehler hin und nahmen dessen Angebot einer umgehenden Retraction an.

Trotz Schock und Scham weist Klingbeil auf das Wesentliche hin: „Das gesamte Studien­design, die Teilnahme­bereitschaft Hunderter Patienten und die Arbeit aller Mitautoren überwiegen die zugege­benermaßen weitrei­chenden Konsequenzen dieses Schnitzers um ein Vielfaches. Mittlerweile haben wir alle Daten korrekt analysiert und konnten erneut – wenn auch andere – Schluss­folgerungen ziehen. Am wichtigsten ist uns, dass wir die Studie überhaupt publizieren.“ Ein Riesen-Lob für wissen­schaftliche Integrität ist ihnen allemal sicher.

Lehre gezogen?

So profan dieses Fallbeispiel klingen mag, zeigt es eines ganz deutlich: Folgen­schwere Fehler können jedem jederzeit trotz maximaler Sorgfalt unterlaufen. Niemand sollte sich in Sicherheit wägen. Was haben Klingbeil und Kollegen daraus gelernt? „Alle Daten müssen in der identischen SQL-Datenbank editiert und dürfen nach Export nicht mehr angefasst werden. Denn im Gegensatz zu Excel-Dateien lässt sich nur in einer Datenbank nachvoll­ziehen, wer was wann wie in welcher Reihenfolge geändert hat.“

Die Lektion für den Wissen­schaftsbetrieb ist folglich klar: Auch wenn Excel noch so bequem und vielseitig ist, verbietet seine Intransparenz jegliche Daten­speicherung und statistische Analyse. Denn Reprodu­zierbarkeit gewährleistet es nicht. Für komplexe Daten mit mehr als einer Handvoll Zeilen wie etwa Listen von Gen-Namen oder auch nur, um mal eben supple­mentäre Daten an die Kollegin zu schicken, sollte Excel vielleicht echter Datenbank- und Statistik­software weichen.

Henrik Müller

Dieser hier gekürzte Artikel erschien zuerst in Laborjournal 11-2021. Dort stellt Henrik Müller auch Excel-Alternativen vor.

Bild: Juliet Merz

Mehr Illustrationen von Juliet gibt es auf ihrer Behance-Seite.


Weitere Artikel aus dem aktuellen Laborjournal-Heft


- Biowissenschaft for future

Die Oberflächentemperatur der Erde steigt – langsam, aber stetig. Um diese Entwicklung einzudämmen, sind alle Wissenschaftsdisziplinen gefordert. Welche Gelegenheiten, Chancen, wenn nicht gar Pflichten bietet der Klimawandel den Biowissenschaften? Einige Fallbeispiele.

- Update für die Evolution

Beeinflussen Tiere durch ihr arttypisches Verhalten die eigene Evolution? Diese Frage wird unter Evolutionsbiologen heiß diskutiert. Eine neue empirische Studie wagt erstmals den Praxistest.

- Wirkstoff des Monats: Molnupiravir

Molnupiravir wurde vom Pharmakologen George Painter und Kollegen von den Grud Innovation Ventures at Emory (DRIVE) entwickelt und hieß damals noch EIDD-2801. 2013 begann das Forschungsteam nach einem Wirkstoff gegen das für Pferde tödliche Venezolanische-Pferdeenzephalomyelitis-Virus (VEEV) zu suchen, das auch auf den Menschen übertragbar ist.