Bessere Statistikanalysen ohne Excel
(23.11.2021) Das Komitee für Gen-Nomenklatur richtet sich nach Microsoft Office. Was erstmal lächerlich klingt, hat einen durchaus ernsten Hintergrund.
Während die Autokorrektur von Worten in Handy-Nachrichten manchmal für Lacher sorgt, ärgert sie andernorts die Wissenschaftsgemeinde. So enthält die PubMed-Datenbank für 2014 bis 2020 insgesamt 11.117 Publikationen mit Genlisten im Excel-Format im Anhang. Unter ihnen weisen 3.436 Publikationen mindestens einen Gen-Namen auf, der von Excels Autokorrektur-Funktion in ein Datum oder eine Gleitkommazahl konvertiert wurde (PLoS Comput Biol, 17(7): e1008984). Als anfällig für Excels automatische Texterkennung erwiesen sich nicht nur Gen-Bezeichnungen wie „MARCH3“, „SEPT8“ oder „DEC1“, sondern auch unauffällige Gen-Akronyme wie „BN7_676“ oder „MGP_AJ_G0035605“ sowie Identifikationsnummern biologischer Datenbanken wie etwa „2310009E13“.
Bekanntes Problem
Bereits 2016 bemängelte die Arbeitsgruppe um Mark Ziemann, Lecturer in Biotechnologie und Bioinformatik an der australischen Deakin University, dass Excel wissenschaftliche Daten in falsch verstandener Nutzerfreundlichkeit fehlinterpretiert (Genome Biol, 17: 177). Einen Nachbesserungsbedarf sah Microsoft jedoch nicht. Schließlich stellt die Wissenschaftsgemeinde nur einen vernachlässigbaren Bruchteil der Gesamtkundschaft dar, die Excels Standardeinstellungen befriedigen müssen. Kurzerhand zog die Human Genome Organisation ihrerseits Konsequenzen und benannte 27 besonders Autokorrektur-anfällige Gen-Namen um. So heißen unter anderem die Gene SEPT1 und MARCH1 jetzt SEPTIN1 und MARCHF1, während die tRNA-Synthetasen WARS und CARS auf WARS1 und CARS1 hören (Nat Genet, 52: 754-8).
Im Vergleich zum humanen Genom mit seinen 20.000 Protein-codierenden Genen ist von Excels Fehlinterpretationen natürlich nur ein Bruchteil betroffen. Doch wenn schon eine Autokorrektur-Funktion Daten Tausender Publikationen vermurkst, wie viele Fehler schleichen sich durch unsachgemäß verwendete Microsoft-Office-Produkte wohl noch ein?
Fallbeispiel Neurologie
Ein Lied davon singen kann die Arbeitsgruppe um Erstautor Julian Klingbeil, Assistenzarzt an der Leipziger Klinik für Neurologie, die im Januar 2021 Studienergebnisse zu Magnetresonanztomographie (MRT)-Läsionsprofilen nach Schlaganfall (Stroke, 52: e485) veröffentlichte – und nur sechs Wochen später wieder zurückzog. Die Schlaganfall-Forscher waren in einer Excel-Tabelle auf einen simplen Kopierfehler gestoßen. „Während einer Folgeanalyse fiel einem Mitautor auf, dass Patienten im analysierten Datensatz andere Zeitpunkte ihrer Schlaganfälle zugeordnet waren als in den Rohdaten“, beschreibt Klingbeil ihren Fehler. Die Ironie folgt jetzt: „Für unsere mehrere Hundert Patienten legten wir extra eine SQL-basierte Datenbank an. Denn uns war klar, dass wir so viele Datensätze unmöglich in Excel-Dateien organisieren können. Da unsere Statistik-Software aber Eingabedaten im xlsx-Format verlangt, mussten wir alle Datenbank-Einträge kurzerhand konvertieren. Und dabei sortierte ein Mitautor Spalten ungewollt um – im Nachhinein unbegreiflich, dass uns das passiert ist.“
Dass tomographische Läsionsprofile nun falschen Zeitpunkten nach Schlaganfall zugeordnet waren, fiel im Peer-Review-Prozess nicht auf. Die randomisierten Datensätze bestätigten sogar, was frühere Untersuchungen von Schlaganfall-Patienten nur andeuteten: Läsionen im linken, ventrolateralen präfrontalen Cortex erhöhten Monate später das Risiko für Depressionen. Eine frühe Diagnose dieser Art psychischer Störungen schien anhand von MRT-Aufnahmen in Reichweite. Das machte die Neurologen extrem glücklich – zumindest bis sie Wochen nach Publikation ihren Irrtum erkannten. „Eine Unaufmerksamkeit entkräftete alle Schlussfolgerungen unseres Manuskripts. Zwar war es weder Gutachtern noch Lesern möglich, diesen Fehler zu finden, aber nicht nur für Folgestudien wäre es natürlich völliger Wahnsinn gewesen, das unkorrigiert stehen zu lassen.“ Also wiesen Klingbeil et al. den Editor-in-Chief von Stroke schweren Herzens auf ihren Flüchtigkeitsfehler hin und nahmen dessen Angebot einer umgehenden Retraction an.
Trotz Schock und Scham weist Klingbeil auf das Wesentliche hin: „Das gesamte Studiendesign, die Teilnahmebereitschaft Hunderter Patienten und die Arbeit aller Mitautoren überwiegen die zugegebenermaßen weitreichenden Konsequenzen dieses Schnitzers um ein Vielfaches. Mittlerweile haben wir alle Daten korrekt analysiert und konnten erneut – wenn auch andere – Schlussfolgerungen ziehen. Am wichtigsten ist uns, dass wir die Studie überhaupt publizieren.“ Ein Riesen-Lob für wissenschaftliche Integrität ist ihnen allemal sicher.
Lehre gezogen?
So profan dieses Fallbeispiel klingen mag, zeigt es eines ganz deutlich: Folgenschwere Fehler können jedem jederzeit trotz maximaler Sorgfalt unterlaufen. Niemand sollte sich in Sicherheit wägen. Was haben Klingbeil und Kollegen daraus gelernt? „Alle Daten müssen in der identischen SQL-Datenbank editiert und dürfen nach Export nicht mehr angefasst werden. Denn im Gegensatz zu Excel-Dateien lässt sich nur in einer Datenbank nachvollziehen, wer was wann wie in welcher Reihenfolge geändert hat.“
Die Lektion für den Wissenschaftsbetrieb ist folglich klar: Auch wenn Excel noch so bequem und vielseitig ist, verbietet seine Intransparenz jegliche Datenspeicherung und statistische Analyse. Denn Reproduzierbarkeit gewährleistet es nicht. Für komplexe Daten mit mehr als einer Handvoll Zeilen wie etwa Listen von Gen-Namen oder auch nur, um mal eben supplementäre Daten an die Kollegin zu schicken, sollte Excel vielleicht echter Datenbank- und Statistiksoftware weichen.
Henrik Müller
Dieser hier gekürzte Artikel erschien zuerst in Laborjournal 11-2021. Dort stellt Henrik Müller auch Excel-Alternativen vor.
Bild: Juliet Merz
Mehr Illustrationen von Juliet gibt es auf ihrer Behance-Seite.
Weitere Artikel aus dem aktuellen Laborjournal-Heft
- Biowissenschaft for future
Die Oberflächentemperatur der Erde steigt – langsam, aber stetig. Um diese Entwicklung einzudämmen, sind alle Wissenschaftsdisziplinen gefordert. Welche Gelegenheiten, Chancen, wenn nicht gar Pflichten bietet der Klimawandel den Biowissenschaften? Einige Fallbeispiele.
- Update für die Evolution
Beeinflussen Tiere durch ihr arttypisches Verhalten die eigene Evolution? Diese Frage wird unter Evolutionsbiologen heiß diskutiert. Eine neue empirische Studie wagt erstmals den Praxistest.
- Wirkstoff des Monats: Molnupiravir
Molnupiravir wurde vom Pharmakologen George Painter und Kollegen von den Grud Innovation Ventures at Emory (DRIVE) entwickelt und hieß damals noch EIDD-2801. 2013 begann das Forschungsteam nach einem Wirkstoff gegen das für Pferde tödliche Venezolanische-Pferdeenzephalomyelitis-Virus (VEEV) zu suchen, das auch auf den Menschen übertragbar ist.