Info

Bessere Statistikanalysen ohne Excel

(23.11.2021) Das Komitee für Gen-Nomenklatur richtet sich nach Microsoft Office. Was erstmal lächerlich klingt, hat einen durchaus ernsten Hintergrund.
editorial_bild

Info

Info

Produktives Pipettieren von 1 bis 384 Kanälen mehr

Während die Autokorrektur von Worten in Handy-Nachrichten manchmal für Lacher sorgt, ärgert sie andernorts die Wissen­schafts­gemeinde. So enthält die PubMed-Datenbank für 2014 bis 2020 insgesamt 11.117 Publi­kationen mit Genlisten im Excel-Format im Anhang. Unter ihnen weisen 3.436 Publika­tionen mindestens einen Gen-Namen auf, der von Excels Auto­korrektur-Funktion in ein Datum oder eine Gleit­kommazahl konvertiert wurde (PLoS Comput Biol, 17(7): e1008984). Als anfällig für Excels automatische Texterkennung erwiesen sich nicht nur Gen-Bezeichnungen wie „MARCH3“, „SEPT8“ oder „DEC1“, sondern auch unauffällige Gen-Akronyme wie „BN7_676“ oder „MGP_AJ_G0035605“ sowie Identifi­kationsnummern biologischer Datenbanken wie etwa „2310009E13“.

Info

Info

Info

Experts. Knowledge. Live.
REGISTER NOW! mehr

Bekanntes Problem

Bereits 2016 bemängelte die Arbeits­gruppe um Mark Ziemann, Lecturer in Biotechnologie und Bioinformatik an der australischen Deakin University, dass Excel wissen­schaftliche Daten in falsch verstandener Nutzer­freundlichkeit fehlinter­pretiert (Genome Biol, 17: 177). Einen Nachbes­serungsbedarf sah Microsoft jedoch nicht. Schließlich stellt die Wissen­schafts­gemeinde nur einen vernach­lässigbaren Bruchteil der Gesamt­kundschaft dar, die Excels Standard­einstellungen befriedigen müssen. Kurzerhand zog die Human Genome Organisation ihrerseits Konsequenzen und benannte 27 besonders Auto­korrektur-anfällige Gen-Namen um. So heißen unter anderem die Gene SEPT1 und MARCH1 jetzt SEPTIN1 und MARCHF1, während die tRNA-Synthetasen WARS und CARS auf WARS1 und CARS1 hören (Nat Genet, 52: 754-8).

Im Vergleich zum humanen Genom mit seinen 20.000 Protein-codierenden Genen ist von Excels Fehlinter­pretationen natürlich nur ein Bruchteil betroffen. Doch wenn schon eine Auto­korrektur-Funktion Daten Tausender Publikationen vermurkst, wie viele Fehler schleichen sich durch unsachgemäß verwendete Microsoft-Office-Produkte wohl noch ein?

Info

Info

Info

Maximieren Sie die Funktion Ihrer LAMP-Primer -> Benutzer-definiert für eine optimale Leistung mehr

Fallbeispiel Neurologie

Ein Lied davon singen kann die Arbeitsgruppe um Erstautor Julian Klingbeil, Assistenzarzt an der Leipziger Klinik für Neurologie, die im Januar 2021 Studien­ergebnisse zu Magnet­resonanz­tomographie (MRT)-Läsions­profilen nach Schlaganfall (Stroke, 52: e485) veröffentlichte – und nur sechs Wochen später wieder zurückzog. Die Schlaganfall-Forscher waren in einer Excel-Tabelle auf einen simplen Kopier­fehler gestoßen. „Während einer Folgeanalyse fiel einem Mitautor auf, dass Patienten im analysierten Datensatz andere Zeitpunkte ihrer Schlag­anfälle zugeordnet waren als in den Rohdaten“, beschreibt Klingbeil ihren Fehler. Die Ironie folgt jetzt: „Für unsere mehrere Hundert Patienten legten wir extra eine SQL-basierte Datenbank an. Denn uns war klar, dass wir so viele Datensätze unmöglich in Excel-Dateien organisieren können. Da unsere Statistik-Software aber Eingabe­daten im xlsx-Format verlangt, mussten wir alle Datenbank-Einträge kurzerhand konvertieren. Und dabei sortierte ein Mitautor Spalten ungewollt um – im Nachhinein unbegreiflich, dass uns das passiert ist.“

Dass tomographische Läsions­profile nun falschen Zeitpunkten nach Schlaganfall zugeordnet waren, fiel im Peer-Review-Prozess nicht auf. Die rando­misierten Datensätze bestätigten sogar, was frühere Unter­suchungen von Schlaganfall-Patienten nur andeuteten: Läsionen im linken, ventro­lateralen präfrontalen Cortex erhöhten Monate später das Risiko für Depressionen. Eine frühe Diagnose dieser Art psychischer Störungen schien anhand von MRT-Aufnahmen in Reichweite. Das machte die Neurologen extrem glücklich – zumindest bis sie Wochen nach Publikation ihren Irrtum erkannten. „Eine Unaufmerk­samkeit entkräftete alle Schluss­folgerungen unseres Manuskripts. Zwar war es weder Gutachtern noch Lesern möglich, diesen Fehler zu finden, aber nicht nur für Folge­studien wäre es natürlich völliger Wahnsinn gewesen, das unkorrigiert stehen zu lassen.“ Also wiesen Klingbeil et al. den Editor-in-Chief von Stroke schweren Herzens auf ihren Flüchtig­keitsfehler hin und nahmen dessen Angebot einer umgehenden Retraction an.

Trotz Schock und Scham weist Klingbeil auf das Wesentliche hin: „Das gesamte Studien­design, die Teilnahme­bereitschaft Hunderter Patienten und die Arbeit aller Mitautoren überwiegen die zugege­benermaßen weitrei­chenden Konsequenzen dieses Schnitzers um ein Vielfaches. Mittlerweile haben wir alle Daten korrekt analysiert und konnten erneut – wenn auch andere – Schluss­folgerungen ziehen. Am wichtigsten ist uns, dass wir die Studie überhaupt publizieren.“ Ein Riesen-Lob für wissen­schaftliche Integrität ist ihnen allemal sicher.

Info

Info

Lehre gezogen?

So profan dieses Fallbeispiel klingen mag, zeigt es eines ganz deutlich: Folgen­schwere Fehler können jedem jederzeit trotz maximaler Sorgfalt unterlaufen. Niemand sollte sich in Sicherheit wägen. Was haben Klingbeil und Kollegen daraus gelernt? „Alle Daten müssen in der identischen SQL-Datenbank editiert und dürfen nach Export nicht mehr angefasst werden. Denn im Gegensatz zu Excel-Dateien lässt sich nur in einer Datenbank nachvoll­ziehen, wer was wann wie in welcher Reihenfolge geändert hat.“

Die Lektion für den Wissen­schaftsbetrieb ist folglich klar: Auch wenn Excel noch so bequem und vielseitig ist, verbietet seine Intransparenz jegliche Daten­speicherung und statistische Analyse. Denn Reprodu­zierbarkeit gewährleistet es nicht. Für komplexe Daten mit mehr als einer Handvoll Zeilen wie etwa Listen von Gen-Namen oder auch nur, um mal eben supple­mentäre Daten an die Kollegin zu schicken, sollte Excel vielleicht echter Datenbank- und Statistik­software weichen.

Henrik Müller

Dieser hier gekürzte Artikel erschien zuerst in Laborjournal 11-2021. Dort stellt Henrik Müller auch Excel-Alternativen vor.

Bild: Juliet Merz

Mehr Illustrationen von Juliet gibt es auf ihrer Behance-Seite.


Weitere Artikel aus dem aktuellen Laborjournal-Heft


- Biowissenschaft for future

Die Oberflächentemperatur der Erde steigt – langsam, aber stetig. Um diese Entwicklung einzudämmen, sind alle Wissenschaftsdisziplinen gefordert. Welche Gelegenheiten, Chancen, wenn nicht gar Pflichten bietet der Klimawandel den Biowissenschaften? Einige Fallbeispiele.

- Update für die Evolution

Beeinflussen Tiere durch ihr arttypisches Verhalten die eigene Evolution? Diese Frage wird unter Evolutionsbiologen heiß diskutiert. Eine neue empirische Studie wagt erstmals den Praxistest.

- Wirkstoff des Monats: Molnupiravir

Molnupiravir wurde vom Pharmakologen George Painter und Kollegen von den Grud Innovation Ventures at Emory (DRIVE) entwickelt und hieß damals noch EIDD-2801. 2013 begann das Forschungsteam nach einem Wirkstoff gegen das für Pferde tödliche Venezolanische-Pferdeenzephalomyelitis-Virus (VEEV) zu suchen, das auch auf den Menschen übertragbar ist.

 



Letzte Änderungen: 23.11.2021

Diese Website benutzt Cookies. Wenn Sie unsere Website benutzen, stimmen Sie damit unserer Nutzung von Cookies zu. Zur ausführlichen Datenschutzinformation