Kann die Bioforschung Excel wieder nutzen?

1. November 2023 von Laborjournal

Microsoft hat es endlich getan: Seit einigen Wochen kann man in deren Tabellenkalkulationsprogramm Excel Daten eingeben, ohne dass die eingebaute automatische Datenkonvertierung diese notorisch ungewollt verunstaltet – eine Funktion, die der biomedizinischen Forschung sehr lange durchaus große Schäden zugefügt hat.

Fast schon höhnisch wirkt daher, wie sehr sich Microsoft jetzt für diese „Neuheit“ preist. Auf Microsofts Blog-Seite schreibt etwa die verantwortliche Produktmanagerin namens Chirag Fifadra in dem Beitrag „Control data conversions in Excel for Windows and Mac“:

Ich freue mich, Ihnen mitteilen zu können, dass wir nun aufgrund Ihrer Rückmeldungen die Einstellungen für die automatische Datenkonvertierung verbessert haben. […] Wir wollten die Frustration unserer Kunden über die automatische Konvertierung von Daten in bestimmte Formate durch Excel beseitigen. Daher haben wir Ihnen jetzt die Möglichkeit gegeben, das Standardverhalten von Excel zu ändern und bestimmte Arten der automatischen Datenkonvertierung nach Bedarf zu deaktivieren.

Schön, aber die „Rückmeldungen“ über gewisse „Frustrationen“ mit Excel gibt es inzwischen seit fast zwanzig Jahren – zumindest aus der Life-Science-Forschung. Bereits 2004 erschien in BMC Bioinformatics ein Artikel mit dem Titel „Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics“ (vol. 5, Art. nr.: 80). Darin fassen die Autoren zusammen:

Bei der Verarbeitung von Microarray-Datensätzen stellten wir kürzlich fest, dass einige Gennamen versehentlich in Nicht-Gennamen geändert wurden. Mit etwas Detektivarbeit konnten wir das Problem auf die Standardkonvertierung von Datumsformaten und Fließkommaformaten in dem […] Programmpaket Excel zurückführen. Von den Datumsumwandlungen sind mindestens 30 Gennamen betroffen, von den Fließkomma-Umwandlungen mindestens 2.000 […]. Diese Konvertierungen sind irreversibel; die ursprünglichen Gennamen können nicht wiederhergestellt werden. Für Analysen unter Einbeziehung von Gennamen sollte man sich dieses Problems bewusst sein. Denn immerhin könnten dadurch Gene – auch medizinisch wichtige – aus dem Blickfeld geraten. Ganz abgesehen davon, dass auf diese Weise selbst sorgfältig kuratierte Datenbanken bereits verunreinigt wurden.

Seitdem wartete die Community auf Besserung. Doch auch mehrere Dutzend weitere Artikel, mit denen Biomediziner das Excel-Problem bei der Handhabung ihrer Forschungsdaten illustrierten, stießen bei Microsoft auf taube Ohren. Besonders eindringlich taten dies 2016 etwa Mark Ziemann et al. mit ihrem Paper „Gene name errors are widespread in the scientific literature“ in Genome Biology (vol. 17, Art. nr.: 177). In unserem Beitrag „Verkorkste Listen dank Excel“ fassten wir damals dazu zusammen:

Mehr als 35.000 Excel-Sheets aus „Supplementary Files“ von einschlägigen Journals der Jahrgänge 2005 bis 2015 haben Ziemann und Kollegen heruntergeladen und nach fehlerhaften Gen-Bezeichnungen durchsucht – und in jedem fünften Paper wurden sie fündig. Der häufigste Grund: Excel hatte die Namen mancher Gene, in falsch verstandener Nutzerfreundlichkeit, fehlinterpretiert und in ein Datum konvertiert. Gene wie MARCH1 oder SEPT2 (beide gibt es wirklich!) zum Beispiel konvertiert das Microsoft-Tool fälschlich zu „2-Sep“ oder „1-Mar“.

Und bilanzierten:

Excels Datums-Hexerei ist dabei nicht das eigentliche Problem, sondern nur ein Symptom für die generelle Intransparenz, die in überbordenden Spreadsheets steckt. […] Verunstaltete Gen-Namen kann man immerhin im Nachhinein aufspüren und ausbessern – wenn man das Problem denn kennt. Schwerer wiegt ein anderer Nachteil der Klickerei mit verknüpfbaren Zellchen: Außenstehende, Gutachter zum Beispiel, können nämlich nur schwer nachvollziehen, was genau ein Forscher mit seinem Spreadsheet angestellt hat, und in welcher Reihenfolge. Und wenn gar komplizierte Analysen oder Simulationen in Excel laufen, entstehen oft wirre Kreuz-und Querbezüge, die kaum noch durchschaubar sind.

Wie gesagt, daraufhin passierte immer noch nichts bei Microsoft. Mit der Folge, dass wir das Thema Ende 2021 aus aktuellem Anlass nochmals aufgreifen mussten. Wiederum hatte ein frisches Paper neue Zahlen geliefert („Gene name errors: Lessons not learned“, PLoS Comput. Biol., doi: 10.1371/journal.pcbi.1008984): Die Autoren fanden 11.117 Publikationen aus den Jahren 2014 bis 2020, die im Supplement Genlisten im Excel-Format aufführten; in 3.436 davon war mindestens ein Gen-Name dabei, den Excels Autokorrektur-Funktion automatisch – und sicherlich unbemerkt – in ein Datum oder eine Gleitkommazahl konvertiert hatte. Die Human Genome Organisation zog daraufhin Konsequenzen und benannte 27 besonders Autokorrektur-anfällige Gen-Namen um – etwa SEPT1 in SEPTIN1 und MARCH1 in MARCHF1 (Nat. Genet. 52: 754-8).

In unserem Artikel „Warum Statistikanalysen ohne Excel besser werden“ folgerten wir aus alledem damals:

Die Lektion für den Wissenschaftsbetrieb ist folglich klar: Auch wenn Excel noch so bequem und vielseitig ist, verbietet seine Intransparenz jegliche Datenspeicherung und statistische Analyse. Denn Reproduzierbarkeit gewährleistet es nicht. Für komplexe Daten mit mehr als einer Handvoll Zeilen wie etwa Listen von Gen-Namen oder auch nur, um mal eben supplementäre Daten an die Kollegin zu schicken, sollte Excel vielleicht echter Datenbank- und Statistiksoftware weichen.

… Und machten daraufhin konkrete Vorschläge, wie und womit man dies alternativ bewerkstelligen könne.

Jetzt also hat Microsoft die fatalen Autokorrektur-Funktionen in Excel endlich abschaltbar gemacht. Jetzt, wo der Einsatz von Excel mittlerweile wohl massenweise aus den Forschungsabteilungen verbannt wurde. Kein Wunder, dass der Software-Gigant damit aus dieser Ecke nur noch Spott erntet. So schreibt etwa ein Kommentator unter einem Artikel des US-Technikportals „The Verge“ zum Thema:

Es ist witzig, wie Microsoft sich selbst auf die Schulter klopft, weil sie das Problem jetzt mit einem neuen Kontrollkästchen behoben haben. Wahrscheinlich brauchte es die gesamte Genehmigungskette bis hoch zum CEO, um es hinzuzufügen.

Ein anderer wird dagegen deutlich drastischer:

Ein klassischer Fall von MS-Software, die davon ausgeht, dass sie schlauer ist als man selbst. Und die Korrekturen vornimmt, ohne dass man danach gefragt wird – und ohne dass klar ist, ob es überhaupt eine Möglichkeit gibt, sie zu übergehen. Das ist Schrott, der davon ausgeht, dass Sie ein Idiot sind, und Sie dementsprechend behandelt. Und daher sind „Neue Funktionen“ auch immer schlecht ausgeführte Bauwerke – eben weil sie auf altem Schrott gebaut sind.“

Wie man die ungewollten Autokorrekturen in Excel konkret umgehen kann, beschreibt Microsoft übrigens in dem bereits erwähnten Blog-Beitrag „Control data conversions in Excel for Windows and Mac“. Nur für den Fall, dass das noch jemanden aus der Life-Science-Forschung interessiert.

Ralf Neumann

(Illustration: „Forscher Ernst“ wird gezeichnet von Rafael Florés. Alle seine weiteren Labor-Abenteuer gibt es hier.)

Schlagworte: Autokorrektur, Bioinformatik, Datenbank, Excel, Genliste, Genname, Microsoft, Statistik

Dieser Beitrag wurde vor am Mittwoch, 1. November 2023 um 08:00 Uhr veröffentlicht und unter Allgemeines, Wissenschaft pur gespeichert. Sie können Kommentare zu diesem Eintrag über den RSS-2.0-Feed verfolgen. Sie können einen Kommentar hinterlassen oder einen Trackback von Ihrer Website hierher setzen.

Kann die Bioforschung Excel wieder nutzen?

Schreibe einen Kommentar

Suche

Kategorien

Aktuelle Artikel

Aktuelle Kommentare

Kalender

Archive

Welche Pipettiertechnik passt am besten zur Anwendung?

Q2 EVOLVE epromo von INTEGRA

Kann die Bioforschung Excel wieder nutzen?

Schreibe einen Kommentar

Suche

Kategorien

Aktuelle Artikel

Aktuelle Kommentare

Kalender

Archive

Die Wolke

Welche Pipettiertechnik passt am besten zur Anwendung?

Q2 EVOLVE epromo von INTEGRA