Editorial

Verkorkste Listen dank EXCEL

(12.9.16) Von der Nebenkosten-Abrechnung der Studi-WG bis hin zu Budgets in Ministerien und Konzernen: Alle möglichen Daten landen erst einmal in einem EXCEL-Spreadsheet. Für wissenschaftliche Zwecke taugt das Universal-Tool aber nur bedingt.
editorial_bild

Genau DA ist der Fehler!
© Fotolia / anyaberkut

Die Microsoft-Tabellenkalkulation spielt Biologen üble Streiche, wie Bioinformatiker um Mark Ziemann kürzlich in "Genome Biology" berichteten (Vol. 17: 177). Vor allem bei langen Listen mit Gen-Namen schlägt regelmäßig der Fehlerteufel zu, erklären die Autoren.

Mehr als 35.000 EXCEL-Sheets aus "Supplementary Files" von einschlägigen Journals der Jahrgänge 2005 bis 2015 haben Ziemann und Kollegen heruntergeladen und nach fehlerhaften Gen-Bezeichnungen durchsucht – und in jedem fünften Paper wurden sie fündig. Der häufigste Grund: EXCEL hatte die Namen mancher Gene, in falsch verstandener Nutzerfreundlichkeit, fehlinterpretiert und in ein Datum konvertiert.

Gene wie MARCH1 oder SEPT2 (beide gibt es wirklich!) zum Beispiel konvertiert das Microsoft-Tool fälschlich zu "2-Sep" oder "1-Mar".

Editorial

EXCEL-Schabernack

Auch mit Identifikationsnummern aus biologischen Datenbanken treibt EXCEL Schabernack: Die ID "2310009E13" versteht der Tabellenknecht als Zahl mit Exponenten und macht daraus "2.31E+13".

Wenn Gen-Namen und IDs in den Rohdaten nicht stimmen, schleichen sich auch Fehler in folgende Auswertungen ein. Und ab einer bestimmten Dateigröße ist es utopisch, jeden einzelnen Eintrag noch einmal sorgfältig mit eigenen Augen zu prüfen.

Aber eigentlich ist das eine Kleinigkeit, oder? So etwas spricht sich herum und in Zukunft ist das Problemchen behoben?

Möchte man meinen.

Allerdings, darauf weisen Ziemann et al. hin, ist genau diese unglückliche Fehlerquelle, die voreingestellte Autokonversion also, schon seit 2004 bekannt. Autoren um Barry Zeeberg hatten bereits damals im Detail beschrieben, wie EXCEL typische Gen-Listen verunstaltet und was man dagegen tun kann (BMC Bioinformatics 5: 80). Trotzdem wurde die Community die fehlerhaften Listen nicht los, die Situation ist heute nicht besser als 2004.

Kein Wunder also, dass viele Profi-Bioinformatiker bei der Erwähnung von "EXCEL" nur noch die Nase rümpfen und sich wünschen, dass Forscher den Umgang mit besser geeigneten Werkzeugen lernen. Skriptbasierte Software wie "R" ist sowieso für wissenschaftliche Zwecke meist die sinnvollere Wahl.

Wirre Bezüge

EXCELs Datums-Hexerei ist dabei nicht das eigentliche Problem, sondern nur ein Symptom für die generelle Intransparenz, die in überbordenden Spreadsheets steckt. Verunstaltete Gen-Namen kann man immerhin im Nachhinein aufspüren und ausbessern – wenn man das Problem denn kennt.

Schwerer wiegt ein anderer Nachteil der Klickerei mit verknüpfbaren Zellchen: Außenstehende, Gutachter zum Beispiel, können nämlich nur schwer nachvollziehen, was genau ein Forscher mit seinem Spreadsheet angestellt hat, und in welcher Reihenfolge. Und wenn gar komplizierte Analysen oder Simulationen in EXCEL laufen, entstehen oft wirre Kreuz-und Querbezüge, die kaum noch durchschaubar sind.

Skript-basierte Tools wie R sind transparenter: Alle Operationen und die Reihenfolge ihrer Ausführung sind sauber aufgelistet. Schon ist man der Reproduzier- und Überprüfbarkeit einen großen Schritt näher.

"Why I still use EXCEL"

Andererseits gibt es auch EXCEL-Verteidiger: Dorothy Bishop zum Beispiel. Die britische Neurowissenschaftlerin erklärt in ihrem Blog, warum sie die Microsoft-Spreadsheets nach wie vor nutzt ("Why I still use EXCEL"). Zur Daten-Eingabe (wohlgemerkt nicht: Analyse), um schnell mal einen Plot zu erstellen, oder einfach um einen großen Datensatz zu sichten, ist die Tabellenkalkulation ja tatsächlich brauchbar.

Bishop hat sich aber auch ein paar Regeln gegeben, um Fehler zu vermeiden. Dazu gehört: Alle "Extras", also auch die verfluchte Autokonversions-Funktion, abschalten (ja, das geht!), manuelle Eingaben doppelt tätigen und die eigentliche Analyse einer anderen, Skript-basierten Software wie R übergeben.

EXCEL wird nicht so schnell aus den Bio-Laboren verschwinden. Bleibt nur zu wünschen, dass sich alle Spreadsheet-Freunde an Bishops umsichtige Vorschläge halten. Sonst wird es ca. 2026 einen dritten Artikel über EXCEL-verkorkste Genbezeichnungen in Bioinformatik-Papern geben – und das wäre dann schon langsam peinlich.

Hans Zauner

 



Letzte Änderungen: 30.09.2016