Kann die Bioforschung Excel wieder nutzen?

1. November 2023 von Laborjournal

Microsoft hat es endlich getan: Seit einigen Wochen kann man in deren Tabellenkalkulationsprogramm Excel Daten eingeben, ohne dass die eingebaute automatische Datenkonvertierung diese notorisch ungewollt verunstaltet – eine Funktion, die  der biomedizinischen Forschung sehr lange durchaus große Schäden zugefügt hat.

Fast schon höhnisch wirkt daher, wie sehr sich Microsoft jetzt für diese „Neuheit“ preist. Auf Microsofts Blog-Seite schreibt etwa die verantwortliche Produktmanagerin namens Chirag Fifadra in dem Beitrag „Control data conversions in Excel for Windows and Mac“:

Ich freue mich, Ihnen mitteilen zu können, dass wir nun aufgrund Ihrer Rückmeldungen die Einstellungen für die automatische Datenkonvertierung verbessert haben. […] Wir wollten die Frustration unserer Kunden über die automatische Konvertierung von Daten in bestimmte Formate durch Excel beseitigen. Daher haben wir Ihnen jetzt die Möglichkeit gegeben, das Standardverhalten von Excel zu ändern und bestimmte Arten der automatischen Datenkonvertierung nach Bedarf zu deaktivieren.

Schön, aber die „Rückmeldungen“ über gewisse „Frustrationen“ mit Excel gibt es inzwischen seit fast zwanzig Jahren – zumindest aus der Life-Science-Forschung. Bereits 2004 erschien in BMC Bioinformatics ein Artikel mit dem Titel „Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics“ (vol. 5, Art. nr.: 80). Darin fassen die Autoren zusammen:

Bei der Verarbeitung von Microarray-Datensätzen stellten wir kürzlich fest, dass einige Gennamen versehentlich in Nicht-Gennamen geändert wurden. Mit etwas Detektivarbeit konnten wir das Problem auf die Standardkonvertierung von Datumsformaten und Fließkommaformaten in dem […] Programmpaket Excel zurückführen. Von den Datumsumwandlungen sind mindestens 30 Gennamen betroffen, von den Fließkomma-Umwandlungen mindestens 2.000 […]. Diese Konvertierungen sind irreversibel; die ursprünglichen Gennamen können nicht wiederhergestellt werden. Für Analysen unter Einbeziehung von Gennamen sollte man sich dieses Problems bewusst sein. Denn immerhin könnten dadurch Gene – auch medizinisch wichtige – aus dem Blickfeld geraten. Ganz abgesehen davon, dass auf diese Weise selbst sorgfältig kuratierte Datenbanken bereits verunreinigt wurden.

Seitdem wartete die Community auf Besserung. Diesen Beitrag weiterlesen »

Engländer kommen billiger in Gen-Datenbank „FlyBase“

27. Juni 2018 von Laborjournal

(Gerade folgender Hinweis in der Redaktion eingegangen:)

„Ich wollte gerade ein Gen in der Drosophila-Datenbank FlyBase nachsehen. […] Hier ein Screenshot von dem, was ich vorfand (für größere Version auf’s Bild klicken):

x

x

Interessant, dass Flybase unterstützt wird:

[…] by a grant from the National Human Genome Research Institute at the U.S. National Institutes of Health U41HG000739.

Und dass die den Support jetzt kürzen!

Noch interessanter aber ist die neue „Preisliste“: Europa gehört zu den „other countries“, wo jede Person 300 US-Dollar pro Jahr für den Zugang zur Datenbank zahlt — Amis und Engländer zahlen dagegen nur die Hälfte.

Hmm?…“

x

Auf Negativ-Suche

8. November 2011 von Laborjournal

Studien, die sagen, dass etwas nicht funktioniert, haben es schwer publiziert zu werden. Obwohl sie durchaus ihren Sinn haben. Zum Beispiel um Dutzende von Forschern vor Irrwegen zu warnen, wenn „Negativresultate“ plötzlich Erkenntnisse widerlegen, die durch Publikation bereits als zementiert gelten. Wir hatten das Themabereitsöfter.

Noch brisanter wird die ganze Angelegenheit, wenn man sich vor Augen hält, dass nur etwa 6 Prozent aller Industrie-gesponsorten klinischen Krebsstudien publiziert werden. Von diesen 6 Prozent berichten wiederum 75 Prozent über positive Ergebnisse. Was muss man daraus folgern? Dass negative Ergebnisse so gut wie nicht veröffentlicht werden.

Eigentlich herrscht unter den Forschern selbst schon lange große Einigkeit, dass solche „Negativergebnisse“ wichtig und unabdingbar für den Prozess des wissenschaftlichen Erkenntnisgewinns sind — und somit mitgeteilt gehören. Wer dabei aber allzuoft nicht mitspielt, sind die Editoren der betreffenden Zeitschriften, die die entsprechenden Manuskripte meist schlichtweg ablehnen. Diesen Beitrag weiterlesen »

Dreckige Genome

18. Februar 2011 von Laborjournal

Der Mensch mischt mit. So wie sie derzeit in den einschlägigen Datenbanken stehen, sind mindestens ein knappes Viertel aller Genomsequenzen von Nicht-Primaten mit menschlichen DNA-Sequenzen durchsetzt.

US-Forscher um Rachel O’Neill von der University of Connecticut nahmen sich sämtliche Genome aus vier Datenbanken vor: den Genome Browsern des Joint Genome Institute, des National Center for Biotechnology Information (GenBank) und der University of California, Santa Cruz, sowie der Datenbank Ensembl des European Bioinformatics Institute (EBI).

All diese Sequenzen screenten sie nach human-spezifischen repetitiven AluY-Elementen. Diese sind zwar keine 300 Basenpaare lang, kommen aber etwa eine Million Mal im Humangenom vor. Das Ergebnis: Von 2.057 untersuchten Genomsequenzen enthielten 454 AluY-Sequenzen — das macht 22,4 Prozent (PLoS ONE 6(2): e16410). Diesen Beitrag weiterlesen »

Vorsicht, Abschreiber und ‚Copy-Paster’…

9. Juli 2010 von Laborjournal

… — die Luft wird dünner. 83 Scientific Publishers, darunter solche „Giganten“ wie Elsevier und Springer, haben sich für die Datenbank CrossCheck eingeschrieben, die es ihnen erlaubt mit einer Software namens iThenticate eingereichte Manuskripte auf Plagiarismus zu durchleuchten.

Doch ist es weniger die Software, die das Ganze zu einem machtvollen Instrument machen könnte, sondern vielmehr die schiere Größe der Datenbank. Denn hier ist ziemlich Unerwartetes geschehen: Alle 83 Verleger mussten zustimmen ihre eigenen Manuskript-Datenbanken mit CrossCheck zu teilen – und sie taten es. Auf diese Weise ist CrossCheck inzwischen auf 25,5 Millionen Volltext-Artikel aus nahezu 50.000 Zeitschriften und Büchern angeschwollen, mit denen die Verlage nun „verdächtige“ Manuskripte relativ bequem abgleichen können.

Und „verdächtige“ Manuskripte scheint es genug zu geben. Testläufe verschiedener Journals brachten einen Anteil von 6 bis 23 % „Verdächtigen“ unter allen eingereichten Manuskripten. Diesen Beitrag weiterlesen »