Berechenbares Zitationspotenzial

6. April 2010 von Laborjournal

Wir wissen, wie das Publikationsgeschäft normalerweise läuft: Der Editor einer Zeitschrift erhält eine bestimmte Anzahl Manuskripte für die nächste Ausgabe, er lässt sie von Peer Reviewern begutachten und entscheidet schließlich anhand deren Gutachten, welche davon am Ende tatsächlich gedruckt werden. Die übrigen schickt er als „abgelehnt“ zurück zu den Autoren.

Das könnte allerdings bald auch anders laufen. Ein aktuelles Paper in Bioinformatics (Vol. 25(24): 3303-9) gibt Anlass zu folgendem befremdlichen Szenario: Der Editor einer Zeitschrift erhält eine bestimmte Anzahl Manuskripte für die nächste Ausgabe und lässt sie nur noch grob vor-begutachten; danach schickt er sie alle durch ein bestimmtes Software-Paket, das ihm mit über 90-prozentiger Zuverlässigkeit berechnet, wie oft jeder einzelne Artikel in den folgenden vier Jahren zitiert wird. Und am Ende erscheinen in dem Journal knallhart von oben herab die potenziell meistzitierten Artikel.

Wie das tatsächlich funktionieren könnte, beschreibt bereits das Abstract:

Motivation: Nowadays, publishers of scientific journals face the tough task of selecting high quality articles that will attract as many readers as possible from a pool of articles. This is due to the growth of scientific output and literature. The possibility of a journal having a tool capable of predicting the citation count of an article within the first few years after publication would pave the way for new assessment systems.
Results: This paper presents a new approach based on building several prediction models for the Bioinformatics journal. These models predict the citation count of an article within four years after publication (global models). To build these models, tokens found in the abstracts of Bioinformatics papers have been used as predictive features, along with other features like the journal sections and two-week post publication periods. To improve the accuracy of the global models, specific models have been built for each Bioinformatics journal section (Data and Text Mining, Databases and Ontologies, Gene Expression, Genetics and Population Analysis, Genome Analysis, Phylogenetics, Sequence Analysis, Structural Bioinformatics and Systems Biology). In these new models, the average success rate for predictions using the naive Bayes and logistic regression supervised classification methods was 89.4% and 91.5%, respectively, within the nine sections and for four-year time horizon.

Allein welche Schlagwörter in den Abstracts stehen, reicht demnach als Basis, um mit 90-prozentiger Genauigkeit die zukünftigen Zitierzahlen vorherzusagen. Wie gesagt, irgendwie befremdlich.

Schlagworte: , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Captcha loading...