Editorial

Wie konnte es eigentlich so weit kommen?

Ulrich Dirnagl


Narr

(08.12.2020) COVID? Trump? Nein, diesmal soll es – auch zur vorweihnachtlichen Entspannung – um die Frage gehen, wieso heutzutage wissenschaftliche Karrieren ganz wesentlich vom Journal Impact Factor (JIF) sowie der Einwerbung möglichst vieler Drittmittel abhängen.

Drehen wir das Ganze um: Warum geraten Inhalte, Originalität und Verlässlichkeit von Forschungsergebnissen oft zur Nebensache, wenn sich Kommissionen die Köpfe darüber heiß reden, wen man in die eigenen Reihen aufnehmen will – und wen nicht. Oder wenn darüber debattiert wird, welche Anträge es verdienen, gefördert zu werden. Kurzum, folgen Sie mir auf eine kurze und unvollständige Geschichte der Mechanismen, mit denen man in Academia heute zu etwas kommt. Vielleicht ergeben sich aus dieser historischen Perspektive ja sogar Hinweise, wie wir dem Schlamassel, in dem wir uns befinden, wieder entkommen können. Doch ich eile voraus. Beginnen wir dort, wo alles begann: bei den Gründungsvätern der modernen Wissenschaft.

Die frühen Pioniere modernen wissenschaftlichen Arbeitens wie Galileo, Hooke, Boyle oder Newton waren Gentlemen Scientists. Nicht nur waren diese ausnahmslos Männer, sie waren auch alle finanziell unabhängig – entweder per Geburt oder durch Mäzenatentum. Getrieben von der Neugier, „wie die Welt funktioniert“, war ihr Ziel natürlich nicht nur, Wissen zu produzieren, sondern auch Ruhm und Ehre zu erlangen. Dabei sahen sie den Nutzen des so erworbenen Wissens nicht darin, die Grundlagen für eine rationalere Aneignung der Natur durch den Menschen zu schaffen. Weit gefehlt – diesen allesamt tief religiösen Herren ging es ganz wesentlich darum, das von Gott geschriebene Buch der Natur und damit die Ordnung der Welt zu dechiffrieren – und am Ende dadurch tieferen Glauben und gottesfürchtigeres Verhalten zu befördern. Wissenschaft war Gottesdienst. Daher förderten die Fürsten und Könige damals auch nicht die Wissenschaftler, sondern die Erfinder und Ingenieure, denn nur sie versprachen Hilfe dabei, sich die Welt durch Eroberung und Krieg Untertan zu machen.

Der Umgang, den Newton und Kollegen mit ihrer Konkurrenz pflegten, war allerdings häufig alles andere als Gentleman-like. Schließlich ging es um Primat und Posterität. Ausgangspunkt ihrer Ideen und Hypothesen war das, was die Wissenschaftshistorikerin Lorraine Daston Ground Zero Empiricism nannte. Sie schrieben also auf ein fast leeres Blatt.

Editorial

Editorial

Die Forscher-Community war sehr übersichtlich damals. Vielleicht ein paar Hundert, maximal ein paar Tausend Gleichgesinnter weltweit, lose organisiert in Akademien, in denen man sich gegenseitig Theorien und Experimente vorstellte und kritisierte. Publiziert wurde neben Büchern hauptsächlich in den Annalen der nationalen wissenschaftlichen Akademien. Die Royal Society Englands war dabei führend in Geschwindigkeit und Reichweite: Zweimal im Jahr wurden Exemplare gedruckt, beispielsweise achthundert Stück im Jahr 1829, und an korrespondierende Akademien und ausgewählte Wissenschaftler versandt. Häufig verging dabei nicht mehr als ein halbes Jahr zwischen Vortrag beziehungsweise Einreichung und Veröffentlichung. Konkurriert wurde damals natürlich nicht um Stellen oder Forschungsförderung, sondern um Reputation sowie Zugang zu diesen Akademien und deren internationaler Korrespondenz. Neben der Originalität und Güte der Wissenschaft dürften hier sicher auch damals schon Hierarchien, Beziehungen und Machtspiele wichtig gewesen sein.

Mit dem zunehmenden Verständnis dessen, was die Welt im Innersten zusammenhält, begann man sich aber auch vermehrt für die Nützlichkeit der wissenschaftlichen Erkenntnisse zu interessieren. Als sich bürgerliche Gesellschaften etablierten und die Industrialisierung im 18. und 19. Jahrhundert aufblühte, begannen die Staaten, Wissenschaft systematisch zu organisieren – und diese insbesondere über Universitäten zu fördern. Maxwell, Pasteur, Virchow und Co. waren universitäre Brotwissenschaftler, die staatlich alimentiert forschten. Auch ihnen ging es nicht um Reichtum, sondern immer noch vorrangig um den Fortschritt des Wissens sowie den darüber zu erlangenden Ruhm.

Gleichzeitig spezialisierten sich die Wissenschaften mehr und mehr, Fachjournale kamen auf und wurden neben Vorträgen zum wichtigsten Medium des wissenschaftlichen Diskurses. Noch jedoch kannten sich alle Wissenschaftler eines Gebietes. In Wort und Schrift focht man wissenschaftliche Kontroversen nicht anonym, sondern von Angesicht zu Angesicht aus. Neu war allerdings die akademische Konkurrenz um die Anstellung als Assistent oder die Berufung und Verstetigung als Professor. Wichtig waren dabei vor allem die Reputation unter den Kollegen, aber natürlich auch akademische Hierarchien sowie Zugehörigkeiten zu „wissenschaftlichen Schulen“.

Quantitative bibliometrische Indikatoren oder Drittmittel spielten auf jeden Fall keine Rolle, denn die gab es zu dieser Zeit ja noch nicht. Auch nahm man es damals schon mancherorts nicht so genau mit der guten wissenschaftlichen Praxis, wenn es nur dem akademischen Fortkommen diente. Charles Babbage (der mit der mechanischen Rechenmaschine)beschrieb bereits 1830 in seinen Reflections on the Decline of Science in England, and on Some of Its Causes die wesentlichen auch heute noch praktizierten Spielarten der unsauberen Wissenschaft. Er unterschied dabei Hoaxing (Fabrizieren), Forging (Fälschen), Trimming (selektive Datenanalyse) und Cooking (unsaubere Statistik).

Im frühen zwanzigsten Jahrhundert kamen die Drittmittel dazu. Unmittelbar nach dem verlorenen Ersten Weltkrieg hatten die deutschen Universitäten und Akademien samt der Kaiser-Wilhelm-Gesellschaft (die heutige Max-Planck-Gesellschaft) eine Idee, wie sie ihre durch Krieg und Krise klamme Finanzsituation aufbessern könnten. Sie gründeten die „Notgemeinschaft der deutschen Wissenschaft“ (deren Rechtsnachfolger bekanntlich die Deutsche Forschungsgemeinschaft, die DFG, ist) und konnten so auf Antragsbasis individuelle Wissenschaftler fördern. Allerdings lief dies zunächst ganz anders ab als heute. Heute noch bekannt ist der Antrag von Otto Warburg an die Notgemeinschaft, der lediglich aus den Worten bestand: „Ich benötige 10.000 (zehntausend) Mark – Otto Warburg“. Vermutlich wurde er genehmigt, aber nicht nach Begutachtung. Der Name Warburg war ausreichend.

Ein paar Jahre später wurde dann auch noch das Parteiabzeichen wichtig. In den Zeiten einer „Deutschen Physik“ war Gesinnung und Parteizugehörigkeit natürlich auch für die Einstellung oder Berufung an der Universität ein wesentliches Kriterium. Die Evaluation nach Journal Impact Factor (JIF) und eingeworbenen Drittmitteln war aber immer noch in weiter Ferne!

Erst durch den Zweiten Weltkrieg änderte sich dieses System ganz grundsätzlich, und zwar weltweit. Während des Krieges kam es nämlich zu einer bisher ungekannten Industrialisierung der Forschung, am konsequentesten in den USA. Forschungsprogramme, die die Grundlagen zur Entwicklung von Langstreckenraketen, RADAR, Atombombe, Computern und so weiter lieferten, wurden mit gigantischen Summen ausgestattet und generalstabsmäßig exekutiert. Am Ende des Zweiten Weltkriegs war der Großteil der universitären (Natur-)Wissenschaft im Dienste des Militärs. Nützlichkeit der Forschung, hier zur Sicherung militärischer Überlegenheit, hatte jetzt oberstes Primat. So sehr, dass man sich damals um das Überleben der Blue-Skies-Grundlagenforschung ernsthaft Sorgen machen musste.

Heute noch viel gelesen und zitiert wird aus dieser Zeit etwa Vannevar Bushs Bericht „Science, The Endless Frontier“. Im Auftrag des US-amerikanischen Präsidenten 1945 erstellt, gilt der Bericht auch heute noch als Manifest des staatlichen Auftrages, Forschung auch um ihrer selbst willen zu fördern. Denn schließlich liefere die Grundlagenforschung das Wissen für spätere, noch nicht antizipierbare Anwendungen. Auch schrieb Bush dem Staat ins Stammbuch, für wissenschaftlichen Nachwuchs zu sorgen – und sich inhaltlich bei alledem möglichst rauszuhalten.

Diese Entwicklungen katalysierten einen steil ansteigenden Forschungs-Output – sowohl wegen der immer weiter zunehmenden Spezialisierung der verschiedenen Disziplinen als auch aufgrund der steigenden Staatsausgaben für akademische Forschung. Trotzdem war das alles für die Forscher selbst in ihren Spezialgebieten und sogar darüber hinaus noch immer recht überschaubar. Editoren entschieden auf ihren Schreibtischen über die Publikation von Manuskripten, der Peer Review, wie wir in kennen, war noch nicht geboren. Pro Fach gab es nur einige wenige Journale, publiziert in den jeweiligen Landessprachen. Man tauschte sich immer noch vor allem auf nationaler Ebene aus – und dort wurde auch entschieden, wer „exzellent“ ist und wer nicht.

Irgendwann, so etwa in den Achtzigerjahren des vorigen Jahrhunderts, erreichten die exponentielle Wissensproliferation, die Spezialisierungen, aber auch die schiere Menge von „Wissensproduzenten“ eine kritische Schwelle. Es wurde immer schwieriger, die Qualität und Originalität von Forschern nach Kenntnis der Inhalte zu beurteilen und damit Förder- und Karriereentscheidungen zu treffen. Dazu kam die in den späten Sechzigerjahren weithin einsetzende Auflehnung gegen verstaubte Hierarchien. Der Wunsch nach Objektivierung und Quantifizierung von Leistung, auch in der Forschung, war geboren. Dazu kam, dass sich in der Folge dieser Entwicklungen mittlerweile auch eine Hierarchie der Journale etabliert hatte, die durch Eugene Garfields geniale Erfindung des Impact Factors im Jahr 1955 quantifizierbar wurde – und von ihm (und den Verlagen) folgerichtig auch massiv kommerzialisiert wurde.

Der Rest ist Geschichte. Laut UNESCO forschen allein in Deutschland mittlerweile mehr als 400.000 Vollzeitwissenschaftler, weltweit sind es viele Millionen. Welcome to the Club!

Diese Wissenschaftlermasse publiziert heute jährlich Millionen von Artikeln. Zudem ist innerhalb eines Jahrhunderts die mittlere Anzahl von Autoren von eins auf sechs angestiegen. In diesen hundert Jahren ist aber auch die Produktivität von Wissenschaft, definiert als das Verhältnis von Output an Wissen zu Input in die Wissenschaft, stark zurückgegangen. Wir wissen nämlich schon recht viel, gute Ideen sind rarer geworden, die niedrig hängenden Früchte sind gepflückt, alles wird immer komplexer – Inhalte wie Methoden.

Dass es dennoch weiter vorwärtsgeht, liegt daran, dass die Zahl der Wissenschaftler (Input!) parallel etwa um denselben Faktor zugenommen hat – vermutlich sogar überproportional (Zitate für all dies wie immer unter http://dirnagl.com/lj). Folglich braucht es immer mehr Wissenschaftler, genauso wie immer kompliziertere und teurere Apparate, um der Natur weiterhin ihre Geheimnisse zu entreißen.

Der anschwellende akademische Massenbetrieb der letzten Jahrzehnte bot dabei auch ein ausgezeichnetes Substrat für die vermeintliche Perfektionierung objektiver, einfacher und transparenter Kriterien zur Beurteilung von Forschern und Forschung: JIF, Hirsch-Faktor, Drittmittel,... Wozu etwa Artikel von Bewerbern oder Antragstellern lesen, wenn man weiß, dass deren Impact Factor im Mittel bei 20,162 liegt? Oder eben nur bei 6,531? (Man beachte die beeindruckende Genauigkeit des Indikators: In den meisten Lebensläufen und Anträgen wird er mit drei Nachkommastellen angegeben!)

Dummerweise beruht diese Objektivierung der Güte von individueller Wissenschaft auf falschen Prämissen: Der JIF misst, wenn überhaupt irgendetwas, die Popularität des jeweiligen Journals und Faches. Dazu kommt, dass achtzig Prozent der Arbeiten in Nature und Co. von lediglich zwanzig Prozent der Artikel (inklusive Reviews) erwirtschaftet werden. Die überwiegende Mehrheit der Artikel in diesen gerne auch als „Glam“ Journals bezeichneten Zeitschriften zieht folglich nicht mehr Zitationen als diejenigen, die lediglich in einer allenfalls guten Fachzeitschrift veröffentlicht wurden. Oder auch gar keine.

Noch korrosiver als diese Untauglichkeit der Metriken war allerdings, dass damit zwei lange bekannte Phänomene wirksam werden konnten. Das eine hört auf den Namen Goodharts Gesetz, wurde im Jahr 1975 formuliert und sagt vorher, „dass ein Maß, das zum Ziel wird, aufhört, ein gutes Maß zu sein“. Und genau das ist passiert. Das Schürfen von Impact-Factor-Punkten begann das rein erkenntnisgeleitete Interesse in der Wissenschaft zu korrumpieren. Immer mehr Artikel müssen immer mehr Punkte erzeugen. Forschungsergebnisse, die solche Punkte verheißen, werden priorisiert. Mit allen Konsequenzen – von der geschickten Auswahl und Überinterpretation der Ergebnisse bis hin zum Betrug. Babbage lässt grüßen.

Als zweites Phänomen kommt der Matthäus-Effekt hinzu, den Robert Merton 1968 für die Wissenschaft formulierte. „Wer hat, dem wird gegeben“, so steht es schon in der Bibel. „Drittmittel erzeugen Drittmittel“ bedeutet das für die Wissenschaft. Und der Mainstream feiert fröhliche Urstände. Science-Paper erzeugen Nature-Paper, und umgekehrt.

Natürlich kann das nicht jeder so kriegen, denn die „Währung“, für die die Impact-Punkte den Umtauschkurs festlegen, steuern die Wissenschaftsverlage über Ablehnungsquoten. Das ist ihr Geschäftsmodell. Die über zehntausend Max-Planck-Wissenschaftler, die deutsche Forscherelite also, schaffen es dabei nicht, mehr als 400 Artikel jährlich in Nature und den vielen Nature-Tochterzeitschriften zu platzieren!

Die besondere Attraktivität, aber auch Toxizität dieser Indikatorik besteht in ihrer scheinbaren Plausibilität, Transparenz, Simplizität und Praktikabilität. Und in der Tatsache, dass die offensichtliche Alternative – die Auseinandersetzung mit wissenschaftlichen Inhalten und deren Qualität und Originalität –in Anbetracht des oben geschilderten Dauer-Tsunamis an Artikeln und Wissenschaftlern alternativlos erscheint. Sie hat sich deshalb weltweit durchgesetzt. Mindestens eine Generation von Wissenschaftlern und Administratoren wurde damit bereits sozialisiert – sie können sich andere Mechanismen oft gar nicht mehr vorstellen. Die Beurteilung der Originalität und Qualität von Wissenschaft und deren Produzenten auf Basis von Zitierraten und Reputation von Journalen, wie auch gleichsam nach Akkumulation von Drittmitteln, erscheint ihnen als etwas Natürliches. Und zwar weil all dies, wie oben beschrieben, evolutionär als Antwort auf den Erfolg – man könnte auch sagen, die „Industrialisierung“ – von Wissenschaft entstanden ist.

Es stellt sich also die Frage, ob Wissensproduktion im 21. Jahrhundert, mit ihrer Armada von Wissenschaftlern und der schieren Masse ihrer Outputs, andere Kriterien der „Leistungsbewertung“ braucht? Und wenn ja – ob es denn überhaupt andere Kriterien gäbe, die dann auch noch praktikabel wären? Wer diese Kolumne schon mehrfach gelesen hat, wird ahnen, dass der Wissenschaftsnarr hierzu klare Vorstellungen hat. Die wird er der verehrten Leserschaft dann im nächsten Heft vorstellen!

Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj



Letzte Änderungen: 08.12.2020