Editorial

Glücksfall oder Büchse der Pandora?
Wissenschaftliches Publizieren MIT künstlicher intelligenz

Henrik Müller


(09.03.2023) Ohne Zweifel krempelt ChatGPT den Wissenschaftsbetrieb um. Schon jetzt unterstützt es Forschungstreibende beim Schreiben von Peer-Review-Publikationen – doch nimmt es dabei mit der Wahrheit nicht so genau. Laborjournal fragte Computer-, Neuro- und Kommunikationswissenschaftler nach ihren Prognosen, wie ChatGPT Wissenschaft und Forschungprägen wird.

Symbolbild Mensch und Künstliche Intelligenz
Illustr.: Gerd Altmann/Pixabay (Ausschnitt)

Das künstliche, neuronale Netzwerk ChatGPT der kalifornischen Non-Profit-Organisation OpenAI schreckt Forscher und Wissenschaftlerinnen weltweit auf. Über kurz oder lang wird auch Ihr Wissenschaftsalltag, liebe Leserinnen und Leser, mit ihm oder seinen Geschwistern in Berührung kommen – und ihn letztendlich auf den Kopf stellen. Warum?

Ein kurzer Blick unter die Motorhaube solcher „künstlichen Intelligenzen“ (KI) offenbart: Ihr Kern besteht aus einem speziellen Typ neuronaler Netzwerke – sogenannten Transformern –, deren hierarchisch gegliederte Neuronenschichten wichtige Datenmerkmale anhand eines Aufmerksamkeitsmechanismus aus Terabytes an Rohdaten extrahieren. Revolutionär daran ist, dass sie den Kontext einzelner Sinneinheiten erlernen, was ihnen scheinbar ein Verständnis natürlicher Sprache ermöglicht. Generative Pre-trained Transformer (GPT) wie ChatGPT lernen also, Sprache nicht nur Wort für Wort zu übersetzen, sondern auch zu generalisieren und damit Text zu verarbeiten und selbst zu schreiben. Wie derartige Sprachmodelle gegenwärtig auch die Strukturbiologie revolutionieren, erklärt Birte Höcker von der Uni Bayreuth im April letzten Jahres auf Laborjournal online (siehe „Excuse me, do you speak Protein?“ Link).

Längst hat die Tech-Industrie natürlich das Potenzial von Sprachmodellen erkannt. So sollen OpenAIs Produkte bereits im Frühjahr 2023 in Microsofts Suchmaschine Bing eingebaut sein. Alphabet erweitert seine Suchmaschine Google dagegen um ein eigenes Neuronennetz namens Bard, das – im Gegensatz zu ChatGPT – auch auf aktuelle Informationen zugreift. Facebooks Mutterkonzern Meta arbeitet seinerseits an einem mit Forschungsliteratur trainierten Maschinennetzwerk namens Galactica und einem kollaborativen Schreibbot namens PEER. Die neuronale Netzwerkplattform Elicit des Non-Profit-Forschungslabors Ought verschafft Wissenschaftlern auf Nachfrage schon jetzt einen Literaturüberblick. Das Gleiche schafft BioGPT, das Microsoft auf Basis von Millionen PubMed-Abstracts der biomedizinischen Gemeinschaft zur Verfügung stellt.

Vermeintliche Expertise

Warum – abgesehen von Suchmaschinen und Literaturrecherche – tangiert Sie das aber in Ihrem Wissenschaftsalltag? Weil ChatGPTs Texte so hochwertig sind, dass wissenschaftliche Sachverständige sie nur teilweise entlarven: Mediziner der Northwestern University in Chicago ließen ChatGPT 50 biomedizinische Abstracts schreiben und diese anschließend von Plagiats- und KI-Detektionssoftware sowie von menschlichen Fachleuten validieren. Softwaretools fanden in keinem der Abstracts Plagiate. Auch der KI-Detektor identifizierte nur zwei Drittel aller Abstracts als computergeneriert. Erstaunlich war aber: Auch menschliche Gutachter demaskierten in einer Mischung echter und künstlicher Abstracts nur zwei Drittel von ChatGPTs Texten. Sie erachteten 32 Prozent aller Fake-Zusammenfassungen als wissenschaftlich authentisch (bioRxiv. doi.org/grmz3m). ChatGPT kann Forschungsexpertise also vortäuschen, indem es nicht nur die wissenschaftliche Diktion nachahmt, sondern auch inhaltlich überzeugt – selbst Fachleute. Nur Gedankenspiele, meinen Sie? Ganz und gar nicht. Obwohl erst im November 2022 veröffentlicht, findet sich ChatGPT bereits als Ko-Autor seriöser PrePrints und Peer-Review-Publikationen (zum Beispiel: medRxiv. doi.org/jv2v; Nurse Educ Pract. doi.org/grqpbx; Oncoscience. doi.org/grjzk9). Einer der leistungsstärksten Generative Pre-trained Transformer GPT-3, auf dem auch die Chat-Anwendung ChatGPT beruht, schrieb ein Manuskript binnen zwei Stunden sogar allein (HAL. Id: hal-03701250). Zwar erweitert sein Artikel den Forschungshorizont nur geringfügig, wenn überhaupt, demonstriert aber zukünftige Möglichkeiten.

KI-Roboter bei verschiedenen Forschungsaufgaben
Illustr.: DALL-E 2

Unseriösen Akteuren bieten GPTs eine Spielwiese an Gelegenheiten. Denn Personen ohne Fachkenntnis können plötzlich wissenschaftliche Manuskripte verfassen. Zwar war es Papiermühlen und Raubverlagen auch bisher möglich, Texte und Daten zu fabrizieren – doch niemals so schnell wie heute. Ein paar einfache Vorgaben reichen aus und die Unendlichkeit der Textgenerierung steht zur Verfügung. Auf der anderen Seite sind klassische Ghostwriter und Anbieter von Software zur Plagiatserkennung wohl bald arbeitslos.

Fordern oder verbieten

Für Fachmanuskripte und Projektanträge hat das natürlich Konsequenzen: Einerseits werden Wissenschaftsverlage und Projektförderer entweder eine Offenlegung verwendeter Sprachmodelle fordern oder deren Verwendung verbieten. Andererseits werden Wissenschaftsinstitutionen alle Einreichungen in Zukunft neben menschlichen Gutachtern höchstwahrscheinlich auch von GPTs bewerten lassen. So fügte beispielsweise der Wissenschaftsverlag Springer-Nature seinen Autorenrichtlinien Ende Januar 2023 bereits zwei Paragraphen hinzu: Zum einen verbietet der Verlag Sprachmodelle als Autoren. Zum anderen müssen menschliche Autoren jedwede Verwendung von Sprachmodellen im Abschnitt Material und Methoden beschreiben oder im Abschnitt Acknowledgements dokumentieren. Auch Science-Journale und die PrePrint-Server aRxiv, bioRxiv und medRxiv aktualisierten ihre Richtlinien bereits um entsprechende Abschnitte. Sie weisen explizit darauf hin, dass alle Autoren persönlich die Verantwortung für jegliche Manuskriptinhalte inklusive aller Fehler, irreführender Aussagen und Plagiate übernehmen – auch wenn sie von GPTs stammen. Schließlich können Sprachmodelle nicht für die wissenschaftliche Integrität eines Manuskripts haften. Sie können Nutzungsbedingungen weder zustimmen noch ablehnen und auch nicht selbst entscheiden, ob sie Ko-Autor sein wollen.

Porträts der verschiedenen Gesprächspartner
Fotos (v.l.n.r.): Abigail Morrison, Simon Eickhoff, Michael Heinzinger, Konstantin Weißenow - Fotos (v.l.n.r.): FZJ, FZJ, privat, privat

Unbegründet sind diese Vorbehalte gegenüber Sprachmodellen nicht. So erklärt Simon Eickhoff, der als Professor für Kognitive Neurowissenschaften in Düsseldorf die Organisationsprinzipien des menschlichen Gehirns mithilfe maschineller Lernalgorithmen erforscht: „ChatGPT zeigt eine klare Tendenz zum ‚Halluzinieren‘. Es erfindet auf den ersten Blick glaubwürdige Referenzen und Zitate, stellt falsche Informationen bereit und vermischt Dinge – alles aber in gut formulierter Sprache und in einem insgesamt korrekten Kontext.“ Zusätzlich stolpert es bei Rechenaufgaben, bei arithmetischen Umrechnungen und sobald es logische Schlüsse ziehen soll.

Einen detaillierten Blick auf GPT3s Kompetenzen warfen Eric Schulz und Marcel Binz vom Tübinger MPI für biologische Kybernetik. Anhand von Experimenten aus der kognitiven Psychologie überprüften sie seine Fähigkeiten, Probleme zu lösen und moralisch zu urteilen. Ihr Fazit: Während das Sprachmodell rationale Entscheidungen ebenso gut trifft wie Menschen, versagt es kläglich beim kausalen Schlussfolgern und Reflektieren – eben jenen Qualitäten, die gute Wissenschaft ausmachen. Vermutlich wird erst eine „aktive Interaktion mit der Welt wesentlich dafür sein, die volle Komplexität menschlicher Kognition zu erreichen“, so die Studienautoren (PNAS. doi.org/grq2s5).

Entsprechend räumen auch Entwicklerfirmen wie OpenAI und Alphabet auf ihren Websites noch „plausibel klingende, aber falsche oder unsinnige Antworten“ ihrer Chat-Bots mit Warnmeldungen ein. Da ihre Maschinenprodukte einzig darauf trainiert sind, grammatikalisch korrekte Textausgaben anhand der statistischen Beziehungen zwischen Wörtern zu generieren, kennen sie die Bedeutung und den Wahrheitsgehalt ihrer Antworten schließlich nicht. Es mangelt ihnen an echtem Urteilsvermögen.

Die Entwicklerfirmen haben natürlich auch diese Problematik längst erkannt. Bereits jetzt stehen fortgeschrittene Sprachmodelle wie DeepMinds Retro, Writesonics Chatsonic und OpenAIs WebGPT in den Startlöchern, ihre Antworten über Datenbank-Recherchen zu überprüfen. DeepMind hat mit AlphaTensor sogar ein KI-System trainiert, das neuartige Algorithmen zur Lösung komplexer mathematischer Aufgaben finden soll. Für Matrixmultiplikationen war es bereits erfolgreich (Nature. doi.org/gqxw7g).

Mehr Fragen als Antworten

In der akademischen Kommunikation sind menschliche Anwender hingegen noch selbst in der Pflicht. Noch müssen sie künstliche Texte auf Wahrheitsgehalt, Genauigkeit, Plausibilität und Relevanz durchleuchten. Für eine fachfremde Leserschaft und bei wissenschaftlichen Aufsätzen bleibt das natürlich mühsam – vor allem wenn Texte formale Ansprüche erfüllen und von Stil und Sprache her überzeugen. Darin sieht Christophe Trefois, Leiter des Support-Teams „Verantwortungsvolle und Reproduzierbare Forschung“ am Luxembourg Centre for Systems Biomedicine der Universität Luxemburg, die eigentliche Herausforderung: „ChatGPT ist intrinsisch voreingenommen, da es nur die Vorurteile seiner Trainingsdaten widerspiegelt. Wenn es dabei so überzeugend und menschlich klingt, wie kann man Fehler oder Ungewissheit erkennen? Können wir einer KI jemals blind vertrauen?“ Burkhard Rost, Lehrstuhlinhaber für Bioinformatik an der Technischen Universität München, gibt zu bedenken: „Natürlich lassen sich Trainingsdatensätze modifizieren. Doch wer entscheidet über diese Zensur? Wer darf den moralischen Zeigefinger erheben und festlegen, welche Vorurteile Sprachmodelle integrieren dürfen und welche nicht?“ Rosts Doktorand Konstantin Weißenow bringt es auf den Punkt: „Gegenwärtig entscheiden Tech-Unternehmen, was zensiert wird, und geben damit gesellschaftspolitische Richtungen vor.“

Porträts der verschiedenen Gesprächspartner
Fotos (v.l.n.r.): Burkhard Rost, Christophe Trefois, Iva Pritišanac, Martin Etzrodt - Fotos (v.l.n.r.): TUM, privat, privat, privat

Ebenso ungeklärt sind Fragen des Datenschutzes. Welche Rechte tritt jemand, der Sprachmodelle als Forschungstool nutzt, gegenüber Entwicklerfirmen ab? Dürfen Letztere sämtliche Inhalte sichten und kommerziell verwerten? Wer beispielsweise die Website von Metas – mittlerweile deaktiviertem – Galactica besuchte, erklärte sich automatisch mit dessen Nutzungsbedingungen einverstanden – die den eigenen Arbeitgeber gegenüber Meta haftbar machten. Auch trug jeder selbst die Verantwortung dafür, nicht persönlich identifizierbar zu werden und gleichzeitig seine Urheberschaft an generierten Texten zu beanspruchen. Doch wie kann Urheberschaft gewahrt werden, ohne persönliche Daten preiszugeben?

Doppelmoral?

Kurzum: Gegenwärtig existieren mehr Fragen als Antworten. Was bedeuten diese Unsicherheiten für die Zukunft der wissenschaftlichen Landschaft? Keiner der von Laborjournal befragten Fachleute wagte eine detaillierte Prognose. Einzig die Chefredaktionen großer Wissenschaftsverlage sehen die Dinge klar: Derartige „software that works in a fundamentally opaque manner” bedrohe die „ transparency and trust-worthiness that the process of generating knowledge relies on“ (Nature. doi.org/grpm2s). Die Herausgeber drohen Autoren und Autorinnen: „Text generated by ChatGPT (or any other AI tools) cannot be used in the work, nor can figures, images, or graphics be the products of such tools. […] A violation of these policies will constitute scientific misconduct no different from altered images or plagiarism of existing works.” (Science. doi.org/grqcfd). Deutlicher könnten Wissenschaftsverlage ihre Abneigung gegenüber ChatGPT und seinen Geschwistern nicht ausdrücken.

Dabei setzen Verlagshäuser schon längst KI-Werkzeuge ein: Sie prozessieren Manuskripte auf Online-Plattformen wie Aries Editorial Manager (Elsevier, PLOS, Springer, Taylor & Francis, Wiley) und Clarivate Analytics ScholarOne (Nature Publishing Group, SAGE, Taylor & Francis) und überprüfen Manuskripte dort in einem Prä-Peer-Review-Screening mithilfe maschineller Sprachverarbeitung auf Formatierung, Vollständigkeit und Lesbarkeit. Dank Text-Mining-Software können sie selbst Worthäufigkeiten, Satzlängen und die Komplexität des Vokabulars analysieren. Springer-Nature verwendet darüber hinaus ein Werkzeug namens StatReviewer, das Manuskripte auf Probengrößen, Verblindung und erfundene Datenpakete überprüft sowie eine erreichte Gesamtpunktzahl und einen Peer-Review-ähnlichen Report erstellt. Die Herausgeber Elsevier und Frontiers haben mit Expert Lookup beziehungsweise mit dem Artificial Intelligence Review Assistant (AIRA) ähnliche Werkzeuge im Programm. Wissenschaftsverlage nutzen maschinelle Lernalgorithmen also zur Manuskriptbegutachtung (siehe dazu auch „Künstlich-intelligente Wissenschaftsbegutachtung“ in LJ 6/21), doch sobald sich Autoren und Autorinnen von diesen bei der Manuskripterstellung unterstützen lassen, droht ihnen der Verdacht wissenschaftlichen Fehlverhaltens.

Konsequenzen für wen?

Ist durch ChatGPT & Co. tatsächlich unsere wissenschaftliche Integrität mehr als bisher bedroht? Ein striktes Peer-Review durch Fachkollegen ist es, was die wissenschaftliche Qualität in den Biowissenschaften gewährleistet. Es allein stellt sicher, dass alles, was publiziert wird, einen Mindeststandard erfüllt. Gleichzeitig erscheinen jedes Jahr drei Millionen Artikel in 40.000 Peer-Review-Journalen. Laut einer Publons-Umfrage im Jahr 2018 macht das gegenwärtig 13,7 Millionen Gutachten pro Jahr nötig. Doch die Anzahl an Manuskripten und Zeitschriften wächst der International Association of Scientific, Technical, and Medical Publishers zufolge um jährlich vier beziehungsweise fünf Prozent. Die Folge: Immer mehr Gutachten sind nötig, die Müdigkeit unentgeltlich arbeitender Gutachter nimmt weiter zu, die Peer-Review-Qualität leidet. Die Krux an allem und gleichzeitiger Vorteil für Verlagshäuser: Die Qualität der Peer-Review-Gutachten bleibt meist im Verborgenen. Denn Marktführer wie Elsevier und Wiley bieten offenes Peer-Review nur für 1,1 beziehungsweise 6,5 Prozent ihrer mehreren Tausend Journale an (Scientometrics. doi.org/jwbr).

Offenkundig wird das Skalierungsproblem nur, wenn wissenschaftlicher Unsinn die Schranken des Peer-Review überwindet. Bereits heute decken Websites wie Retraction Watch eine Fülle an gefälschten, plagiierten und schlichtweg falschen Forschungsstudien auf. Bereits heute enden zehn von zehntausend Veröffentlichungen in den Gesundheits- und Lebenswissenschaften als Retraktion – Tendenz steigend. All das werden GPTs multiplizieren, sagt Konstantin Weißenow voraus: „Sprachmodelle heizen das ohnehin wettbewerbsintensive akademische Umfeld weiter an, indem sie wissenschaftlich anmutende Texte mit glaubhaften Daten in so großer Zahl erzeugen, die selbst Fachexperten nicht mehr entlarven können und Journale überfordern“.

Als Folge führt ChatGPTs Leichtigkeit, mehr Schein als Sein zu produzieren, Wissenschaftsverlage vor. Es zeigt auf, dass unser Prozedere, zwischen seriöser Wissenschaft und Scharlatanerie zu diskriminieren, nicht länger funktioniert. Auf dem Spiel steht daher nur eines – unser verstaubtes Peer-Review-System als eigentlicher Sinn von Fachzeitschriften und damit die Existenzberechtigung kommerzieller Wissenschaftsverlage mit ihren Umsatzrenditen von mehreren Milliarden Euro pro Jahr. Entweder befreien sie ihre Peer-Review-Verfahren endlich von Interessenkonflikten, vergüten Forschungstreibende für deren Gutachter-Tätigkeit und basieren das wissenschaftliche Anreizsystem nicht länger auf Impact-Faktoren. Oder sie lassen das Peer-Review-System weiter verfallen. Für welchen Weg entscheiden sie sich, indem sie Sprachmodelle verteufeln?

Befähigung ja, Verbote nein

Sollten Forschungstreibende ChatGPT also vielleicht nicht als Bedrohung, sondern als Unterstützung betrachten? Abigail Morrison, Leiterin des Simulationslabors Neurowissenschaften am Supercomputing Centre des Forschungszentrums Jülich, sieht das so: „Erstens können Sprachmodelle uninteressante und anspruchslose Schreibaufgaben beschleunigen, also Konzepte in Artikeln und Förderanträgen erläutern, frühere Arbeiten und ihre Grenzen erörtern sowie Abstracts erstellen – alles natürlich unter Aufsicht menschlicher Experten, die ihrerseits dann Wissenslücken aufzeigen und Forschungsideen entwickeln. Zweitens erlauben es Sprachmodelle, sich schnell einen Überblick über andere Wissenschaftsgebiete zu erarbeiten, und sogar Folgefragen zu stellen, anstatt nur passiv Informationen aufzusaugen. Bald werden wir interaktive Übersichtsartikel auf Abruf für jedes Thema haben.“

Folglich hat generative Texttechnologie das Potenzial, die Wissenschaften zu demokratisieren. Enkelejda Kasneci, Lehrstuhlinhaberin für Human-Centered Technologies for Learning an der TU München, argumentiert, dass ChatGPT und ähnliche Programme zu mehr Bildungsgerechtigkeit führen (EdArXiv. doi.org/grq6mj). Gleichzeitig weist Iva Pritišanac, Assistenzprofessorin für computergestützte Strukturbiologie an der Medizinischen Universität Graz, darauf hin: „Diese Werkzeuge bieten Abkürzungen an, um bestimmte Aufgaben zu beschleunigen oder ganz zu eliminieren. Allerdings warne ich davor, ‘jedes Problem‘ mit ihnen und ihren Abkürzungen lösen zu wollen. Es gibt immer noch keinen Ersatz für richtiges Denken und die Mühe, die man sich mit dem Erwerb von Fachwissen macht.“

Auch der Münchner Bioinformatiker Burkhard Rost ist optimistisch: „Sprachmodelle können Nicht-Muttersprachlern kooperativ helfen, Fachartikel und Förderanträge zu formulieren.“ Außerdem stellen sie Nachwuchswissenschaftlern, Forschenden in Schwellenländern und Studierenden, denen finanzielle Ressourcen fehlen, künstliche Forschungsassistenten zur Verfügung, die Computercode erzeugen, experimentelle Protokolle überprüfen, Publikationen zusammenfassen, eigene Kritzeleien, Gedanken und Ideen organisieren und Feedback geben. Rosts Postdoktorand Michael Heinzinger geht noch weiter: „Generierten solche Systeme in Rücksprache mit menschlichen Experten nicht nur Forschungsideen, sondern gingen ihnen gekoppelt an einen Pipettierroboter sogar aktiv nach und stellten ihre Forschungsergebnisse direkt online, könnten wir die Geschwindigkeit unseres wissenschaftlichen Fortschritts unglaublich erhöhen. Das wäre transformativ!“

Martin Etzrodt, der bei der Akasha Foundation dezentrale Infrastrukturen der Wissenschaftskommunikation erforscht, spricht in dem Zusammenhang von Nanopublikationen: „Zusammen mit offenen globalen Wissenschaftsdatenbanken wie OpenAlex oder dem Open Research Knowledge Graph der Technischen Informationsbibliothek (TIB) der Leibniz-Gemeinschaft würden sie die freie Auffindbarkeit wissenschaftlicher Literatur verbessern.“ Könnten traditionelle Peer-Review-Verfahren und ihre Mittelsmänner dann noch mithalten?

Exponentielles Wachstum

Denn ob es gefällt oder nicht: Große Sprachmodelle entwickeln sich rasant weiter. Ihre Leistungsstärke korreliert mit der Anzahl ihrer Parameter, die während des Netzwerktrainings optimiert werden. Programmierte OpenAI im Jahr 2019 GPT-2 noch mit 1,5 Milliarden Parametern, verfügte GPT-3 bereits über 175 Milliarden Variablen. Googles Switch Transformer und die Sprach-KI Wu Dao der Pekinger Akademie für künstliche Intelligenz warten bereits mit 1.600 und 1.750 Milliarden Parametern auf. Sprachmodelle wachsen also exponentiell – und damit ihre Leistungsfähigkeit. Es wäre weise, sich darauf vorzubereiten.