Editorial

Wie maschinelles Lernen die Life Sciences revolutioniert und
was die KI von den Biowissenschaften lernen kann

Von Carsten Ullrich, Berlin


(14.07.2023) Oberflächlich betrachtet können maschinelle Lernprogramme erstaunlich komplexe Aufgaben lösen, die weit über ihren „Trainingshorizont“ hinausgehen. Das erstaunt selbst KI-Experten, ändert aber nichts an der Tatsache, dass künstliche Intelligenz lediglich elementare Rechenschritte in einem Computer ausführt, deren Bedeutung sie nicht kennt.

Künstliche Intelligenz (KI), genauer gesagt generative KI, ist dabei, unseren Alltag zu verändern. Ein Beispiel dafür ist ChatGPT: Etwa jeder fünfte Deutsche hat die Chat-KI, die auf jede Frage eine Antwort weiß (wenn auch nicht immer eine korrekte), bereits ausprobiert, und acht von zehn Deutschen haben zumindest schon davon gehört [1]. ChatGPT ist eine generative KI: Nach einer Texteingabe, dem Prompt, generiert sie neuen Text – im Gegensatz zu Suchmaschinen wie Google, die existierende Texte suchen und anzeigen, in denen die Eingabe vorkommt.

Doch generative KI beschränkt sich nicht auf das Medium Text. DALL-E2 erzeugt noch nie dagewesene Bilder zu gegebenen Prompts, andere KIs generieren Texte, die ein gegebenes Bild beschreiben. Multimodale generative KI kombiniert beispielsweise Bild und Ton und erzeugt daraus ein Video.

Symbold geöffneter Schädel
Illustrationen: Tim Teebken - Bearbeitung Ulrich Sillmann

Editorial

In den Life Sciences steht die praktische Nutzung von generativer KI noch in den Anfängen. Einige Forschungsfelder, in denen Fortschritte gemacht wurden sind,

  • Vorhersage von Proteineigenschaften: ESM-1 und ESM-2 von Meta sind generative KIs, die auf Millionen von Proteinen trainiert wurden, um zu lernen, wie Aminosäure-Sequenzen die Proteinstruktur und -funktion beeinflussen [2].
  • Erstellung kleiner Moleküle: Die generative Chemie-KI MegaMolBart wird zur Erstellung und Optimierung neuer kleiner Moleküle verwendet, die auf ihre Fähigkeit zur Bindung an andere Moleküle getestet werden [3].
  • Erstellung von Proteinen: ProtGPT2 kann neue Proteinsequenzen erstellen, die bisher nicht dagewesene Formen und Funktionen aufweisen können [4].
  • Molekulares Docking: Mit DiffDock lässt sich vorhersagen, wie ein Molekül an ein Protein binden wird [5].

Das wohl bekannteste Beispiel einer generativen KI in der Medikamentenentwicklung ist AlphaFold2, das die 3D-Struktur eines Proteins basierend auf seiner Aminosäure-Sequenz mit hoher Genauigkeit vorhersagen kann [6]. Bei dem Wettbewerb „Critical Assessment of Techniques for Protein Structure Prediction“ (CASP) im Jahr 2020 erzielte AlphaFold2 Spitzenwerte. Tatsächlich hat AlphaFold2 die Vorhersage von Proteinstrukturen revolutioniert und das Problem praktisch gelöst, was die Entwicklung sicherer und wirksamerer Medikamente vorantreiben wird.

Obwohl generative KIs noch nicht in großem Umfang in der Arzneimittelforschung eingesetzt werden, entwickeln Bioinformatiker die Modelle stetig weiter. Maschinelles Lernen gewinnt kontinuierlich an Bedeutung innerhalb der Medikamentenentwicklung, und immer mehr Projekte setzen auf diese Methoden.

Die Fähigkeiten generativer KI, die weit über die Medikamentenentwicklung hinausgehen, haben sogar Experten überrascht. Was macht diese Systeme so beeindruckend? Bisherige KI-Systeme zeichnen sich durch zwei grundlegende Eigenschaften aus: Zum einen funktioniert künstliche „Intelligenz“ auf grundlegend andere Weise als menschliche Intelligenz. KI wird über Algorithmen realisiert, das heißt, eindeutige Verkettungen von elementaren Operationen, deren Ausführung keinerlei Intelligenz erfordert.

Um das auf die menschliche Perspektive zu übertragen: Wenn ich Ihnen beispielsweise einen verdrehten Zauberwürfel gebe, zusammen mit dem Lösungsalgorithmus (knapp drei DIN-A4-Seiten), könnten Sie den Würfel lösen, indem Sie stupide die dort beschriebenen Drehungen durchführen, ohne zu wissen, was die einzelnen Aktionen bedeuten. Analog dazu löst eine KI – oder genauer, eine Software, die eine KI-Methode implementiert – ein ihr gegebenes Problem: Sie führt stupide elementare Berechnungen durch. Das Ergebnis dieser Berechnungen kann durchaus beeindruckend sein: Die KI besiegt einen Schachgroßmeister, sagt die Faltung eines Proteins voraus oder fasst korrekt einen Text zusammen, der einen komplexen Sachverhalt beschreibt. Aber sie löst das Problem auf andere Art und Weise als ein menschlicher Experte. Dieser hat über lange Zeit Übungsstrategien aufgebaut, ein Verständnis für relevante Konzepte und deren Zusammenhänge entwickelt und nutzt dieses Wissen, möglicherweise gepaart mit einer gut entwickelten Intuition, um zu einer Lösung zu gelangen. Die KI hingegen führt einen Algorithmus aus, der jeglicher Bedeutung enthoben ist. Von außen betrachtet zeigt die KI ein intelligentes Verhalten; schaut man sich jedoch die Art und Weise an, wie die Leistung erbracht wird, verschwindet die Intelligenz. Dies gilt auch heute noch, in Zeiten von ChatGPT.

Die zweite grundlegende Eigenschaft bisheriger KI-Systeme besteht darin, dass sie ein spezifisches Problem lösen können – und nur dieses. Um eine KI zu entwickeln, muss das zu lösende Problem präzise definiert werden: Wie viele Felder hat das Schachbrett, welche Figuren gibt es, wie dürfen diese sich bewegen und welche weiteren Regeln gelten? Es ist auch notwendig, eine Funktion zu definieren, die eine Lösung bewertet und mit anderen Lösungen vergleichbar macht. Im Schach wird beispielsweise das Schachmattsetzen des Gegners höher bewertet als ein Remis. Innerhalb dieses festgelegten Rahmens können Verfahren des maschinellen Lernens angewandt werden, das heißt Algorithmen, die sukzessive Strategien berechnen, die mit steigender Wahrscheinlichkeit zum Sieg führen. In der Regel werden dafür heutzutage neuronale Netze verwendet. Ist eine passende Konfiguration eines neuronalen Netzes erst einmal erlernt, kann es eine übermenschliche Spielstärke zeigen. Dies jedoch nur innerhalb des ursprünglich definierten Problemrahmens. Ändert man eine Regel und spielt beispielsweise Räuberschach, eine Schachvariante, bei der der König wie jede andere Figur geschlagen werden darf, versagt die trainierte KI. Was jedem Menschen leichtfällt, ist der KI unmöglich: Sie kann ihr Wissen nicht auf diese neue Situation übertragen und es selbstständig anpassen. Der menschliche Entwickler muss das neue Problem definieren, einen neuen Trainingsprozess beginnen und damit eine neue KI entwickeln. Jede bisher erstellte KI war in gewisser Weise ein Fachidiot, der nur das spezifische Problem lösen konnte, für das er entwickelt wurde – sei es die Erkennung von defekten Bauteilen, die Übersetzung von Texten oder die Suche nach Tumoren in Lungenaufnahmen.

Überraschenderweise gilt dies jedoch nicht mehr für die heutige generative KI. Die generative KI, die ChatGPT zugrunde liegt (GPT-3 beziehungsweise GPT-4, im Folgenden GPT-X), wurde wie bisherige Systeme für eine spezifische Aufgabe trainiert. Sie zeigt jedoch beeindruckende Leistungen, die deutlich über die Trainingsaufgabe hinausgehen. GPT steht für Generative Pretrained Transformer, eine KI-Methode, die neuronale Netze dazu befähigt, Zusammenhänge zwischen Eingabeelementen (in diesem Fall Wörtern) zu erlernen. Die Aufgabe, für die die GPT-X-Modelle trainiert wurden, bestand darin, vorherzusagen, welches Wort eine gegebene Sequenz von Wörtern vervollständigt. Wenn zum Beispiel, der Satz „Der Redner hält einen ...“ gegeben ist, wäre eine wahrscheinliche Ergänzung das Wort „Vortrag“. Mit geringerer Wahrscheinlichkeit ist aber auch das Wort „schwarzen“ möglich, eventuell gefolgt von „Regenschirm in der Hand“. Für das Training von GPT-3 wurden 570 Gigabyte an Texten (Bücher, Zeitschriften, Webseiten et cetera) verwendet, und jeweils ein Wort in den Sätzen aus diesen Dokumenten, das GPT-X vorhersagen sollte, wurde „verborgen“.

Nach der sehr intensiven Trainingsphase (die Kosten für das Training von GPT-3 werden auf 100 Millionen US-Dollar geschätzt) lösten die Modelle diese Aufgabe hervorragend und generierten für beliebige Textfragmente grammatikalisch korrekte Vervollständigungen. Das Überraschende ist, dass die Vervollständigungen inhaltlich sehr komplexe Aufgaben lösen können. Die Wortfolgen, die ChatGPT produziert, befolgen nicht nur die Grammatikregeln verschiedener Sprachen, sondern beantworten auch die Fragen und Aufgaben, die über die Eingabe gestellt werden.

Demzufolge löst die KI tatsächlich andere Probleme als das spezifische, auf das sie ursprünglich trainiert wurde (nämlich ein passendes nächstes Wort vorzuschlagen). Wenn man beispielsweise die Aufforderung eingibt: „Fasse den folgenden Text zusammen“, produziert ChatGPT eine Zusammenfassung des gegebenen Textes. Ebenso ist ChatGPT in der Lage, Texte kindgerecht zu erklären, aus Stichpunkten vollständige Texte zu generieren, oder im Stil eines Piraten zu schreiben. Die Fähigkeiten der KI erstrecken sich sogar bis in die Arithmetik und Logik, obwohl sie nicht explizit darauf trainiert wurde. Abhängig von der Eingabe kann ChatGPT eine Vielzahl von Aufgaben lösen. Die Qualität der Ausgabe hängt dabei maßgeblich von der Qualität des Prompts ab: Bei Logikrätseln beispielsweise verbessert sich die Leistung erheblich, wenn die Aufforderung „Erkläre die Zwischenschritte“ hinzugefügt wird.

Symbolbild abgehobener  Kopf

ChatGPT zeigt nicht nur allgemeine Problemlösungsfähigkeiten, sondern ermöglicht auch den Zugriff auf Expertenwissen durch geeignete Prompts. Mehrere Studien haben ergeben, dass ChatGPT bei der Diagnose von Krankheiten basierend auf Fallbeschreibungen deutlich besser abschneidet als speziell entwickelte Diagnosesoftware [7, 8, 9]. Während die konventionelle Software in etwa fünfzig Prozent der Fälle korrekte Diagnosen stellte, lag die Genauigkeit von ChatGPT zwischen sechzig und neunzig Prozent. Diese Ergebnisse sind besonders bemerkenswert, wenn man bedenkt, dass hochspezialisierte Diagnosesoftware, die ausschließlich für diesen Zweck entwickelt wurde, schlechter abschnitt als eine KI, die eigentlich für eine ganz andere Aufgabe trainiert wurde.

Einen weiteren Hinweis auf die spezifischen „Fähigkeiten“, die sich in den GPT-X-Modellen finden, gibt eine Studie zur Modellierung digitaler Zwillinge von Bevölkerungsgruppen [10]. Für diese Untersuchung wurden Interviews herangezogen, die nach US-amerikanischen Wahlen durchgeführt wurden. Die Interviews enthielten Fragen zu Bildungsabschlüssen, Einstellungen zur amerikanischen Flagge, politischen Interessen und Ähnliches. Wenn ein Teil eines Interviews vorgegeben wurde, konnte GPT-3 den Text mit hoher Wahrscheinlichkeit entsprechend dem Original vervollständigen und beispielsweise den Kandidaten vorhersagen, den die interviewte Person gewählt hatte. Die Vorhersagekraft ist sehr fein abgestimmt und stellt Beziehungen zwischen verschiedenen gegebenen Aussagen mit hoher Genauigkeit dar. Mit dem richtigen Prompt können also sehr spezifische Verhaltensmuster von Bevölkerungsgruppen, quasi Stereotypen, aus dem Sprachmodell extrahiert werden.

Dass eine einzige KI eine solche Vielfalt sehr unterschiedlicher Aufgaben auf hohem Niveau bewältigt, ist äußerst unerwartet. Dieser Fortschritt hin zu einer General Purpose AI, einer Allzweck-KI, ist eine neue Entwicklung der KI. Die grundlegende Eigenschaft von KI-Systemen bleibt jedoch bestehen: Die Funktionsweise der künstlichen Intelligenz unterscheidet sich fundamental von der menschlichen Intelligenz.

Sprachmodelle wie GPT-X und andere berechnen ein statistisches Modell, das angibt, mit welcher Wahrscheinlichkeit ein bestimmtes Wort auf eine gegebene Sequenz von Wörtern folgt. Sie nutzen keine Semantik und haben demzufolge kein Verständnis im menschlichen Sinne für die Konzepte, die hinter den Wörtern stehen. Die Ebene der Bedeutung, auf der Menschen arbeiten, um logische Schlussfolgerungen zu ziehen oder Texte zu schreiben, fehlt diesen Systemen.

Dies erklärt, warum Sprachmodelle dazu neigen, zu konfabulieren: Bei manchen Eingaben generieren sie Aussagen, die zwar korrekt wirken, aber tatsächlich falsch oder frei erfunden sind. Dieses Verhalten zeigt sich häufig, wenn das System Literaturverweise generiert. Es prüft in seinem statistischen Modell, welche Wörter wahrscheinlich folgen, kann aber nicht beurteilen, ob die daraus resultierende Antwort nicht nur plausibel, sondern auch korrekt ist.

Die „Intelligenz“ verschwindet sozusagen, wenn man die Berechnungen betrachtet, die GPT-X sowohl während des Trainings als auch bei der anschließenden Nutzung durchführt. Ebenso „verschwindet“ der Akteur. Während ein Mensch sich selbstständig seine Ziele und Objekte des Denkens setzt, werden diese für die KI vom Menschen vorgegeben: Sowohl durch den Entwickler des KI-Systems, der den Rahmen des Systems definiert (bei GPT-X handelt es sich um die Verarbeitung von Texten), als auch durch den Nutzer, der innerhalb dieses Rahmens die Lösungsberechnung für seine relevanten Probleme initiieren kann. ChatGPT setzt sich nicht selbst Ziele oder entscheidet gar, dass es sich weiterentwickeln möchte, sondern generiert aufgrund einer Eingabe eine Ausgabe.

Diese Überlegungen bieten auch eine Antwort auf die Frage nach der AGI, der Artificial General Intelligence. AGI ist eine hypothetische Form der KI, die sich in ihrem Verhalten und ihren Fähigkeiten eigenständig Ziele setzt, sich permanent verbessert und letztendlich den Menschen mit ihrer Intelligenz überflügelt – und möglicherweise sogar eine Bedrohung für die menschliche Existenz darstellt.

Nach aktuellem Wissensstand ist es jedoch unklar, wie eine KI von einem Entwickler so definiert werden kann, dass sie die gesamte Außenwelt abbildet – physikalische Eigenschaften, Verhaltensweisen von Menschen und anderen Lebewesen, soziale Strukturen und so weiter – und zudem in der Lage ist, den festgelegten Rahmen zu erweitern. All dies wäre jedoch notwendig für eine AGI. Obwohl ChatGPT erstaunlich gut in der Lage ist, Strukturen der verschriftlichten Welt abzubilden und für die Vervollständigung von Texten zu nutzen – auf einem Niveau, das disruptive Auswirkungen auf die Arbeitswelt hat –, ist dies nur ein Bruchteil dessen, was menschliche Intelligenz ausmacht.

Die Grenzen der künstlichen Intelligenz werden umso deutlicher, je umfassender der Kontext ist, in dem man Intelligenz betrachtet. Das wurde mir als Wissenschaftler und Anwender von KI in den letzten Jahren immer klarer. Künstliche Intelligenz simuliert die Ebene der Kognition oder Informationsverarbeitung: Nach einer Eingabe in einer spezifischen Modalität (Bild, Ton, Text et cetera), quasi einem Sinneseindruck, wird gemäß einem Algorithmus eine Ausgabe in einer ebenso spezifischen Modalität (Bild, Ton, Text, eventuell auch eine Aktion eines Roboters), quasi eine Reaktion, berechnet. Diese Berechnung wird auf einem Computer durchgeführt, der im wahrsten Sinne des Wortes eine Rechenmaschine ist. Ein Algorithmus und eine Rechenmaschine – das ist letztendlich alles, was für KI benötigt wird.

Im Gegensatz dazu ist der Mensch als intelligentes Wesen, analog zu allen anderen Lebewesen, eingebettet in eine Vielzahl von Systemen auf verschiedenen Ebenen, die alle eine Art von Intelligenz im Sinne eines systemerhaltenden Verhaltens zeigen (Talbott, 2023, Kapitel 20).

In größeren Einheiten zum Beispiel:

  • Lebewesen in ihrem sozialen Umfeld: Vom Ameisenvolk, das sich durch das Zusammenspiel der einzelnen Ameisen das Überleben sichert; zum Fischschwarm oder der Bisonherde, die in der Gemeinschaft bessere Überlebenschancen haben als in der Einzelexistenz; bis hin zum Menschen in seiner komplexen Interaktion mit den Mitmenschen.
  • Die Interaktionen verschiedener Spezies, die im Miteinander komplexe Ökosysteme ausbilden und in ihren dynamischen Interaktionen zur Aufrechterhaltung des Gleichgewichts beitragen – und dieses auch durchaus resilient bei Störungen wiederherstellen (beispielsweise die Sukzession, das heißt, der natürliche Wiederaufbau eines Waldes nach einem Brand).

Und auch in kleineren Einheiten:

  • Im Körper das Zusammenwirken der Organe, des Nervensystems und des Blutkreislaufes, die, angepasst an die aktuelle Situation und außerhalb jeder bewussten Kontrolle, das Überleben des Individuums sicherstellen.
  • Dynamiken innerhalb des Organismus: Im einzelnen Organismus gewährleisten komplexe Feedback-Mechanismen zwischen verschiedenen Organen und Systemen, wie das zentrale und periphere Nervensystem und das kardiovaskuläre System, die Aufrechterhaltung wichtiger homöostatischer Prozesse. Dieses unglaublich komplexe Zusammenspiel von Prozessen und Systemen, das weitgehend unterhalb unserer bewussten Wahrnehmung liegt, sichert das Überleben und die Anpassungsfähigkeit des Individuums an wechselnde Umgebungsbedingungen.
  • Interzelluläre Dynamiken innerhalb eines Organismus: Im Zentrum des Lebens eines jeden Organismus stehen die Zellen und deren Fähigkeit, in einem komplexen Netzwerk zusammenzuarbeiten. Diese Zell-zu-Zell-Kommunikation ist von entscheidender Bedeutung für viele lebenserhaltende Prozesse (Zellteilung und Wachstum, Versorgung mit Nährstoffen, Wundheilung). All diese Interaktionen sind entscheidend für die Aufrechterhaltung der Gesundheit und Homöostase auf der Ebene des gesamten Organismus.
  • Intrazelluläre Prozesse: Innerhalb einer einzelnen Zelle finden eine Vielzahl von molekularen Wechselwirkungen statt, die grundlegende Lebensprozesse ermöglichen (die Genregulation, die bestimmt, welche Gene in einer Zelle zu welchem Zeitpunkt und unter welchen Bedingungen aktiviert oder deaktiviert werden, sowie Transkription und Translation als Reaktion auf interne und externe Signale). Dieses fein abgestimmte Zusammenspiel von Genen, Proteinen und anderen Biomolekülen ist das Herzstück des Lebens auf zellulärer Ebene.

Dies deutet auf einen prinzipiellen Unterschied zwischen künstlicher und menschlicher beziehungsweise natürlicher Intelligenz hin: Heutige KI ist reduziert auf die Ebene der Kognition und wird ausgeführt in einer Maschine, die größtenteils separiert ist von der Umwelt (bis auf einen Stromanschluss). Natürliche Intelligenz ist hingegen eingebettet in größere und kleinere Systeme, die alle zielgerichtetes Verhalten zeigen.

Wie leistungsfähig kann künstliche Intelligenz unter dieser Einschränkung überhaupt werden?

Wie auch immer die Antwort lautet, für uns KI-Wissenschaftler rücken die Lebenswissenschaften den Blick auf KI zurecht und zeigen, welchen kleinen Teil der Welt wir heute damit abdecken können.

Referenzen
[1] www.bitkom.org/Presse/Presseinformation/ChatGPT-schon-ausprobiert-Deutschland
[2] Lin Z. et al., Science 379: 1123-30
[3] https://github.com/NVIDIA/MegaMolBART
[4] Ferruz N. et al., 13(1): 4348
[5] Corso G. et al., arXiv. doi:10.48550/ARXIV.2210.01776
[6] Jumper J. et al., Nature 596: 583-9.
[7] Mehnen L. et al., medRxiv doi:10.1101/2023.04.20.23288859
[8] Benoit, J. R. medRxiv doi:10.1101/2023.02.04.23285478
[9] Kanjee Z. et al., JAMA doi:10.1001/jama.2023.8288
[10] Argyle L. P. et al., Political Analysis, 31(3) 337-51
[11] Talbott, S. L., Organisms and Their Evolution (2023). https://bwo.life/bk/index.htm



Portraitfoto Carsten Ullrich
Foto: www.carstenullrich.net

Zur Person

Carsten Ullrich nutzt seit mehr als zwanzig Jahren künstliche Intelligenz in Forschung und Anwendung. Am Deutschen Forschungszentrum für Künstliche Intelligenz entwickelte er Assistenzsysteme für die Industrie. Von 2019 bis 2022 war er im Biotech-Unternehmen CENTOGENE verantwortlich für die KI-Strategie und entwickelte unter anderem eine mit dem Health-i Award für Innovation im digitalen Gesundheitswesen ausgezeichnete KI-basierte Biomarker-Plattform. Heute setzt er bei der macros consulting group KI-Projekte in der Finanzindustrie um.