Von Maus zu Mensch durch das Tal des Todes

Ulrich Dirnagl


Editorial

Narr

(01.09.2020) Die Translation von Ergebnissen der Grundlagenforschung in die klinische Anwendung klappt nicht besonders gut. Dabei ließen sich einige schwache Glieder der Translationskette sehr leicht ersetzen. Dumm nur, dass die neuen Glieder leider nicht so recht in unser akademisches Karriere- und Fördersystem passen würden.

„Translation“ – von der Maus zum Mensch und zurück. Oh, du Mantra und ewig blaue Blume der Universitätsmedizin! Klar, wo gibt es das schon unter einem Dach: Biomedizinische Grundlagenforschung und klinische Forschung, die dafür nötigen Studienpatienten, einen staatlichen Auftrag inklusive Finanzierung – sowie motiviertes und dafür exzellent ausgebildetes Personal. Zwar ist Translation prinzipiell so alt wie die akademische Medizin, nur wurde der Begriff dafür erst in den Achtzigerjahren des vorigen Jahrhunderts geprägt und ziert seither die Websites und Mission Statements sämtlicher Unikliniken – und zwar weltweit.

Im Blick zurück ist Translation ganz sicher ein Erfolgsmodell – man denke nur an Antibiotika, Epilepsiebehandlung, moderne Tumortherapie, HIV-Therapie. Doch nicht nur ewige Mäkler wie der Wissenschaftsnarr – nein, sogar die DFG und der Wissenschaftsrat beklagen seit geraumer Zeit, dass es nicht mehr so rund läuft mit der Translation. Allerlei poetische Metaphern werden dazu bemüht, wie der „Translational Roadblock“, oder gar das translationale „Tal des Todes“.

Editorial

Auf vielen Feldern der Medizin geht es nämlich trotz massivem internationalen Forschungseinsatz nicht mehr so recht vorwärts. In meinem Fach, der Schlaganfallmedizin, forschen wir etwa seit Jahrzehnten mit Begeisterung an pathophysiologischen Grundlagen, schreiben tolle Paper und werden dadurch mit ein bisschen Glück auch verbeamtet – bei Schlaganfall-Patienten ist von alledem bisher jedoch überhaupt nichts angekommen! Ist der Schlaganfall womöglich eine Ausnahme, und die Schlaganfallforscher vielleicht einfach unfähig? Was ist dann aber mit den Alzheimer-Forschern? Wo bleiben die so lange versprochenen, im Tiermodell so effektiven Stammzelltherapien? Wo die wundersamen Behandlungen, die sich aus der Entschlüsselung des menschlichen Genoms ergeben sollten?

Wer sich noch nicht vollends in den schützenden Kokon der Universitätsmedizin eingesponnen hat und deshalb den eigenen Erfolg ausschließlich an der Höhe der eingeworbenen Drittmittel oder dem Impact Factor von Publikationen misst, kann da schon ins Grübeln kommen. Wie erfolgreich sind wir in der Translation, gemessen an den eingesetzten Ressourcen und unseren eigenen Versprechungen?...

Nicht nur, aber auch wegen solcher Gedanken wird schon länger nach den Ursachen für die enttäuschende Bilanz translationaler Forschung gesucht. Und man ist fündig geworden. Vermeintlich liegt es am „Tal des Todes“, das es lebendig zu durchqueren gilt, sowie am fehlenden Mindset der beteiligten Wissenschaftler und Kliniker – womit deren innere Einstellung gemeint ist.

Aber schon die Metapher vom „Tal des Todes“ führt uns auf die falsche Fährte. Es suggeriert zwei Antipoden: Hier die Grundlagenforschung, dort die klinische Forschung, in beiden läuft es ganz prima – aber die unwirtlichen Bedingungen dazwischen sind das Problem.

Aus diesem Bild leiten sich dann die gängigen Strategien zur Verbesserung der Erfolgsrate des Translationsprozesses ab: Man müsse die Forscher und Kliniker an die Hand nehmen und ihnen erklären, wie sie es richtig machen sollen. Immer schön an die Patienten denken, wenn man Krankheitsmechanismen experimentell untersucht – oder an die Mäuse, wenn man Menschen behandelt. Man müsse also nur für das richtige Mindset sorgen. Und dann seien den so Aufgeklärten nur noch ein paar Infrastrukturen zur Seite zu stellen, die sie dabei unterstützen. So jedenfalls sieht das die DFG in ihren kürzlich veröffentlichten „Empfehlungen zur Förderung translationaler Forschung in der Universitätsmedizin“.

Ich fürchte jedoch, so einfach ist das nicht. Vielmehr noch verpasst man mit diesem Ansatz womöglich gar die wichtigsten Ursachen für die enttäuschende Bilanz von Translation. Und das wäre tragisch, denn einige davon sind eigentlich recht leicht zu beseitigen.

Die vielleicht trivialste Hürde ist natürlich die unglaubliche Komplexität der Biologie. Paradoxerweise entfernt man sich mit zunehmendem Verständnis eines Krankheitsmechanismus oftmals weiter von einer potenziellen Therapie, als ihr näher zu kommen. Eingriffe in Signalweg A, die den erwünschten Effekt haben, führen oft zu schädlichen Effekten im Sig­nalweg B. Was aber hilft gegen solche Komplexität? Natürlich noch mehr Forschung, und zwar meist sehr grundlagenmäßige.

Mit der Komplexität zusammenhängend und ebenso unangenehm ist das Phänomen der „niedrig hängenden Früchte“, die wir schon gepflückt haben. Die wenigen Krankheitsmechanismen, die einfach und nebenwirkungsarm therapierbar sind, haben wir bereits beherrschbar gemacht – beispielsweise mit Penicillin, Insulin, Dopamin, Beta-Blockern, Protonenpumpen-Blockern oder Cyclooxygenase-Hemmern (wenn auch selbst da noch einiges schiefgehen konnte, man denke etwa an Vioxx). Viele Volkskrankheiten können wir schon sehr erfolgreich therapieren. Den Bluthochdruck aber noch besser zu behandeln, oder Epilepsien oder Multiple Sklerose – das ist sehr schwierig. Sehr zum Leidwesen übrigens der Pharmaindustrie, die nicht von Nature-Papern, sondern von profitablen Medikamenten lebt. Nachdem sie die Blockbuster „gepflückt“ hat, und ihr seit geraumer Zeit wenig wirklich Neues einfällt, lebt sie im Wesentlichen von Me-Too-Präparaten – also von vergangenen Erfolgen.

Und dann ist da noch das Problem der niedrigen internen Validität, vor allem in der präklinischen Forschung – oder drücken wir es etwas direkter aus: deren niedrige Qualität. Die Mehrheit aller experimentellen Studien, auf deren Resultaten klinische Entwicklungen ja fundamental aufbauen, kontrollieren nicht für Verzerrungen (Bias) und werden weder randomisiert noch verblindet durchgeführt. Dazu liegen die Gruppengrößen fast immer unter Zehn, was bei der biologisch normalen Varianz der Ergebnisse einem Würfeln gleichkommt. Allerdings mit präpariertem Würfel, denn durch das Fehlen einer Präregistrierung der geplanten Experimente und Analysen hat der Wissenschaftler weitgehende Freiheit in der Auswahl erwünschter beziehungsweise im Weglassen unerwünschter Resultate. Unterstützt wird die selektive Datennutzung dann noch durch fehlerhafte Statistik – insbesondere durch das so beliebte p-Hacking, also die Durchführung statistischer Tests, bis sich ein signifikantes Ergebnis einstellt.

Und steht die Story dann erstmal, heißt die Devise: Take the paper and run! Von der Wiederholung der Ergebnisse (Replikation), vielleicht sogar durch unabhängige Untersucher, nimmt man unter diesen Umständen besser Abstand. Gefördert wird dies ja ohnehin nicht, und karrieremäßig bringt das auch nichts – insbesondere, weil dann die vorher so tolle Story im biologischen Halbschatten womöglich gar nicht mehr so schön eindeutig schwarz-weiß aussieht. Und weil die Null- beziehungsweise negativen Resultate, mit denen also nicht das rauskam, was man sich erhofft hatte, allenfalls in F1000Research oder PLoS One veröffentlicht werden können, kontaminiert man sich mit so was besser nicht den Lebenslauf – und archiviert es auf der eigenen Festplatte.

Wo die interne Validität niedrig ist, muss man sich da aber auch automatisch Sorgen um die externe Validität machen? Leider ja – denn die Mehrzahl der präklinischen Modelle ist nicht nur hinsichtlich ihrer Spezies recht weit von den Patienten mit der untersuchten Erkrankung entfernt.

Hierzu wieder ein Beispiel aus der Schlaganfallforschung: Unsere Mäuse sind genetisch praktisch identisch (Inzucht), überwiegend männlich-juvenil und werden allesamt mit einer Vitamin-geladenen Müslidiät ernährt sowie unter Reinraumbedingungen (SPF) gehalten. Sie hatten also noch nie eine Infektion oder sonstige Erkrankungen und haben damit sogar im Erwachsenenalter unreife, ja neonatale Immunsysteme. Ich erspare mir die Gegenüberstellung dieser Mäuse zu den typischen Schlaganfall-Patienten. Meine einzige Erklärung dafür, warum das seit Jahrzehnten so gemacht wird, obwohl keine der in diesen Modellen so effektiven Therapien auch beim Menschen erfolgreich war? Weil wir uns daran gewöhnt haben, und weil sich damit tolle Publikationen erzielen lassen. Und diese wiederum helfen, Drittmittel zu akquirieren, mit denen man wieder tolle Publikationen schreiben kann.

An dieser Stelle der translationalen Verwertungskette – also der Beschreibung eines neuen Krankheitsmechanismus oder gar einer neuen, im Tierversuch wirksamen Therapie – ist damit das Kind meist schon mitsamt dem Wasser aus dem Bade. Sprich: Eine klinische Entwicklung beginnt, die auf einem unsoliden präklinischen Fundament steht. Wenn es wirklich so wäre, dass man über Tierversuche mit niedriger interner und externer Validität, geringen Fallzahlen trotz hoher Varianz, selektiver Auswahl von Daten und problematischer statistischer Auswertung erfolgreiche Therapien für Patienten begründen könnte – dann bräuchte man doch gar keine Tierversuche!

Aber trotzdem mal angenommen, man habe einen wirklich soliden Kandidaten für eine klinische Überprüfung gefunden – so was gibt’s ja trotz der genannten Widrigkeiten manchmal. Wie sieht es damit aus? Ich überspringe hier ein paar gesetzlich nötige Zwischenschritte, die allesamt auch noch zum Abbruch der translationalen Kette führen können – etwa Pharmakologie/Toxikologie sowie Untersuchung von Absorption, Distribution, Metabolismus und Elimination (ADME) des Medikaments. Wie groß sind dann die Chancen, dass wir in einer randomisierten klinischen Studie eine wirksame Therapie finden werden?

Im Durchschnitt darf sie nicht größer als fünfzig Prozent sein! Denn dies ist aus ethischen Gründen bei klinischen Studien gefordert. Man nennt es Equipoise: Möglicher Nutzen und Risiko müssen für den Patienten vor Studienbeginn im Gleichgewicht stehen. Es darf also nicht von vornherein feststehen, dass die Studienmedikation besser als Placebo wirkt. Ansonsten wäre es ja unethisch, dem Patienten diese vorzuenthalten und stattdessen ein Scheinmedikament zu geben.

Darin liegt letztlich ein weiterer Grund, warum wir gar nicht erwarten dürfen, dass Translation eine hundertprozentige Effektivität haben kann. Klinische Studien müssen scheitern dürfen! Nur müssen sie so angelegt sein – und das gilt genauso für präklinische Experimente –, dass auch ein negatives Resultat verwertbare und relevante Evidenz generiert. Zum Beispiel das Wissen um eine unwirksame Dosis, woraufhin man eine andere probieren kann, oder um eine Nebenwirkung und so weiter. Und genau deshalb müssen die Resultate auch zeitnah publiziert werden.

Womit wir einen weiteren Grund für translationales Versagen haben. Sechzig Prozent aller klinischen Studien der deutschen Universitätsmedizin haben zwei Jahre nach deren Beendigung noch keine Ergebnisse veröffentlicht, bei vierzig Prozent ist das auch noch nach fünf Jahren so. Das ist nicht nur unwissenschaftlich, sondern auch unethisch. Schließlich haben die Patienten an den Studien teilgenommen, weil das hieraus generierte Wissen nachfolgenden Patientengenerationen nützen soll. Sie selbst konnten, wegen Placebo und Equipoise, zwar auf eigenen Nutzen hoffen, durchschnittlich ist die Wahrscheinlichkeit dafür aber selbst bei Erhalt der Studienmedikation nicht größer als bei einem Münzwurf.

Unterstellt habe ich dabei, dass die klinischen Studien robustere Ergebnisse liefern als die präklinischen Studien, auf denen sie häufig beruhen. Dies weil sie durch verschiedene Behörden reguliert und kontrolliert sowie unter dem im Sozialgesetzbuch geforderten klinischen Qualitätsmanagement durchgeführt werden. In den meisten Fällen gilt das wohl auch, dennoch ist ein falsches Studiendesign vermutlich eine häufige Ursache für translationales Scheitern. Auch hier wieder ein typisches Beispiel aus der Schlaganfallforschung: Wenn neuroprotektive Substanzen – also solche, die das Hirn vor weiteren Schäden nach einem Schlaganfall schützen – im Nagetier nur in den ersten Stunden nach Gefäßverschluss wirksam sind, sollte man sich eigentlich nicht wundern, dass sie im Patienten nicht wirken, wenn man ihn erst nach zwölf Stunden therapiert. So geschehen in sehr vielen (erfolglosen) akuten Schlaganfallstudien.

Die translationale Kette kann also an ganz verschiedenen Stellen abreißen, ich habe nur ein paar genannt. Allerdings genügt der Bruch des schwächsten Gliedes in der Kette, um Tausende von Patienten unnötigen Risiken auszusetzen und gigantische Ressourcen zu verschleudern. Schließlich kostet der gesamte Prozess in der Regel Hunderte von Millionen Euro.

Die gute Nachricht jedoch: Translationaler Erfolg muss und kann sich nicht in hundert Prozent der Fälle einstellen. Und zudem: Ein nicht unerheblicher Teil der schwachen Glieder lässt sich relativ einfach ersetzen. Eine Erhöhung interner und externer Validität sowie ausreichende Gruppengrößen und ordentliche Statistik, dazu Präregistrierung der Studien, Publikation von Null-Resultaten wie auch Replikation von wichtigen Befunden – all das würde die Translation schon auf ein solides Fundament stellen. Dazu analog im klinischen Bereich: Sicherstellung, dass robuste präklinische Evidenz vorliegt; ausreichend gepowerte Studien; Studiendesigns, die auch bei Verfehlung des erhofften Ergebnisses informativ sind; und nicht zuletzt zeitnahe Veröffentlichung der Ergebnisse. Wenn wir dies erreicht haben, können wir uns auch um das „translationale Mindset“ der Beteiligten kümmern.

Doch jetzt die schlechte Nachricht: Von alledem steht nichts in den Empfehlungen der DFG. Ich fürchte, das liegt daran, dass viele der genannten Maßnahmen nicht so recht in unser akademisches Karriere- und Fördersystem passen. Nach einer Verbesserung des Erfolges von Translation zu streben, hieße nämlich auch: Die Maßstäbe zu ändern, von denen das berufliche Fortkommen in der universitären Medizin abhängt!

Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj



Letzte Änderungen: 01.09.2020