Editorial

Präklinische Wirksamkeit? Wen schert’s!

Von Daniel Strech, Berlin


Essays

(03.07.2018) Als Professor für Medizinethik durfte Daniel Strech mit seinen Kollegen kürzlich einen Blick in die Antragsdokumente für frühe klinische Forschung werfen – und stellte dabei Erstaunliches fest: Sicherheit und Wirksamkeit scheinen niemanden zu kümmern.

Stellen Sie sich vor, nach zehn Jahren nervenaufreibender Zeit-, Personal- und Kosten-intensiver Laborforschung (in vitro, in silico und in vivo) zur Wirksamkeit und Sicherheit einer neuen therapeutischen Intervention interessiert sich im Vorfeld der ersten Testung am Menschen offenbar niemand dafür. Jedenfalls nicht für die Wirksamkeit. Kann das sein? Vielleicht nicht immer und nicht genau so. Aber erstaunlich ist schon, was wir jüngst festgestellt haben, als wir einen Blick in die Antragsdokumente für frühe klinische Forschung zu neuen Arzneimitteln werfen durften.

Doch zunächst einige Schritte zurück. Ein Großteil der Laborforschung wird durchgeführt, um besser begründen zu können, dass bestimmte neue therapeutische Ansätze wirksam und sicher sein können. Mit „besser begründen“ kann keine perfekte Begründung gemeint sein. Es geht um eine „ausreichende“ oder „bestmögliche“ Begründung.

Im Grunde ist die Frage danach, wann die präklinische Laborforschung ausreichend für die Begründung klinischer Testungen ist, der Dreh- und Angelpunkt translationaler Forschung. Diese Klärungsprozesse sind eine Wissenschaft an sich; eine extrem komplexe, aber dadurch auch extrem spannende, faszinierende Aufgabe. Die Klärung muss unweigerlich stark auf den Einzelfall bezogen sein [1]. Man muss sich mit den Spezifika der chemischen Verbindung auskennen, den relevanten Targets und Biomarkern, den Tiermodellen, der Pharmakokinetik, Toxikologie, Pharmakodynamik und vielem mehr. Aber die Frage, ob und wann genau die Laborforschung ausreichend ist, kann man mit diesem biologischen Spezialwissen allein nicht beantworten.

Es geht ergänzend um die Frage, ob und wann genau der aus der Laborforschung zur Verfügung stehende Body of Evidence eine ausreichend gute Prädiktion erlaubt für die Wirksamkeit und Sicherheit in der Anwendung beim Menschen. Diese Prädiktion auf der Basis präklinischer Forschung ist niemals perfekt – sonst benötigt man keine klinische Forschung mehr. Sie ist sogar meist stark eingeschränkt, weil Tiermodelle nur begrenzt prädiktiv sind. Aber Prädiktion muss in irgendeiner Form möglich sein – sonst benötigt man keine präklinische Forschung mehr, weder in vitro, noch in silico oder in vivo.

Die an translationaler Forschung beteiligten Akteure (unter anderem Studienärzte, Sponsoren und Behörden) müssen beurteilen (können), ob die Laborforschung A) die wichtigen Fragen in einem bestimmten therapeutischen Bereich adressiert hat und B) wie gut die Prädiktion durch diesen Body of Evidence ist. Auf dieser Basis wird dann eine Nutzen-Schaden-Bewertung durchgeführt, bevor es in die erste Testung am Menschen geht.

Nun wäre zu erwarten, dass es trotz aller Spezifika für einzelne therapeutische Gebiete doch einige, über die Jahrzehnte erarbeitete, allgemeine Standards gäbe zu der Frage, wie man das Ausreichende der Präklinik begründet. An welchen Orientierungspunkten sollen die Forschenden, Sponsoren und Behörden diese Entscheidung festmachen? Wie sehen Fallbeispiele aus, die als Vorbilder verwendet werden können?

Standardlehrbücher zur Entdeckung und Entwicklung von Arzneimitteln helfen bei der Beantwortung dieser Kernfrage nicht. Es gibt viele Kapitel, die beschreiben, wie man Laborforschung durchführt. Und es gibt viele Kapitel dazu, wie man klinische Forschung durchführt. Aber es gibt keine Kapitel, die beschreiben, wie man trotz aller Komplexität bestmöglich und für andere nachvollziehbar entscheidet, wann ein präklinischer Body of Evidence ausreichend oder gut genug ist, um den Schritt in die klinische Forschung zu wagen. Ein typisches „Black Box“- Phänomen?

Auch andere Quellen helfen hier nicht weiter. Die Deklaration von Helsinki [2], das Arzneimittelgesetz (AMG) und weitere Leitlinien zur Forschungsethik [3] fordern explizit eine Nutzen-Schaden-Abwägung im Vorfeld von Phase-I/II-Studien auf der Basis von Tierforschung. Aber eine Hilfestellung dazu, wie die Tierstudien als ausreichend oder nicht ausreichend zu bewerten sind, findet sich dort ebenfalls nicht. Auch ein Blick in die vielen Leitlinien der Regulierungsbehörden wie EMA (Europäische Arzneimittel-Agentur) und FDA (Food and Drug Administration) bleibt ergebnislos. Es gibt im Übrigen auch keine Beiträge, die rechtfertigen oder erklären könnten, warum es diese Leitlinien oder Standards nicht gibt. Also vielleicht ist es gar keine „Black Box“ sondern sogar ein „Blind Spot“?

Man könnte das vielleicht verstehen, wenn einfach alles gut läuft, wenn der Erfolg die Mittel heiligt, sprich wenn die meisten präklinischen Wirksamkeitsstudien offensichtlich gut voraussagen, was im klinischen Versuch zu erwarten ist. Aber genau das scheint ja eben nicht zu funktionieren. Im Gegenteil, hier liegt ein zentrales Problem der translationalen Forschung. Nur circa zehn Prozent der Arzneimittel, die als präklinisch „ausreichend-getestet“ befunden und klinisch getestet wurden, werden schlussendlich auf dem Markt zugelassen [4]. Der allergrößte Teil der Fehlschläge scheitert an fehlender Wirksamkeit [4].

Essays

In den letzten fünf Jahren wurde dieses Translationsproblem zunehmend auf die mangelnde „Vertrauenswürdigkeit“ der präklinischen Daten zurückgeführt [5, 6]. Mit „vertrauenswürdig“ sind dabei Aspekte wie Validität, Reliabilität und Publikationsbias gemeint. Der Body of Evidence aus der Laborforschung kann zwar alle wichtigen Fragen adressiert haben, aber dies mit Studiendesigns, die ein zu hohes Verzerrungs- beziehungsweise Bias-Potential haben. Um das Bias-Risiko zu reduzieren, wird allgemein empfohlen (nicht nur in der Laborforschung), Maßnahmen zu ergreifen wie Fallzahlberechnung, Randomisierung und Verblindung bei der Outcome-Erhebung. Je näher man der klinischen Translation kommt, umso wichtiger wird die Verwendung der oben genannten Maßnahmen, die insgesamt in ein konfirmatorisches Studiendesign münden sollten [7, 8]. Für die Frage, ob ein bestimmter Body of Evidence ausreichend ist, wäre die Frage nach der Glaubwürdigkeit der Studien natürlich genauso wichtig wie die Frage nach den Ergebnissen dieser Studien [9].

Interessanterweise haben insbesondere Vertreter der forschenden Arzneimittelhersteller in zwei viel diskutierten Beiträgen in Frage gestellt, ob man die aus den akademischen Laboren heraus publizierten Tierstudien zur Wirksamkeit eines potentiell effektiven Arzneimittels überhaupt für die Begründung von klinischen Studien verwenden sollte [5, 6[.

Ihre Skepsis gilt nicht dem grundsätzlichen Bedarf an Tierstudien. Beide Beiträge halten Tierstudien für essentiell in der Arzneimittelentwicklung. Ihnen geht es um unzureichende Studiendesigns und die Vermutung einer verzerrten Publikation von vorrangig positiven, erwünschten Studienergebnissen. Die drei Vertreter von Bayer Health Care betonen in ihrem Beitrag das sehr geringe Vertrauen in die Daten aus akademischen Laboren und sagen, dass dies eine „unspoken rule among early-stage venture capital firms“ sei [6]. Sie stellen explizit fest, dass für die zentralen Entscheidungen darüber, ob die Präklinik ausreichend ist oder nicht, zwei Dinge notwendig sind: „in-depth biological understanding of a target” und „confirmatory validation studies“ [6]. Viele weitere Expertenbeiträge der letzten Jahre haben die Bedeutung konfirmatorischer Studiendesigns in der präklinischen Tierforschung betont [7, 8]. Und viele Meta-Research-Projekte zur akademischen Tierforschung zeigen, dass zum einen kaum über Fallzahlplanung, Randomisierung oder Verblindung berichtet wird [10, 11] und dass zum anderen ein starker Verdacht auf Publikationsbias besteht [12, 13].

An dieser Stelle könnte der Beitrag enden und fordern, dass es Leitlinien und Lehrbuchkapitel zu diesem Thema bedarf. Insbesondere die Regulierungsbehörden wie EMA und FDA sollten Mindestanforderungen an konfirmatorische Studiendesigns für die präklinische Wirksamkeit erarbeiten.

Aber etwas bleibt doch merkwürdig. Der riesige Tanker der klinischen Arzneimittelforschung steht ja nicht im Dock und wird dort seit den beiden Beiträgen aus den Reihen von Bayer Health Care und Amgen repariert. Er befindet sich weiter auf hoher See. Zwar bemängeln die Vertreter der Arzneimittelhersteller die Studiendesigns akademischer Tierstudien. Aber auf welcher Begründungsbasis beruht dann die aktuelle klinische Forschung? Und warum beklagen sich die Regulierungsbehörden und Ethikkommissionen nicht darüber, dass der Body of Evidence insbesondere auf der Seite der Studienvalidität nicht ausreichend ist, um frühe klinische Studien angemessen zu begründen? Vielleicht existieren ja zwei Parallelwelten der Laborforschung? Einmal die akademische, in peer-reviewed Journals publizierte Welt, der die forschenden Arzneimittelhersteller (und Regulierungsinstanzen?) eh nicht trauen und eine zweite in-house Tierforschung der privaten Unternehmen und CROs (Contract Research Organizations), die von den Studiendesigns konfirmatorisch angelegt sind? Denn warum sollten forschende Arzneimittelhersteller Millionen von Euro für klinische Arzneimittelprogramme ausgeben auf der Basis von Tierstudien, von denen sie ja selber sagen, dass sie nicht vertrauenswürdig sind und zu der hohen Fehlerrate beitragen? Wenn man also den präklinischen Body of Evidence betrachtet, der am Ende von den privaten Sponsoren klinischer Forschung in Antragsdokumenten (sogenannte „Investigator Brochures“) zusammengefasst wird und den Regulierungsbehörden und Ethikkommissionen vorgelegt wird, dann sieht die Welt dort eventuell ganz anders aus? Das würde auch erklären, warum sich die Regulierungsbehörden und Ethikkommissionen bislang gar nicht in die Debatte eingeschaltet haben.

Deshalb haben wir uns sehr dafür interessiert, einen Blick in eben jene Antragsdokumente zu werfen, die auf der Basis von Daten aus der Laborforschung – in der Regel Tierforschung – begründen, warum eine klinische Studie durch eine Behörde wie dem BfArM (Bundesinstitut für Arzneimittel und Medizinprodukte) oder dem Paul-Ehrlich-Institut bewilligt werden sollte. Dank dreier deutscher Ethikkommissionen haben wir Zugang zu einem nicht weiter vorselektierten Sample der letzten 109 vor Ort geprüften Investigator Brochures zu Phase-I/II-Arzneimittelstudien erhalten. Wir haben diese Dokumente nach allen präklinischen Wirksamkeitsstudien (PKWS) durchsucht und konnten am Ende 708 davon zusammenstellen. Ich stelle im Folgenden drei zentrale Ergebnisse vor, eine ausführlichere Methoden- und Ergebnisdarstellung findet sich in [14].

Erstens, wurden nur für elf Prozent der 708 PKWS eine Referenz zu einer öffentlich zugänglichen Publikation angegeben. Viele Expertinnen und Experten aus der Arzneimittelentwicklung finden das nicht verwunderlich, weil es sich bei den PKWS ja im Grunde um ein Geschäftsgeheimnis handele. Wobei aus der Perspektive der Tierforschungsethik alle Ergebnisse aus Tierstudien zeitnah publiziert werden sollten; aber das ist ein anderes Thema. Für die Begutachtung klinischer Studien heißt dieser Befund jedoch, dass sich Behörden und Ethikkommissionen nicht einfach auf vorausgegangene Peer-Reviews von Fachzeitschriften verlassen können. Bevor die Behörden die Ergebnisse der PKWS bewerten, müssen sie zunächst selber deren Qualität beziehungsweise Glaubwürdigkeit prüfen.

Das führt uns zum zweiten Ergebnis: Für keine der 708 PKWS wurde in den Investigator Brochures eine Fallzahlberechnung oder eine verblindete Erhebung der Outcomes berichtet. Nur für fünf Prozent aller PKWS wurde eine Randomisierung beschrieben. Sogar die Fallzahl verwendeter Tiere wurde nur für 25 Prozent der PKWS dargestellt. Für die Studien, die eine Fallzahl berichteten, lag der Mittelwert getesteter Tiere pro Studienarm bei n=8.

Natürlich konnten wir nur die Praxis des Reportings in den Investigator Brochures untersuchen. Vielleicht wurden Fallzahlberechnungen, Verblindung und Randomisierung viel häufiger oder sogar immer angewendet, nur halt nicht berichtet? Man weiß es nicht, wenn man nur die Investigator Brochure vorliegen hat. Auf der Informationsbasis der Investigator Brochures können Behörden und Ethikkommissionen aber beim besten Willen nicht prüfen, ob die präklinische Laborforschung ausreichend für die Begründung der geplanten klinischen Studie ist.

Der dritte Befund unserer Auswertung ist das fast vollständige Fehlen von PKWS mit „negativem“ Ergebnis, also Studien, die nicht den erwünschten Effekt zeigen. Über achtzig Prozent aller 109 Investigator Brochures berichteten nur positive PKWS. Wiederum mag eingewendet werden, dass auch dies nicht verwunderlich ist, denn warum sollte jemand eine klinische Studie durchführen und finanzieren wollen, wenn die entsprechende präklinische Forschung negativ war? Aber hier lohnt ein zweiter und dritter Blick. Zum einen benötigen wir „negative“ präklinische Studien, um das „Window of Opportunity“ besser einschätzen zu können: Bei welcher Dosierung, zu welchem Zeitpunkt der Erkrankung oder mit welcher Applikationsart stellen sich die erwünschten Effekte ein und wann nicht mehr? Oder wirkt es einfach immer? Zum anderen muss allein aus Gründen des Zufalls in einer insgesamt erfolgreichen Medikamentenentwicklung ab und an mal eine PKWS negativ ausgefallen sein. Das können ja „falsch negative“ Befunde sein. Aber bei einer Fallzahl von im Mittel acht Tieren pro Gruppe, ist es allein aus statistischen Überlegungen sehr unwahrscheinlich, dass immer nur das „richtig positive“ Ergebnis ermittelt wurde. Das Fehlen „negativer“ PKWS wirft zumindest die Frage auf, ob diese bewusst nicht berichtet wurden. Ausgehend von einer investigativen Studie des BMJ wurde zu diesem Thema jüngst ein spannender Essay verfasst [15].

Ich komme zum Ende. Die oben erfolgte Schlussfolgerung, dass Regulierungsinstanzen Mindestforderungen an ausreichende präklinische Wirksamkeitsstudien für die klinische Translation erarbeiten sollten, bleibt bestehen. Nach unseren neuen Erkenntnissen zur Informationsqualität in Investigator Brochures müsste man ergänzend empfehlen, dass in den Antragsdokumenten ausführlicher über die Studiendesigns der PKWS berichtet wird. Erst dann können nicht nur die Sponsoren, sondern auch die Studienärztinnen und -ärzte, die Behörden und Ethikkommissionen nachvollziehen, ob diese PKWS ausreichend sind. Wären zudem in Investigator Brochures nur solche PKWS erlaubt, die prospektiv registriert wurden, ließe sich in Zukunft sogar klären, ob es tatsächlich nur positive PKWS gibt [16, 17].

Aber auch mit diesen allgemeinen Empfehlungen bleiben viele Fragen offen. Warum ist die aktuelle Situation so wie sie ist? Warum dulden die Studienärztinnen und -ärzte (Principal Investigators) von Phase-I/II-Studien die völlig unzureichende Informationsqualität zur präklinischen Wirksamkeit, die doch die klinische Studie erst begründen soll? Studienärztinnen und -ärzte sollten ihre Patientinnen und Patienten nicht in klinische Studien einschließen, die nicht ausreichend begründet sind. Warum dulden die unabhängigen Behörden und Ethikkommissionen diese Situation? Eine mögliche Antwort wäre, dass Studienärztinnen und -ärzte sowie Regulierungsinstanzen den Arzneimittelherstellern in zumindest diesem Punkt vollständig vertrauen. Warum sollten Arzneimittelhersteller auch teure klinische Studien durchführen, die nicht ausreichend begründet sind beziehungsweise besser begründet werden müssten? Diese Antwort wäre möglich, aber nicht angemessen. Denn wofür gibt es unabhängige Instanzen, wenn sie nicht prüfen, ob die klinische Studie überhaupt Sinn ergibt?

Aber die Fragen gehen noch weiter. Bedeutet das fehlende Reporting zu Fallzahlberechnung, Verblindung und Randomisierung, dass diese Maßnahmen zur Erhöhung der Glaubwürdigkeit tatsächlich in den meisten Fällen nicht angewendet wurden? Warum bauen die forschenden Arzneimittelhersteller auf dieser nicht ausreichenden Datenbasis ihre millionenschweren klinischen Forschungsprogramme auf? Sie wissen doch selber (zumindest als „unspoken rule“, siehe oben), dass man solchen Studien nicht trauen sollte. Solange wir keinen Zugang zu den Studienprotokollen von den in-house PKWS haben, die in Investigator Brochures berichtet werden, solange werden wir nicht genau wissen, wie ausreichend die präklinische Forschung wirklich ist.

In Reaktion auf unsere Ergebnisse der Investigator-Brochures-Auswertung, hat Science einige Key-Stakeholder der translationalen Forschung gefragt, wieso die Situation so ist wie sie ist [18]. Die FDA wollte sich dazu nicht äußern. Ein Vertreter der US-Gesundheitsbehörde NIH (National Institutes of Health) fand die Ergebnisse „incredibly alarming“. Ein internationaler Experte für frühe klinische Forschung und „Novel Therapy Development“ sagte wortwörtlich, dass Tierexperimente eben schlechte Prädiktoren sind und dass man sich deshalb gar nicht auf die präklinischen Informationen in den Investigator Brochures konzentrieren, sondern einfach noch mehr direkte Translation in die klinische Forschung machen solle [18]. Präklinische Wirksamkeit? Wen schert’s!

Referenzen

[1] Narayanan G, Salmikangas P, Schneider CK, Galli MC, Trouvin JH, Flory E, Cossu G, Ovelgonne H: Clinical development of Gene therapy needs a tailored approach: A regulatory perspective from the EU. Hum Gene Ther Clin Dev 2014.
[2] World Medical Association: Declaration of Helsinki: Ethical Principles for Medical Research Involving Human Subjects, Fortaleza. In.; 2013.
[3] CIOMS: International Ethical Guidelines for Health-Related Research Involving Human Subjects. Geneva: Council for International Organizations of Medical Sciences; 2016.
[4] Hay M, Thomas DW, Craighead JL, Economides C, Rosenthal J: Clinical development success rates for investigational drugs. Nat Biotechnol 2014, 32(1):40-51.
[5] Begley CG, Ellis LM: Drug development: Raise standards for preclinical cancer research. Nature 2012, 483(7391):531-533.
[6] Prinz F, Schlange T, Asadullah K: Believe it or not: how much can we rely on published data on potential drug targets? Nat Rev Drug Discov 2011, 10(9):712.
[7] Kimmelman J, Mogil JS, Dirnagl U: Distinguishing between exploratory and confirmatory preclinical research will improve translation. PLoS biology 2014, 12(5):e1001863.
[8] Mogil JS, Macleod MR: No publication without confirmation. Nature 2017, 542(7642):409-411.
[9] Kimmelman J, Federico C: Consider drug efficacy before first-in-human trials. Nature 2017, 542(7639):25-27.
[10] Vogt L, Reichlin TS, Nathues C, Wurbel H: Authorization of Animal Experiments Is Based on Confidence Rather than Evidence of Scientific Rigor. PLoS biology 2016, 14(12):e2000598.
[11] Macleod MR, Lawson McLean A, Kyriakopoulou A, Serghiou S, de Wilde A, Sherratt N, Hirst T, Hemblade R, Bahor Z, Nunes-Fonseca C et al: Risk of Bias in Reports of In Vivo Research: A Focus for Improvement. PLoS biology 2015, 13(10):e1002273.
[12] Sena ES, van der Worp HB, Bath PM, Howells DW, Macleod MR: Publication bias in reports of animal stroke studies leads to major overstatement of efficacy. PLoS biology 2010, 8(3):e1000344.
[13] ter Riet G, Korevaar DA, Leenaars M, Sterk PJ, Van Noorden CJ, Bouter LM, Lutter R, Elferink RP, Hooft L: Publication bias in laboratory animal research: a survey on magnitude, drivers, consequences and potential solutions. PLoS One 2012, 7(9):e43404.
[14] Wieschowski S, Chin WWL, Federico C, Sievers S, Kimmelman J, Strech D: Preclinical efficacy studies in investigator brochures: Do they enable risk-benefit assessment? PLoS biology 2018, 16(4):e2004879.
[15] Cohen D: Oxford vaccine study highlights pick and mix approach to preclinical research. BMJ 2018, 360:j5845.
[16] Wieschowski S, Silva DS, Strech D: Animal Study Registries: Results from a Stakeholder Analysis on Potential Strengths, Weaknesses, Facilitators, and Barriers. PLoS biology 2016, 14(11):e2000391.
[17] Kimmelman J, Anderson JA: Should preclinical studies be registered? Nat Biotechnol 2012, 30(6):488-489.
[18] Yasinski E: Study questions animal efficacy data behind trials. Science 2018, 360(6385):142.



Zum Autor

Daniel Strech studierte Medizin und Philosophie unter anderem in Düsseldorf. Seit 2014 war Strech Professor für Medizinethik an der Medizinischen Hochschule Hannover. Am 1. Juni 2018 trat er die neue Professur für Translationale Bioethik an der Charité – Universitätsmedizin Berlin an. Strech übernimmt außerdem am Berliner Institut für Gesundheitsforschung eine Arbeitsgruppe am QUEST Center for Transforming Biomedical Research.


Letzte Änderungen: 03.07.2018