Gesundheitswesen und Forschung: Datensätze sind Datenschätze!

Mario Rembold


Editorial

(07.10.2022) „Die Daten sind vorhanden, doch niemand kann sie nutzen“ – so könnte man überspitzt das Zusammenspiel zwischen Gesundheitswesen und Forschung zusammenfassen. Aber es gibt positive Entwicklungen.

Am 16. September 2022 stimmte der Bundesrat dem neuen Infektionsschutzgesetz mit aktualisierten Corona-Regeln für den Herbst zu. Im ZDF heute-journal war es nur eine Randnotiz im Beitrag: „Eigentlich sollten Krankenhäuser künftig Daten an Gesundheitsämter übermitteln. ‚Nicht umsetzbar’, heißt es jetzt von den Kliniken.“

hg_22_10_03a
Illustr. (2): iStock / erhui1979

Doch sollte Deutschland als eines der fortschrittlichsten Industrieländer eigentlich hinnehmen, dass es in den 20er-Jahren des 21. Jahrhunderts nicht möglich ist, automatisiert und regelmäßig ein paar simple Zahlen von A nach B zu schicken? Ausgerechnet während einer Pandemie, in der es um Leben und Tod gehen kann, scheitert der Austausch medizinischer Daten zwischen gesundheitsrelevanten Einrichtungen. All das zieht sich als roter Faden durch die Corona-Zeit, denn immer wieder aufs Neue berichten uns Expertinnen und Experten aus unterschiedlichen Disziplinen in den Laborjournal-Interviews, was wir alles wissen könnten.

Editorial

„Die Daten sind vorhanden“, betonte Immunologe Andreas Bergthaler im Mai 2022 in einem unserer Corona-Gespräche (LJ 6/2022, ab Seite 17 - Link). Man müsse diese Daten nur zusammenbringen! Bergthaler, tätig an der Medizinischen Universität Wien, blickt vor allem aus österreichischer Perspektive auf die Herausforderung mit dem Umgang mit Daten. Doch das Allermeiste wird auch der deutschen Leserin bekannt vorkommen.

Zwischen Notizzetteln und Faxgerät

Gehen wir von hier aus ein gutes Jahr zurück, als wir im Laborjournal gemeinsam mit sechs Köpfen der Corona-Front eine Bestandsaufnahme zu einem Jahr Pandemie wagten (LJ 4/2021, ab Seite 16, Link). Deutschland war demnach in Sachen Grundlagenforschung gut aufgestellt. Schlecht hingegen lief es überall dort, wo Daten im ärztlichen und klinischen Alltag anfielen oder Behörden und Ämter involviert waren. Zu lesen war dort von überarbeitetem Personal in Gesundheitsämtern, die 2020 mit handschriftlichen Notizen kämpften und gar nicht dazu kamen, all die gesammelten Daten aufzubereiten und für eine Auswertung zusammenzuführen. Faktisch hatten wir nach einem Jahr mit SARS-CoV-2 keine Ahnung, wo sich die Menschen in Deutschland mit dem Virus ansteckten – und mussten die Wissenslücken durch Daten aus dem Ausland füllen. Großbritannien galt als ein Musterbeispiel, mit einem zentralisierten staatlichen Gesundheitssystem, wo der National Health Service (NHS) jedem Bürger eine medizinische Versorgung garantiert. Anscheinend fließen hier die Daten auch einfacher von der Klinik zu zentralen Stellen.

Dass es auch nach mehr als zweieinhalb Jahren Pandemie für die Kliniken noch immer eine Herausforderung darstellt – nein, dass es ihnen anscheinend sogar unmöglich ist, Daten an die Gesundheitsämter zu schicken, mag einerseits nach einem schlechten Scherz klingen, andererseits scheint niemand ernsthaft überrascht. Die Pandemie ist ja hoffentlich in wenigen Monaten bis Jahren durch, da lohnt es sich jetzt auch nicht mehr, die Faxgeräte einzumotten, könnte man zynisch resümieren. Fairerweise sei erwähnt: Ob die Datenübermittlungen allein an den Kliniken scheitern würden oder nicht insgesamt an einer fehlenden Infrastruktur, sei mal dahingestellt. Bei aller Häme bleibt vor allem festzuhalten: Krankenhäuser arbeiten vielerorts am Limit, und dass sich das Personal dort nicht noch zusätzliche Aufgaben aufladen will, ist mehr als verständlich.

Tatsächlich hängt am Austausch von Gesundheitsdaten aber weit mehr als nur ein optimales Pandemiemanagement. Einerseits lässt sich nämlich direkt die Versorgung einzelner Patienten verbessern, andererseits sind solche Daten für die Forschung wertvoll. Machen wir ein Gedankenexperiment: Wären die Gesundheitsdaten aller Bürger Deutschlands der Forschung zugänglich, könnte man über viele Jahre hinweg Kohorten verfolgen, die ein bestimmtes Medikament gegen eine bestimmte Krankheit einnehmen. Verschiedene Medikamente ließen sich miteinander vergleichen. Man könnte nach Mustern suchen, etwa: Wer erkrankt an einem bestimmten Tumor? Und wegen welcher Beschwerden war diese Person zehn Jahre zuvor in Behandlung?

Disease-Management-Programme (DMP)

Natürlich darf niemand als Einzelperson aus den Datensätzen identifizierbar sein, während gleichzeitig aber für den longitudinalen Blick dennoch zuzuordnen sein muss, welche Angaben über die Zeit hinweg zu ein und derselben Person gehören. Solche Daten dürfen also nicht komplett anonymisiert sein, sondern man benötigt eine Pseudonymisierung. Eine solche Verarbeitung und Nutzung von Gesundheitsdaten ist mit dem Datenschutz vereinbar und findet auch hier in Deutschland bereits statt. Allerdings könnte wohl noch vieles verbessert werden.

Ein Beispiel sind die Disease-Management-Programme (DMP), strukturierte Behandlungsprogramme für chronisch erkrankte Menschen. DMP gibt es bislang für zehn Erkrankungen, darunter Brustkrebs, Depressionen oder Diabetes mellitus (Typ 1 und 2). Sie sollen sicherstellen, dass ein Patient nach modernen evidenzbasierten Standards behandelt wird, wobei Patienten auch besondere Beratungen und Schulungen bekommen können. Zwischen Arzt und Patient werden Therapieziele vereinbart. Umgekehrt wird auch jedes DMP regelmäßig validiert. Ärzte und Patienten geben über Fragebögen Angaben zu Beschwerden, Behandlung und Medikation ab. Der behandelnde Arzt bekommt dann mitunter auch zu einzelnen Patienten ein Feedback, welche Diagnostik er noch durchführen sollte oder welche Medikation zu überdenken wäre. Auch Behandlung über Einrichtungsgrenzen hinweg soll mithilfe der DMP koordiniert und auf dem aktuellen Stand der klinischen Forschung stattfinden.

DMP sind also ein System, das der Idee nach zunächst einmal direkt den Patienten zugutekommt, aber eben auch zu jedem Patienten gesundheitsrelevante Daten erfasst. Die Teilnahme an einem DMP ist für Patienten und für Ärzte freiwillig. Träger und Anbieter der DMP sind die gesetzlichen Krankenkassen in Deutschland; erhoben und ausgewertet werden die Daten zu den DMP durch ebenjene Krankenkassen und die Kassenärztlichen Vereinigungen.

Im Juli dieses Jahres nun wiederholte die Deutsche Diabetesgesellschaft (DDG) eine Forderung, die ihr laut Pressemitteilung bereits seit mehreren Jahren am Herzen liegt, aber bislang weitestgehend verhallt sei: Der Gesetzgeber möge eine Verpflichtung erlassen, die Dokumentationsdaten aus den DMP bundesweit zusammenzuführen. Speziell für Diabetes erhebt man regelmäßig etliche Blutwerte im Rahmen eines DMP. Bei einer komplexen Erkrankung wie Diabetes, so argumentieren die Autoren in ihrer Pressemitteilung, sei es in der Praxis gar nicht möglich, für jede Fragestellung kontrollierte doppelblinde Studien durchzuführen. Doch der Blick in die Daten aller Patienten, die zu Diabetes an einem DMP teilnehmen, könnte zu wichtigen Einblicken verhelfen. Für Diabetes mellitus gibt es die DMP seit 2003, und laut DDG sind in diesen Programmen fast fünf Millionen Patienten eingeschrieben: 4,7 Millionen mit Typ-2-Diabetes und 267.000 mit Typ 1.

hg_22_10_03b

„Was passiert in der Realität?“

Für die Forderung setzt sich maßgeblich DDG-Mitglied Matthias Kaltheuner ein, Geschäftsführer bei winDiab (Wissenschaftliches Institut der niedergelassenen Diabetologen) in Düsseldorf und bis vergangenes Jahr niedergelassener Diabetologe in Leverkusen. Er nennt ein typisches Szenario, bei dem Behandlungsdaten wie die aus den DMP wertvolle Erkenntnisse liefern. Zunächst skizziert Kaltheuner den Weg eines Wirkstoffs bis zu seiner Zulassung. „Man macht Studien zur Wirksamkeit und stellt deutliche Vorteile fest, zum Beispiel, dass Folgeerkrankungen seltener werden.“

Daraufhin kommt das Medikament auf den Markt und kann verschrieben werden. „Dann ist es wichtig zu sehen: Was passiert denn in der Realität?“, fährt Kaltheuner fort. Es könne sein, dass das Medikament gar nicht von den Ärzten verschrieben wird. Vielleicht setzen einige Patienten den Wirkstoff wieder ab. „Das kann vorkommen, wenn die Studienpopulation, mit der man ursprünglich getestet hatte, zu wenig der realen Population entsprach“, so Kaltheuner. „Sind die Menschen in unserem Land, die diese Medikamente für viel Geld bekommen, tatsächlich subjektiv oder objektiv besser dran?“

Nun seien die DMP von vornherein klug angelegt gewesen, lobt Kaltheuner, denn auch eine Datenerhebung wurde von Beginn an durchgeführt. „Das hat anfänglich zu Konflikten geführt, weil viele Ärzte das als eine ziemliche Belastung erlebt haben“, blickt Kaltheuner zurück. Damals musste man nämlich Papierbögen ausfüllen und verschicken. „Das erfolgt jetzt seit vielen Jahren elektronisch, und seitdem ist auch die Qualität viel besser geworden.“

Klingt nach einem Musterbeispiel. Doch nun kommt Kaltheuner auf den Knackpunkt zu sprechen: „Wir haben ja in Deutschland 17 KV-Bezirke“, erklärt er. KV, damit ist die jeweilige Kassenärztliche Vereinigung gemeint. Jedes Bundesland hat eine KV – abgesehen von NRW, das sich die KV Nordrhein und die KV Westfalen-Lippe untereinander aufteilen. Kaltheuner: „Die Verträge sind jeweils KV-spezifisch mit den einzelnen Krankenkassen abgeschlossen.“

Dennoch sei der eigentliche Datensatz bundeseinheitlich gestaltet. „Es liegt in allen 17 KV-Bezirken ein fast identischer Datensatz vor“, freut sich Kaltheuner. Diese Datensätze könne man leicht zusammenführen, obwohl die Daten getrennt voneinander erhoben wurden. Tatsächlich existiere solch eine gesetzliche Verpflichtung bereits, sie ergebe sich aus dem fünften Sozialgesetzbuch § 137f. Dort besagt Absatz (4), dass eine regelmäßige externe Evaluation der Daten erfolgen müsse und auch zu veröffentlichen sei. Nach einer Richtlinie des Gemeinsamen Bundesausschusses sind hier auch Evaluationsergebnisse auf Bundesebene und kassenübergreifend zu aggregieren. „Leider passiert das nur auf einem Minimalniveau, um den gesetzlichen Anforderungen Genüge zu tun“, bedauert Kaltheuner. „Wir hätten gern, dass die Daten auch den öffentlichen medizinischen Forschungsinstitutionen sowie medizinischen Fachgesellschaften zur Verfügung gestellt werden können – zur weiteren intensiveren Auswertung.“

Hier sei der Gesetzgeber gefragt, findet Kaltheuner, denn auf freiwilliger Basis sei es bislang nicht gelungen, diese Daten zusammenzubringen. Nun liegen all die Behandlungsverläufe der annähernd fünf Millionen Diabetes-Patienten ja vor, und die Datensätze gehen zum Teil zurück bis in die Nullerjahre. Für epidemiologische Studien speziell zu Diabetes oder auch einer der anderen in einem DMP erfassten chronischen Erkrankungen wären diese Dokumentationen extrem wertvoll und aufschlussreich. Wir wollten wissen, was ein Forscher tun muss, um an diese Daten heranzukommen. Umgehört haben wir uns bei einigen Kassenärztlichen Vereinigungen, und die verweisen zum Teil auf die regelmäßig veröffentlichten Qualitätsberichte. Um aber selbst mit den Daten forschen zu können, so das Feedback aus mehreren Anfragen, müsste man sich direkt an die Krankenkassen wenden – obwohl die regionalen Daten ja bei der jeweiligen KV zusammenlaufen.

„Die Daten liegen auf der Straße“

Damit wird die Sache noch unübersichtlicher: Denn während die Krankenkassen für die DMP mit „nur“ 17 Kassenärztlichen Vereinigungen zusammenarbeiten, existieren in Deutschland um die einhundert unterschiedliche gesetzliche Krankenversicherungen. Eine Epidemiologin, die deutschlandweit an die Daten aus einem DMP kommen will, hätte also viele Ansprechpartner, bei denen sie anklopfen müsste.

Auf der Habenseite steht immerhin das Fazit von Auswertungen, dass Patienten in einem DMP besser versorgt sind. Im Fall von Diabetes können sie etwa individuell erinnert werden, dass eine Untersuchung beim Augenarzt sinnvoll ist. Auch die Feedback-Berichte an den einzelnen Arzt erhöhen die Behandlungsqualität. Doch Kaltheuner schränkt ein, dass solche Rückmeldungen nicht in allen Bundesländern üblich seien und auch deren Qualität variiere. Er weist auf Defizite hin, die es noch immer bei der Versorgung von Diabetes-Patienten gibt: „Wenn man weiß, dass beim diabetischen Fußsyndrom weiterhin zu selten überwiesen wird und zehn Prozent der Patienten keine indikationsgerechte Medikation bekommen, dann sollte man sich dieses Thema auch bundesweit vornehmen.“

Weiter stellt Kaltheuner fest: „Die Daten liegen auf der Straße! Das ist ein großer Datenschatz, der leicht zu heben wäre.“ Als DDG-Mitglied spreche er hier speziell für die Diabetes-Programme, betont aber, dass eine solche Zusammenführung natürlich hinsichtlich aller chronischen Erkrankungen Vorteile für die medizinische Versorgung und Forschung brächte. Als Positivbeispiel fällt der Blick wie so oft auf Skandinavien. „In Dänemark und Schweden ist es so, dass jeder Diabetespatient in einem Register geführt wird“, so Kaltheuner. 100 Prozent sind also erfasst – „Das werden wir nie erreichen“, räumt Kaltheuner ein und nennt als einen Grund, dass in Dänemark jeder Bürger über eine Personenkennzahl registriert ist. Sie dient als übergreifende Identifikationsnummer, während in Deutschland etwa Steuer-ID und Krankenversicherungsnummer nichts miteinander zu tun haben. Datenschützer mögen hier aufhorchen, doch, wie Kaltheuner anmerkt: „Die DSGVO gilt ja auch in Dänemark!“ Auch dort wird der Zugriff auf Gesundheitsdaten also nicht leichtfertig möglich sein, genauso wie die Verbindung zum individuellen Bürger geschützt werden muss.

Auf das Motiv kommt‘s an

Auch die Biostatistikerin und Epidemiologin Iris Pigeot betont, dass mit Daten von Patienten und Probanden grundsätzlich immer sorgsam umzugehen ist. „Man muss immer ein gut begründetes wissenschaftliches Motiv darlegen“, erklärt die Direktorin des Leibniz-Instituts für Präventionsforschung und Epidemiologie – BIPS in Bremen. Und auch dann bekomme man nicht einfach die Datensätze ausgehändigt. In Deutschland gibt es verschiedene Datenquellen, die Forscher nutzen können – zum Teil auch ohne die Einwilligung der Patienten. So dürfen Krankenkassen pseudonymisiert Gesundheitsdaten zur Verfügung stellen, sofern das Forschungsziel die schutzwürdigen Interessen des Einzelnen überwiegt und ein entsprechender Antrag auf Datenübermittlung von der zuständigen Behörde positiv geprüft wurde. Nun kann man aus einem pseudonymisierten Datensatz zunächst einmal keine Verbindung zu einer individuellen Person herstellen. Dafür richtet man eine sogenannte Vertrauensstelle ein, die den Probanden-Code mit der Identität des Probanden – zum Beispiel über die Krankenversicherungsnummer – verknüpft. Die Krankenkasse kennt also den Pseudonymisierungscode nicht, der Forscher jedoch bekommt umgekehrt nur diesen Code zu sehen.

Wo geschieht denn Schindluder?

Jedoch erlauben auch pseudonymisierte oder gar anonymisierte Datensätze manchmal schon Rückschlüsse auf einzelne Personen – vor allem dann, wenn man Daten unterschiedlicher Quellen miteinander verknüpft. „Dann müssten diese Daten ja aus der Forschungseinrichtung in falsche Hände gegeben werden“, gibt Pigeot zu bedenken – und stellt eine Frage: „Haben Sie je von irgendeinem Fall in Deutschland gehört, bei dem eine Forscherin oder ein Forscher Schindluder mit Daten getrieben hätte?“

Pigeot geht auf ein Missverständnis ein, das wohl viele von uns vor Augen haben, wenn wir uns die Forschungsarbeit mit solch sensiblen Datensätzen vorstellen: Die Rohdaten zusammen mit der Personen-identifizierenden Information werden dem Personal des Forschungsinstituts nämlich nicht zur Verfügung gestellt. „Will man zum Beispiel Daten aus anderen Quellen nutzen, so werden speziell auf die jeweilige Fragestellung zugeschnittene Datensätze erstellt“, betont Pigeot. Die Gesundheitsakte einer Patientin mit Pseudonymisierungscode wird also niemals auf der Festplatte im Institut oder gar auf einem USB-Stick landen.

Bereits 2014 hatte Laborjournal mit Iris Pigeot gesprochen, und damals wünschte sie sich, dass die Gesundheitsdaten der gesetzlichen Krankenversicherungen besser für die medizinische und epidemiologische Forschung genutzt werden könnten (LJ 10/2014, ab Seite 14). In der Zwischenzeit fand eine Revision von § 75 SGB X statt. Darin ist geregelt, unter welchen Umständen Sozialdaten der wissenschaftlichen Forschung zur Verfügung gestellt werden können. „Jetzt kann man Daten auch über längere Zeiträume bekommen“, berichtet Pigeot, „und es ist möglich, größere Forschungsvorhaben zu definieren.“

Zu langer Zeitrahmen

Herausfordernd wird es aber, wenn man auf gleich mehrere Datenquellen Zugriff bekommen und diese Daten auch sinnvoll auswerten möchte. Genau solch einer Herausforderung haben sich Pigeot und Kollegen in einem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt kürzlich gestellt: Sie führten Daten der pharmakoepidemiologischen Forschungsdatenbank (GePaRD) mit den Daten epidemiologischer Krebsregister zusammen (Bundesgesundheitsbl. 65: 615-23). „Es ging also um die Nutzung bereits existierender Datenquellen“, fasst Pigeot zusammen. Zunächst einmal gab es die Bürokratie: „Das Krebsregistergesetz wird in jedem Bundesland anders ausgelegt“, so Pigeot. In Bayern sei man sehr gut unterstützt worden, teilweise sei es jedoch auch sehr mühsam gewesen. Das auf drei Jahre angelegte Projekt war wegen dieses Aufwands nicht in diesem Zeitrahmen zu schaffen – „wir mussten kostenneutral verlängern“, so Pigeot.

Auch das Zusammenfügen der Daten gestaltete sich schwierig. „Wir haben nicht überall denselben Identifikator“, bedauert Pigeot. Ein „Unique Identifier“, der Datenquellen-übergreifend zum Einsatz kommt, wäre eine große Erleichterung, betont sie. Ebenfalls engagiert sich Pigeot für gemeinsame Datenstandards. „Stellen Sie sich vor, in verschiedenen Datensätzen würde das Geschlecht nicht auf gleiche Weise codiert“, nennt sie ein Beispiel zur Veranschaulichung. Tatsächlich scheitere das Zusammenführen an komplexeren Details. Zum Beispiel, welche Arten von Fragebögen verwendet wurden, um auf die Ernährungsgewohnheiten zu schließen. „All das müsste standardisiert werden, und das ist ein Riesenaufwand!“

Für Mehrwert sensibilisieren

Pigeot ist stellvertretende Sprecherin des Konsortiums NFDI4Health, das sich für eine funktionierende nationale Dateninfrastruktur für personenbezogene Gesundheitsdaten einsetzt. „Uns geht es speziell um die FAIRifizierung; Daten, die nach den FAIR-Prinzipien erhoben wurden, sind auffindbar, zugänglich, interoperabel und wiederverwendbar.“ Über Metadaten soll auch unmittelbar ersichtlich sein, welche Qualität ein Datensatz hat und für welche Fragestellungen er gut oder weniger gut geeignet ist. Zur „FAIRifizierung von Real World Data für die Gesundheitsforschung“ stellen Pigeot und weitere Autoren demnächst einen Artikel in Prävention und Gesundheitsförderung vor.

Pigeot würde gern auch die Bevölkerung für den Mehrwert in der Nutzung solcher Gesundheitsdaten sensibilisieren, statt ausschließlich die Gefahren einer Datennutzung hochzuhalten. „Irgendwann einmal wird jeder krank, und dann braucht man die optimale Versorgung. Und für die optimale Versorgung braucht man Information.“