Editorial

Mehr Handys,
mehr Dicke?

(10.05.2022) Eine Studie über die Gesundheitsfolgen von Mobiltelefonieren versammelt all die Probleme, die die biomedizinische Forschung seit Jahren plagen.
editorial_bild

„Voll verstrahlt: Daddeln macht dick!“ – so titelte kürzlich die BILD! Der originellen Alliteration wegen ignorierte der Reporter sogar, dass es im Artikel um das Telefonieren und nicht um das Spielen mit Handys ging.

Im Bericht bezog die BILD sich auf eine Presse­mitteilung der Uni Lübeck. Diese hatte die Studie eines Wissenschaftler-Teams aus der dortigen Psychoneuro­biologie angepriesen, in der angeblich der „Einfluss von Handystrahlung auf die Nahrungs­aufnahme nachgewiesen“ wurde. Demnach ging das so: In einem „durchdachten Versuchs­design“ hatte man 15 junge Männer in einem Abstand von zwei Wochen insgesamt dreimal einbestellt. Im Experiment wurden die Probanden dann mit zwei verschiedenen Handys bestrahlt beziehungs­weise einer Schein­bestrahlung als Kontrolle ausgesetzt. Und im Anschluss durften sie sich für eine definierte Zeit an einem Buffet bedienen. Gemessen wurde die spontane Nahrungs­aufnahme, der Energie­stoffwechsel des Gehirns via Phosphor-Magnet­resonanz-Spektroskopie (MRS) sowie verschiedene Blutwerte vor und nach der Bestrahlung. Und siehe da: Nach 25 Minuten Handy am Ohr verzehrten die Probanden sage und schreibe rund ein Viertel mehr Kalorien zum Frühstück als die „Schein­bestrahlten“. Das entspricht kalorisch etwa einem halben Liter Bier oder einem Stück Apfeltorte!

Editorial

Die Pressemitteilung fand dieses Ergebnis „erstaunlich“, und den Effekt „überraschend deutlich“. Dies kann man getrost als massives Understatement bezeichnen. Denn sollte dies stimmen, müssten wir uns wohl alle wundern, warum wir den etwa dreißig Minuten nach solchen Mobil­telefonaten einsetzenden Heißhunger bisher kaum an uns selbst bemerkt haben. Wichtiger aber noch: Der in Nutrients (14(2): 339) veröffentlichte Befund hätte nicht abzuschätzende Implikationen für die Menschheit. Dies blieb auch dem Autorenteam nicht verborgen, ja war sogar die Motivation für ihre Studie. Bereits im ersten Satz des Abstracts wird ein Zusammenhang zwischen gestiegener Mobilfunk­nutzung und der weltweiten Adipositas-Epidemie suggeriert.

Tatsächlich waren laut WHO im Jahr 2016 mehr als 1,9 Milliarden Erwachsene ab 18 Jahren übergewichtig, 650 Millionen davon sogar fettleibig. Wie wir wissen, erhöht dies das Risiko für Diabetes mellitus, Herz-Kreislauf-Erkrankungen, Bluthochdruck und Schlaganfall sowie bestimmte Krebsarten deutlich.

Sollte also die Nutzung von Mobil­telefonen ein wichtiger Grund für eine der wichtigsten vermeidbaren Ursachen von weltweiter Morbidität und Mortalität sein, wäre das eine Entdeckung vom Format Penicillin, Polio-Impfung oder Helicobacter und Magengeschwür. Der Nobelpreis wäre für die Entdecker in greifbarer Nähe. Deshalb ist es umso erstaunlicher, dass, wie die Presse­mitteilung stolz vermeldet, die Studie zwar von RTL, der Fachzeitschrift Elektrosmog und dem Portal diagnose:funk – Letzteres ein Organ für Elektrosmog-Obskuranten –, aber bisher von keinem der seriösen deutschen oder internationalen Medien beachtet wurde.

Hunderte von kleinen und methodisch problematischen Studien haben in den letzten Dekaden einen Zusammenhang von elektro­magnetischer Handy-Strahlung und Krebs, Frühgeburten, Depressionen sowie jeder Menge anderer Gesundheits­schäden nahegelegt – und nach deren Interpretation natürlich sogar bewiesen. Große, gut gemachte Studien haben aber all dies widerlegt. Dass eine sehr kleine Studie nun einen akuten Effekt von Handy-Strahlung auf das Gehirn – konkret eine massive, einfach nachzuweisende Veränderung im Essverhalten – nachweisen kann, ist demnach bemerkenswert. Also hat der Wissen­schaftsnarr sich den Nutrients-Artikel mal genauer angeschaut. Auch mit dem Hintergrund der Frage, was die DFG denn so alles fördert. Denn letztlich wurde diese Studie von uns Steuerzahlern finanziert, und zwar über den Transregio SFB 134.

Um es vorwegzunehmen: Diese Studie ist ein Lehrstück für all die Probleme, die die Biomedizin seit Jahren plagen – und dem Narren leider unerschöpflichen Stoff für diese Kolumne bieten. Nichts wurde hier ausgelassen. Die Probleme fangen beim Studien­design an und hören erst beim Reporting, also der eigentlichen Veröffent­lichung, auf. Aber immer der Reihe nach.

Zunächst einmal gilt in der Wissenschaft der Grundsatz: Außergewöhnliche Aussagen benötigen außergewöhnliche Evidenz. Und die ist mit 15 jungen Männern, auch in einem Cross-over-Design, einfach nicht zu haben. Das kann man ganz einfach statistisch begründen, das sagt einem aber auch der gesunde Menschen­verstand. Ob nun ein paar Hundert oder ein paar Tausend Probanden nötig wären und wie oft das dann von anderer Stelle repliziert werden müsste, darüber lässt sich trefflich biometrisch fachsimpeln. Klar ist nur: 15 Probanden und ohne weitere Bestätigung – das geht gar nicht! Dies umso mehr, da hier eine heterodoxe, sehr unwahr­scheinliche Hypothese untersucht wird.

Mit 15 Studien­teilnehmern kann man nur bestätigen, was man im Grunde eh schon weiß. Zum Beispiel, dass ein neues Medikament aus einer umfassend untersuchten Substanzklasse, die nachgewie­senermaßen und zweifelsfrei den Blutdruck senkt (beispielsweise Sartane), dies eben auch macht. Statistisch ausgedrückt besteht das Problem unter anderem darin, dass mit abnehmender „Prior Probability“ der Hypothese („Vortestwahr­scheinlichkeit“, „Base Rate“) die Zahl der falsch positiven Resultate zunimmt. Bei unwahr­scheinlicher Hypothese, niedriger statistischer Power (15 Probanden!) und nicht sehr stringentem Typ-I-Fehler-Signifikanz­niveau (hier 5 Prozent) werden falsch positive Ergebnisse immer wahrscheinlicher.

Nur wenn man den p-Wert mit dem positiven (beziehungsweise negativen) Vorhersagewert verwechselt – und viele Kollegen tun dies leider! –, kann man sich unter diesen Bedingungen mit einem „statistisch signifikanten Ergebnis“ wohlfühlen. Alle anderen werden unbeeindruckt stärkere Evidenz fordern – vor allem diejenigen, die sich noch die diesbezügliche Wissenschafts­narretei „Brüder, zur Sonne, dem p-Wert ein Ende, Brüder, zum Lichte empor!“ an dieser Stelle erinnern (LJ 10/2019: 24-5).

Ganz nebenbei sei erwähnt, dass in der Physik für eine „Entdeckung“ – und zu einer solchen sollte man das von den Lübeckern beschriebene Phänomen getrost zählen – eine statistische Signifikanz auf 5-Sigma-Niveau gefordert wird. Das bedeutet, einen Typ-I-Fehler mit einer Wahrschein­lichkeit von über 1 zu 3,3 Millionen zu akzeptieren, ein p-Wert mit mehr als 7 Nullen. Wer sich bereits mit dem 5-Prozent-Niveau begnügt, akzeptiert einen Fehler in zwanzig Fällen. Ronald Fisher, der „Erfinder“ des p-Werts, charakterisierte Befunde auf 5-Prozent-Niveau daher lapidar als höchstens „Worth a Look“.

Die statistischen Probleme der Handy-Studie gehen aber noch weiter. Zwar machen die Autoren eine Vielzahl von Vergleichen, definieren aber keinen davon als „primären Endpunkt“ – und kennzeichnen die anderen Vergleiche dann als explorativ. Deshalb hätten die Typ-I-Fehler-Niveaus auch entsprechend korrigiert werden müssen (für Fortgeschrittene: zum Beispiel mit einer Bonferroni-Korrektur).

Und natürlich muss auch die sich im Artikel andeutende – beziehungsweise sogar unmittelbar suggerierte – Verwechslung von Korrelation und Kausalität hinsichtlich „Mehr Handys, mehr Dicke!“ erwähnt werden. Schließlich sind zeitgleich mit der Zunahme der Handy-Nutzung viele Dinge passiert. Nicht nur wurde die Weltbevölkerung dicker, auch haben etwa Elektroautos zu- und der Thunfisch im Mittelmeer abgenommen. Auf der sehr unterhaltsamen Website tylervigen.com/spurious-correlations ist eine Vielzahl solcher „Spurious Correlations“ gelistet. Mein Liebling darunter ist die nahezu perfekte Korrelation der US-Ausgaben für Wissenschaft, Raumfahrt und Technologie mit den Selbstmorden durch Erhängen, Strangulieren und Ersticken. Anyway ...

Die Lübecker Studie war übrigens nicht präregistriert. Wir wissen also nicht, was alles in deren Verlauf angepasst wurde, welche Analysen vorgesehen waren und welche dann tatsächlich gemacht wurden, welche Daten Verwendung finden sollten und welche es tatsächlich in die Auswertung geschafft haben und so weiter („Undisclosed Flexibility“). Ich will hier gar nichts unterstellen, aber es macht die Interpretation einer Studie so viel eindeutiger, wenn alles auf dem Tisch liegt, bevor es losgeht. Selbst­verständlich hätten die Lübecker dies mit einer Sperrfrist bis zur Veröffentlichung der Resultate tun können. Das ist bei solchen Studien sogar die Regel. Damit niemand die tolle Idee klauen und vorher publizieren kann.

Laut den Autoren war das Studiendesign „single-blinded“. Man kann nur annehmen, dass die Verblindung sich hier auf die Studien­teilnehmer bezog. Demnach wussten diese nicht, was die eigentliche Fragestellung der Studie war, noch welches Handy sendete oder nur „sham“ war. Das ist vorbildlich. Nur waren dann die Untersuchenden selbst, die die Daten auswerteten, offenbar nicht verblindet. Ich denke, es braucht keine weitere Erläuterung, welche Auswirkungen unbewusster Bias in solch einem Fall auf eine Studie haben kann.

Bleiben noch die Originaldaten, beziehungsweise deren (Nicht-)Verfügbarkeit. Im Artikel steht, dass diese auf Anfrage zur Verfügung gestellt werden könnten. Das ist an sich schon eine Enttäuschung. Denn wer je versucht hat, „data on reasonable request“ von Studien­autoren zu bekommen, weiß, dass dies in den seltensten Fällen gelingt. Falls man überhaupt eine Antwort auf die Anfrage bekommt, spricht meist irgendetwas gegen eine Herausgabe. Manchmal ist sogar die Festplatte kaputt­gegangen oder der Zuständige ist schlichtweg unbekannt verzogen.

Auch hier will ich nichts unterstellen. Fest steht aber, dass die Daten von öffentlich geförderten Studien auch der Öffentlichkeit zur Verfügung gestellt werden müssen. Sagt das nicht sogar der Fördergeber dieser Studie, die DFG? Warum können wir die Daten dieser Studie nicht einfach von ZENODO oder einem anderen Repositorium herunterladen?

Dabei hätte zumindest der Narr sich die Originaldaten sehr gerne angesehen, denn deren Repräsentation in der deskriptiven Statistik des Artikels lässt leider zu wünschen übrig. Dort finden wir statt Dot- und Box-Plots sowie vernünftigen Varianz­massen leider nur die allgegen­wärtigen, aber die wahren Varianzen beschönigenden und echten Verteilungen verschleiernden Bar-Graphen mit Standard­abweichungen (SEM). Bei der Darstellung der neuroener­getischen Daten fehlen die SEM für die „Sham“-Ergebnisse gleich ganz. Der hier offenbar gezeigte Gruppen-Mittelwert führt denn auch zu einer starken Überbetonung der Effektstärke. MR-Spektro­skopiker hätten sich außerdem auch sehr über ein paar Original­spektren zur Beurteilung der Messqualität gefreut. All dies sind Hinweise darauf, dass die Reviewer von Nutrients hier wohl nicht so genau hingeschaut haben.

Nun ist MR-Spektroskopie aufwendig und teuer. Allerdings hätte man das Experiment durchaus mit einer größeren Zahl von Probanden ganz ohne MR-Spektroskopie replizieren können – nur unter Messung der Kalorien­aufnahme. Da wären dann nur noch die Kosten für das Frühstücks­buffet angefallen. Auch hätte man damit gleich ausschließen können, dass es zu einer wie auch immer gearteten Wechselwirkung des Leistungs­eintrags in das Gehirn beim Senden über die Mobilfunk­antenne und dem Leistungs­eintrag durch die HF-Pulse während der Magnet­resonanz-Spektroskopie gekommen ist. Vor allem wenn man von 15 Probanden auf die Weltbevölkerung schließen will, würde das viel Sinn machen, denn die wenigsten von uns liegen vor und nach einem Handy-Telefonat im Tomographen.

Manche Leserin oder Leser wird sich nun wohl fragen, warum ein derart sensationeller und potenziell weltbewegender Befund nicht in Nature oder Science veröffentlicht wurde, sondern stattdessen in Nutrients – einer Zeitschrift, die schon mehrfach durch Skandale aufgefallen war (für Interessierte: Googeln Sie zum Beispiel mal „Australian Paradox“). Ich halte diesen Aspekt allerdings für wenig relevant. Eine Studie muss auf der Basis ihres Designs, ihrer Ergebnisse und deren Interpretation bewertet werden, nicht nach dem Journal, in dem sie publiziert wurde. Klar ist aber – und viele von uns kennen das aus eigener Erfahrung –, dass sich dieser Artikel in einer Kaskade von Journalen mit abnehmendem Journal-Impact-Faktor abwärts bewegt haben muss. Für den Narren ist das folglich wieder mal ein Hinweis darauf, dass letztlich alles irgendwo publiziert werden kann und wird – und dass der Review-Prozess nicht die derzeit viel beschworene Filterfunktion hat, unter anderem auch wegen der Zunahme von Preprints. Dass ein Artikel in einem Journal mit einem Impact-Faktor von über 5 und damit aus dem oberen Viertel der Kategorie „Nutrition & Dietetics“ veröffentlicht wird, ist für sich erst mal gar kein Ausweis für Qualität. Man muss sich immer noch die Mühe machen, den Artikel zu lesen und ihn inhaltlich und methodisch bewerten.

Was also bleibt? Sollte man hochgradig unwahrscheinliche Hypothesen erst gar nicht untersuchen? Ist die Untersuchung einer möglichen Wirkung von elektro­magnetischer Strahlung auf das Gehirn und unser Verhalten grundsätzlich abzulehnen? Ist der Ansatz der Autoren total esoterisch? Natürlich nicht! „To boldly go where no man has gone before“ ist eine der vornehmsten und spannendsten Aspekte der Wissenschaft. Nur müssen wir methodisch solide bleiben und unsere Ergebnisse nicht überinter­pretieren. Eine Lübecker Handy-Studie, präregistriert, mit ein paar hundert Probanden (nur Frühstück!), doppelt verblindet, inklusive dem versuchten Nachweis einer Dosis-Wirkungs­beziehung (15 Minuten Handy-Telefonat vs. 30 Minuten), repliziert in einem anderen Labor, die Daten frei verfügbar bei ZENODO – das wäre einer Bericht­erstattung in Nature, New York Times und Neue Zürcher Zeitung würdig. Auch wenn herauskäme, dass man nach Handy-Bestrahlung gerade mal ein Löffelchen Müsli mehr essen würde.

Ulrich Dirnagl

Der Wissenschaftsnarr dankt Prof. Dr. Harald Möller vom Max-Planck-Institut für Kognitions- und Neurowissen­schaften in Leipzig für seine sachdienlichen Hinweise zur MR-Spektroskopie in der Studie.

Weiterführende Literatur und Links finden sich wie immer unter: http://dirnagl.com/lj.


Weitere Einsichten unseres Wissenschaftsnarren


- Von Mäusen, Makaken und Menschen

Richtig übel wird es, wenn sich mangelnde Qualität in präklinischen Studien bis zu verheerenden Ergebnissen in Tests am Menschen hochschaukelt – findet unser Narr. Und referiert einen aktuellen Fall.

- Wer‘s glaubt, wird selig!

Heute soll es um den Placebo-Effekt gehen. Wobei wir uns hierbei auch einem weithin unbekannten Phänomen zuwenden werden: der Regression zum Mittelwert. Und die ist auch für Experimentatoren wichtig.

- Mit schlichten Wetten die Wissenschaft retten?

Könnte man mit Wetten statt Peer Review entscheiden, welche Projekte gefördert werden sollen? Die Bilanz würde womöglich besser werden.

 

 



Letzte Änderungen: 10.05.2022