Editorial

Gen-(iale) Werkzeuge

Larissa Tetsch


(10.05.2021) DÜSSELDORF: Ganze Genome zu sequenzieren, ist inzwischen Standard. Doch das heißt noch lange nicht, dass man alle genetischen Varianten bei der Auswertung auch entdeckt. Neue Analysemethoden kommen aus der Düsseldorfer Universitätsmedizin.

Vor genau zwanzig Jahren stellte das Internationale Konsortium zur Sequenzierung des menschlichen Genoms den ersten Entwurf für eine Referenzsequenz vor. Zuvor hatten über elf Jahre lang mehr als eintausend Forscher aus vierzig Ländern gemeinsam daran gearbeitet, das erste menschliche Genom mit seinen 3,1 Milliarden Basenpaaren zu entschlüsseln. Nun kannte man den Inhalt des „Buchs des Lebens“ – aber was der Text bedeutete, blieb vorerst unklar.

Inzwischen hat sich in der Genomforschung viel verändert. Die Sequenzierung ganzer Genome wird immer schneller und preiswerter, ihre Auswertung ist jedoch noch immer anspruchsvoll. Hier ist die Expertise von Bioinformatikern wie Tobias Marschall gefragt, der seit Januar 2020 eine W3-Professur für Medizinische Biometrie und Bioinformatik an der Medizinischen Fakultät der Heinrich-Heine-Universität in Düsseldorf innehat. Am Ende seines Studiums der Naturwissenschaftlichen Informatik in Bielefeld entschied sich Marschall eher zufällig, wie er sagt, für eine Diplomarbeit mit bioinformatischer Fragestellung: „Ziel der Arbeit war es, mit überwiegend statistischen Methoden nach Mustern, also überhäufigen Sequenzen, in Genomen zu suchen.“ Seitdem ist er der Bioinformatik treu geblieben, und auch der Wechsel vom Max-Planck-Institut für Informatik in Saarbrücken an die Universitätsklinik in Düsseldorf war dadurch motiviert. „In Saarbrücken war die Bioinformatik ebenfalls stark, aber hier in Düsseldorf sind wir in der Medizin angesiedelt und kommen so direkt in Kontakt mit vielen möglichen Kooperationspartnern, die von der Anwenderseite aus auf unsere Arbeit schauen“, sagt der Bioinformatiker und fügt schmunzelnd hinzu: „Als Informatiker hatte ich anfangs Angst, vor einem biologischen Publikum zu sprechen, inzwischen ist es beinahe anders herum.“

jc_21_05_02a
Lange Zeit galt das Genom einer einzigen Person als Referenz für die Genomforschung – die menschliche genetische Vielfalt repräsentiert das nicht. Foto: iStock / Rawpixel

Blinde Flecken im Genom

Bei der Untersuchung von Genomen stehen meist die sogenannten Einzelnukleotid-Polymorphismen (Single Nucleotide Polymorphism, SNP) im Vordergrund, also Variationen einzelner Basen innerhalb einer Population. So werden SNPs beispielsweise in genomweiten Assoziationsstudien verwendet, um bestimmte Genotypen mit Phänotypen (meistens Krankheiten) in Verbindung zu bringen. Neben Einzelaustauschen gibt es in Genomen aber auch größere strukturelle Veränderungen – und genau dafür interessiert sich Marschall. Unter diese strukturellen Variationen fällt alles, was mehr als fünfzig Basenpaare umfasst, also Deletionen, Inversionen, Duplikationen und Translokationen. „Zahlenmäßig sind strukturelle Varianten zwar seltener als SNPs“, erklärt der Bioinformatiker, „aber wenn man die betroffenen Basenpaare betrachtet, machen strukturelle Variationen insgesamt einen größeren Anteil aus. Allerdings sind sie im Unterschied zu SNPs mit herkömmlichen Analysemethoden viel schwerer zu finden. Sie sind sozusagen die blinden Flecken der Genomforschung.“ Kein Wunder, dass strukturelle Variationen oft keinen Eingang in Assoziationsstudien finden.

Ein Grund, warum sich strukturelle Varianten so schlecht untersuchen lassen, ist die bereits erwähnte Referenzsequenz des menschlichen Genoms. Sie dient auch nach zwanzig Jahren immer noch als Vorlage, mit der die durch die Sequenzierung erzeugten kleinen Fragmente (Reads) verglichen werden, um auf das sequenzierte Genom zurückzuschließen. Allerdings handelt es sich bei der Referenz nur um ein einzelnes Genom, das die menschliche genetische Vielfalt nicht repräsentiert. Strukturelle Variationen, vor allem solche, die nur in bestimmten Populationen häufig sind, sind darin nicht abgebildet, und aktuelle Datenbanken mit entsprechenden Varianten sind sehr unvollständig.

jc_21_05_02b
Versucht das Genomdaten-Wirrwarr zu ordnen: Bioinformatiker Tobias Marschall. Foto: HHU

Diesen Missstand soll eine aktuelle Publikation des Human Genome Structural Variation Consortium (HGSVC) beheben, dem auch Marschall angehört (Science 372 (6537): eabf7117). Dafür haben die Düsseldorfer Forscher gemeinsam mit Kollegen vom Europäischen Laboratorium für Molekularbiologie in Heidelberg (EMBL), dem Jackson Laboratory for Genomic Medicine in Farmington in Connecticut und der University of Washington in Seattle die strukturellen Variationen in menschlichen Populationen analysiert und so als Vorlage für weitere Genomanalysen nutzbar gemacht. Über sechzig Forscher waren an der Arbeit beteiligt. „Am Ende hatte die Publikation den Umfang eines Buchs“, so Marschall. „Allein der Anhang umfasst mehr als 200 Seiten.“

Puzzle für Fortgeschrittene

Im Rahmen der Studie wurden die Genome von 32 Erwachsenen und zusätzlich von einigen ihrer Kinder sequenziert. Da das Erbgut der Nachkommen zur Vielfalt der strukturellen Varianten nichts mehr beiträgt, wenn man die Genome ihrer Eltern bereits kennt, dienten sie vor allem der Qualitätskontrolle für die neuen Technologien. Grundlage für die Sequenzierung waren Zelllinien von Menschen aus 26 verschiedenen Populationen. „Die HGSVC geht ursprünglich aus dem 1.000 Genomes Project hervor“, erklärt Marschall. „Innerhalb des Konsortiums gab es eine Gruppe für strukturelle Variationen, die sich dann neu formiert hat. Die nun verwendeten Zelllinien stammen ebenfalls aus dem 1.000 Genomes Project.“

Damit neue strukturelle Varianten überhaupt gefunden werden konnten, mussten die Wissenschaftler methodisch neue Wege gehen: Sie setzten die Genome aus den sequenzierten Abschnitten zusammen, ohne dafür auf das Referenzgenom zurückzugreifen. Eine solche De-novo-Assemblierung von Genomen ist erst seit wenigen Jahren zu vertretbaren Kosten möglich, wie Marschall erklärt: „Eine Voraussetzung dafür ist, dass bei der Sequenzierung lange Sequenzen anfallen – die sogenannten Long Reads. Mit dem Next Generation Sequencing, das seit etwa 2006 möglich ist, erhält man dagegen nur etwa 150 Basenpaar lange Fragmente.“ Diese Short Reads reichen in der Regel aus, um sie einem Ort auf dem Referenzgenom zuzuordnen.

Dass sie jedoch für die De-novo-Assemblierung nicht geeignet sind, verdeutlicht der Bioinformatiker anhand eines Puzzles: „Kleine Puzzleteile kann man ohne Vorlage nur richtig positionieren, wenn sie sehr detailreich sind. Stellen Sie sich das Bild eines Schiffes auf einem Meer vor. Das Schiff kann man vermutlich aus kleinen Teilen zusammensetzen, aber für die konturlose blaue Fläche des Meers braucht man möglichst große Puzzleteile.“

Gerade Areale mit vielen repetitiven Sequenzen, in denen strukturelle Variationen bevorzugt auftreten, sind wenig detailreich, um beim Puzzle-Beispiel zu bleiben. Hier ist man auf Sequenziertechniken angewiesen, die Long Reads in der Größenordnung von zwanzig Kilobasenpaaren oder mehr erzeugen. Die vom Konsortium verwendeten Sequenziergeräte lesen jeweils ein einzelnes DNA-Molekül ab und können dabei sogar bis zu fünfzig Kilobasen große Fragmente erzeugen. „Allerdings ist diese Methode fehleranfällig“, schränkt Marschall ein. „Während wir die Daten erhoben haben, hatten wir das Glück, dass eine neue Technik entwickelt wurde. Dabei können Fehler korrigiert werden, indem die DNA zirkularisiert wird und so mehrfach abgelesen werden kann.“

Alte Sequenz neu bewertet

Eine weitere Besonderheit der Studie: Von jedem Erwachsenen konnten beide Haplotypen, also das mütterliche und das väterliche Genom, getrennt analysiert werden. Normalerweise weiß man zwar nach der Sequenzierung, welche Allele im Genom vorkommen, aber nicht, welche von ihnen gemeinsam auf einem Chromosom vorliegen. Die dafür verwendete Methode haben Marschall und sein Team erst 2020 veröffentlicht (Genome Biology 21: 252). „Wenn man das Erbgut der Eltern kennt, kann man versuchen, die einzelnen Allele des Kindes den Elterngenomen zuzuordnen. Wir wollten aber ohne Eltern auskommen“, erklärt der Forscher. „Bei der von uns etablierten Methode verwenden wir lange Reads zusammen mit Daten aus einer Einzelzellmethode namens Strand-seq. Dafür erlaubt man der Zelle genau eine Teilung und markiert dabei den neu gebildeten DNA-Strang. Anschließend sequenziert man nur den nicht-markierten Strang und kann dadurch auf die Sequenz eines Haplotyps zurückschließen.“

Mit einer anderen Methode gelingt es den Bioinformatikern sogar, die Haplotypen von polyploiden Nutzpflanzen wie der Kartoffel mit ihren vier Genomen zusammenzusetzen. „Tatsächlich wollen Pflanzenforscher ziemlich genau das Gleiche über ihre Sorten wissen, was wir gerade für den Menschen herausgefunden haben“, resümiert Marschall.

Jetzt, wo ein umfangreicher Katalog von strukturellen Varianten in der Menschheit erfasst ist, geht es daran, die biologischen Fragestellungen in den Vordergrund zu rücken. Dazu gehört insbesondere herauszufinden, ob man strukturelle Varianten bestimmten Phänotypen zuordnen kann. „Ein wenig haben wir mit dieser Arbeit in unserer Studie schon begonnen“, freut sich Marschall, dass jetzt die Früchte der methodischen Arbeit geerntet werden können. „Aber das ist erst die Spitze des Eisbergs. Es gibt im Genom unheimlich viele sehr komplexe Regionen, die sich schlecht analysieren lassen, die aber prädestiniert dafür sind, bei der Entstehung von Krankheiten eine Rolle zu spielen. Gemeinsam mit verschiedenen Kooperationspartnern aus dem HGSVC arbeiten wir gerade daran, diese Abschnitte für genomweite Assoziationsstudien zugänglich zu machen.“

Am Ende sollen die Erkenntnisse den Patienten zugutekommen. So können anhand von Short Reads nur weniger als die Hälfte der strukturellen Variationen in einem Genom entdeckt werden, Sequenziermethoden, die Long Reads generieren, sind aber noch relativ teuer. „Bis wir diese Verfahren routinemäßig auf Patientengenome anwenden können, wird es wohl noch eine Weile dauern“, vermutet Marschall und fügt hinzu: „Aber jetzt, wo man die strukturellen Variationen kennt, ist es möglich, viele von ihnen auch in Genomen wiederzufinden, die nur mithilfe von Short Reads sequenziert wurden. Wenn man weiß, wonach man suchen muss, kann man also bestehende Genomdaten noch einmal gezielt auf bestimmte strukturelle Variationen hin untersuchen.“ Und findet mit dem richtigen Werkzeug dann vielleicht etwas, was der Forschung bis dahin verborgen war.