Editorial

Virus Genomik - Noch viel zu tun

Andrea Pitzschke


(08.03.2021) Die Virus-Genomik hat nicht zuletzt durch SARS-CoV-2 derzeit Hochkonjunktur. Das Decodieren von Virengenomen sollte aber auch nach der Pandemie mit Hochdruck weitergehen. Nur so lässt sich der Wissensrückstand gegenüber den Genomen „echter“ Organismen zumindest ein Stück weit aufholen.

Die Zahl der Viren, die in Bakterien-, Pflanzen- und Tierzellen vorkommen, ist kaum zu überblicken. Entsprechend aufwendig ist ihre Analyse (siehe hierzu auch LJ 6/2019, Seite 16, Link). Das fängt bei der Isolierung und Kultivierung an, geht weiter mit der Übertragbarkeit von Protokollen und endet bei Verwandtschafts-Vergleichen. Einen gemeinsamen Nenner, wie zum Beispiel die rRNA-Sequenzen zellulärer Organismen, gibt es nicht. Virusgenome können als RNA, einzelsträngige DNA (ssDNA), doppelsträngige DNA (dsDNA), zirkulär oder in mehreren Stücken vorliegen. Die meisten sind kürzer als 100 kb und stammen zu 95 Prozent von nicht-kultivierten Viren.

Um Sequenzdaten wie die Visitenkarte eines Virus abrufen und ihre Qualität einschätzen zu können, forderte vor zwei Jahren eine große internationale Forschergruppe Mindestangaben zu Virusgenomen (Minimum Information about an Uncultivated Virus Genome, MIUViG). Zu den Minimalanforderungen gehören Angaben zu Virusquelle, Wirtsorganismus, zugrundeliegendes Labor- und Bioinformatik-Prozedere, Vollständigkeit des Genom-Zusammenbaus (Assembly) sowie Anzahl der Contigs (Nat. Biotechnol. 37(1): 29-37). Nur Sequenzen, die eine „Metadaten-Checkliste“ passieren, sollen in Datenbanken landen. Zur Einordnung der womöglich unbekannten Wirtsorganismen dienen Vorhersage-Programme, die unter anderem die Codon-Nutzung, die Ähnlichkeit zu einem Virus mit bekanntem Wirt oder das gemeinsame örtliche und zeitliche Auftreten berücksichtigen.

244a
Anhand der Sequenzierung von Virengenomen können Epidemiologen und Virus-Forscher die Evolution von Viren beinahe in Echtzeit verfolgen. Illustr.: CDC

Die zwei US-Forscher Gita Mahmoudabadi und Rob Phillips vom California Institute of Technology suchten 2018 in den damals knapp 4.400 verfügbaren Genomsequenzen nach Mustern (eLife 7: e31955). dsDNA-Viren dominierten – offensichtlich auch deshalb, weil diese einfacher zu analysieren sind. Jedes Virus benötigt etwa die Hälfte der Gene für die Struktur. In winzigen Kapsiden können große Genome stecken, genauso wie große Kapside kleine Genome beherbergen können. RNA-Viren haben längere Gene als DNA-Viren, und in eukaryotischen Wirten sind Gene von DNA-Viren länger als in prokaryotischen. Statt viele weitere Details in Worten oder seitenlangen Sequenzausdrucken angeben zu müssen, empfehlen die beiden Forscher einen einfachen Code, dessen Länge die Anzahl der Gene verrät. Für jedes Gen, das sich den Funktionen Genom verpacken, Virus-Kapsid, Virus-Kragen, Virus-Schwanz oder eine andere Funktion zuordnen lässt, steht einer von fünf Buchstaben. Aus dem Vergleich dieser komprimierten Genome erhielten Mahmoudabadi und Phillips verschiedene Muster – etwa Cluster von Genen, die an der Kapsid-Struktur beteiligt sind.

Vermeintlicher Schrott ist gefährlich

Genome von DNA-Viren enthalten durchschnittlich zehn Prozent nicht-codierende Abschnitte, RNA-Viren sechs Prozent (eLife 7: e31955). Diese können ebenso wenig als Junk abgestempelt werden, wie analoge Sequenzen im Humangenom, deren Bedeutung ursprünglich verkannt wurde. So können Virus-Varianten mit Mutationen in nicht-codierenden Abschnitten das Abwehrsystem ihres Wirts austricksen, egal ob in Pflanzen oder in Tieren (Viruses 11(5): 436; Genes Dev. 29(6): 567-84). Bei SARS-CoV-2 scheint zum Beispiel die 5‘-untranslatierte Region (5´UTR) des offenen Leserahmens orf1ab, die mehrere stabile Sekundärstrukturen formt, ein Hotspot für Mutationen zu sein (Sci. Transl. Med. 12(573): eabe2555). Umso wichtiger ist es, diese im Auge zu behalten.

Eine vorausschauende Herangehensweise zahlt sich auch zu Beginn der Probenaufbereitung aus, weil sich jeder Handgriff auf das Endergebnis auswirkt. Die ungleichmäßige Anreicherung oder Amplifikation von Sequenz-Abschnitten liefert ein verzerrtes Bild der Probenzusammensetzung, da bestimmte Nukleinsäuren diskriminiert oder bevorzugt werden. Zunächst muss aber klar sein, was man eigentlich sequenzieren will: ein Gen, einen Genabschnitt, ein Genom oder alle Nukleinsäuren in der Probe? Will man etwa wissen, welche Resistenzen krankheitsauslösende Viren gegenüber einem Medikament entwickeln, genügt mitunter die Sequenzierung eines einzigen Gens. So scheiden für HIV-Infizierte mit einer bestimmten Variante des Pol-Gens von HIV einige Enzym-Inhibitoren als Therapeutika von vornherein aus. Ist die Genmutation erst im Laufe der Zeit im Infizierten entstanden, ist eine Sequenzierung in die Tiefe (High Coverage) hilfreich. Aus möglichst vielen gelesenen Sequenzen (Reads) von Pol kann man auf das Verhältnis von Varianten schließen, die auf Medikamente reagieren oder gegen diese resistent sind. Der Arzt kann die Therapie in diesem Fall rechtzeitig umstellen. Versagt sie, sind womöglich weitere Mutationen außerhalb des Pol-Gens beteiligt. Wenn die zugehörigen Gene bekannt sind, kann man auch diese amplifizieren und sequenzieren.

Virus reist von Tirol nach Island

Bei unbekannten und verstreut liegenden Gen-Varianten, die zu Resistenzen führen, hilft aber ohnehin nur die Sequenzierung des gesamten Genoms weiter. Insbesondere im klinischen Kontext sollte diese obligatorisch sein (Nat. Rev. Microbiol. 15(3): 183-92). Technisch steht der Gesamtgenom-Sequenzierung nichts im Wege. Das größte Hindernis sind die Kosten, die mit der Länge des Genoms und der angestrebten Abdeckung (Coverage) wachsen. Vollständige Genom-Sequenzen können insbesondere epidemiologische Fragen klären, etwa welche Varianten eines Virus entstanden sind, wie diese weiter mutieren und wo sie bevorzugt auftreten. Dafür müssen die Sequenzen systematisch mit bereits bekannten verglichen werden, um phylogenetische Cluster aufzudecken.

Ein Paradebeispiel hierfür ist die österreichische „Ischgl“-Studie zur Mutations-Dynamik von SARS-CoV-2 während der ersten Welle der Pandemie. Mithilfe genomischer und phylogenetischer Analysen konnten die Forscher die Infektions-Route des Virus nachzeichnen, die ausgehend von Ischgl in Tirol nach Frankreich und schließlich Island führte (Sci. Transl. Med. 12(573): eabe2555).

Die Sequenzierung von Virusgenomen kann aber auch in vielen anderen Fällen dazu beitragen, phylogenetische Beziehungen innerhalb von Viruspopulationen zu klären. So beobachteten Zecken-Forscher in den letzten Jahren eine Ausbreitung des von Zecken übertragenen FSME-Virus in neue Habitate, zum Beispiel höher gelegene Gebirgsregionen in den Alpen. Durch Sequenz-Analysen konnte die Gruppe von Malena Bestehorn-­Willmann von der Universität Hohenheim nachweisen, dass das FSME-Virus diese neuen Lebensräume nicht mithilfe von Mutationen pro-aktiv erobert hat – sondern vermutlich nur vom Klimawandel profitierte (Virus Genes, doi: 10.1007/s11262-020-01821-w).

In der Regel ist der Anteil von Virus-RNA oder Virus-DNA in den entnommenen Proben im Vergleich zur DNA-Menge des Wirts oder dessen mikrobiellen Mitbewohnern verschwindend gering. Mit zwei unterschiedlichen Ansätzen gelangen Forscher dennoch zu verwertbaren Virus-Sequenzen: Bei der sogenannten Metagenomik gehen sie den direkten Weg und sequenzieren sofort drauflos. Die Nukleinsäure-Proben werden so oft sequenziert (Ultradeep Sequencing), dass genügend Reads des Virusgenoms ausgewertet werden können. Erst bei der Zuordnung der Sequenzen wird die Spreu vom Weizen getrennt. Der zweite Weg führt über die Anreicherung der Virus-Nukleinsäure vor der Sequenzierung. Dies erreicht man entweder durch die Amplifikation gewünschter Sequenzen (PCR Amplicon Enrichment Sequencing, beziehungsweise Target Enrichment Sequencing), oder durch Entfernen unerwünschter Sequenzen (Host Depletion).

Zusammengesetzte Puzzleteile

Bei beiden Strategien ist das Startmaterial eine biologische Probe (Abstrich, Zellkultur, Biopsie, Blattstück, et cetera), aus der DNA und/oder RNA extrahiert wird. Optional kann eine mechanische Anreicherung von Viruspartikeln durch Ultra-Filtration und Zentrifugation vorausgehen. Anschließend werden die Nukleinsäuren zu Bibliotheken für die Shotgun-Sequenzierung weiterverarbeitet. Nach der Sequenzierung suchen bioinformatische Algorithmen in den Fragmenten nach Überlappungen und setzen sie entsprechend zusammen. Eine Garantie, dass am Ende ein komplettes Genom herauskommt, gibt es jedoch nicht. Die direkte Sequenzierung bei Metagenomik-Ansätzen hat einerseits Vorteile, etwa wenn unerwartete Krankheitserreger zum Vorschein kommen. Andererseits können im klinischen Kontext durch „zufällige“ Befunde, die man eigentlich gar nicht abfragen wollte, ethisch heikle Situationen entstehen.

Wenn die Sequenz des Zielvirus zumindest in groben Zügen bekannt ist, etwa von einer Shotgun-Sequenzierung oder einem Datenbank-Eintrag, lässt sich sein Genom stückchenweise rekonstruieren. Beim PCR-Amplicon-Enrichment produziert man zunächst Fragmente mithilfe von Primern, die in geeigneten Abständen auf dem Genom hybridisieren. Ihre Enden überlappen, was den Zusammenbau zur Gesamtsequenz ermöglicht. Die separaten PCR-Ansätze benötigen jedoch viel Probenmaterial. Dafür erlauben sie aber auch die Analyse von Proben mit sehr geringer Viruskonzentration.

Selbst wenn die Abfolge der Gene in dem rekonstruierten Genom korrekt ist, kann es dennoch sein, dass dieses in der Natur gar nicht existiert. Auch bei überlappenden Enden, die jeweils perfekt passen, sind falsche Kombinationen möglich. Liegt eine Doppelmutante vor, oder stammt die Sequenz von zwei Viren mit je einer Mutation? Zumindest bei voluminösen Viren kann man diesem Rätselraten mit der sogenannten Single Particle Separation vorbeugen. Bei dieser werden die Virenpartikel vor der Amplifikation mittels Durchflusszytometrie vereinzelt (The ISME Journal 11(8): 1736-45).

244b
Der österreichische Virologe Andreas Bergthaler hat die neuen Varianten von SARS-CoV-2 mithilfe von Gesamt-Genomanalysen immer fest im Blick. Foto: CeMM
Rasch mutierende Viren

Problematisch sind insbesondere rasch mutierende Viren, bei denen ursprünglich perfekt hybridisierende PCR-Primer plötzlich nicht mehr funktionieren. Dazu kommen die üblichen Tücken der PCR, etwa Fehler der Polymerasen, die Mutationen vortäuschen. Theoretisch lassen sich mit der PCR-basierten Sequenzierung bis 250 kb große Genome entschlüsseln, realistischer sind jedoch 20 bis 50 kb (Nat. Rev. Microbiol. 15(3): 183-92). SARS-CoV-2 hat ein 30-kB-Genom.

Der Mutationsexperte Andreas Bergthaler vom CeMM Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften, der auch bei der Ischgl-Studie federführend war, erklärt wie seine Gruppe beim Amplicon Enrichment vorgeht. „Für SARS-CoV-2-Genomanalysen machen wir das Amplicon Enrichment mit zwei Sets von jeweils 98 Primern, basierend auf Amplifikations-Protokollen der ,ARTIC Netwok Initiative, (https://artic.network/ncov-2019). Das ergibt rund 100 Amplikons. Die Kosten pro Probe hängen von vielen Faktoren ab, belaufen sich aber grob auf 200 bis 300 Euro. Welche Proben zur Analyse kommen, wird in Abstimmung mit der Österreichischen Agentur für Ernährungssicherheit (AGES) entschieden. Ausgangsmaterial zur Sequenzierung ist immer die isolierte RNA von der Originalprobe, zum Beispiel einem Abstrich.“ Und wenn die nicht mehr verfügbar ist? „Die systematische Probenlagerung für eine etwaige Re-Sequenzierung ist wünschenswert, wird aber derzeit nur in einigen Ländern wie zum Beispiel Dänemark praktiziert“, erklärt Bergthaler.

Beim Target Enrichment fischt man ausgewählte Nukleinsäuren mithilfe spezifischer Köder aus der Probe heraus. Virus-Neuentdeckungen sind mit dieser zielgerichteten Methode unwahrscheinlich. RNA- oder DNA-Extrakte durchlaufen eine Pulldown-Prozedur (Oligo Capture). Hierfür werden kurze RNA- oder DNA-Abschnitte, die spezifisch im Virusgenom vorkommen, als Sonden auf einer Oberfläche immobilisiert, zum Beispiel biotinylierte Sonden auf Streptavidin-bemantelten Magnetkügelchen. Nukleinsäuren, die nach einem Waschschritt hybridisieren, werden mit sequenzspezifischen Adaptern ligiert. Danach werden sie amplifiziert und schließlich sequenziert.

Will man das gesamte Genom mit dieser Strategie erfassen, benötigt man eine Referenzsequenz. Je spezifischer die von dieser Sequenz abgeleiteten Sonden sind, desto aussichtsreicher ist der Ansatz. Wenn eine Sonde ein Stück des Virusgenoms aufgrund einer Mutation nicht erkennt, sollte eine andere an eine alternative Region binden. Verglichen mit der direkten Sequenzierung und dem Amplicon Enrichment sind die Sequenzierkosten geringer, der Aufwand zur Herstellung der Bibliothek aber höher. „Ein bisschen“ Enrichment, ohne Sequenzvorkenntnisse, geht jedoch auch. Mit der Pulsed-Field-Gelelektrophorese kann man große Virusgenome von kleineren DNA-Fragmenten der Wirtszelle trennen (Virology 488: 28-36).

Sequenzanalyse in Abwasser

Für ein Atemwegsvirus eher ungewöhnlich, wandert SARS-CoV-2 auch in Fäkalien, und macht damit städtische Abwässer zu einer aussagekräftigen Quelle für Sequenzierer und Epidemiologen. Ein Forscherteam aus Kalifornien zog im Frühsommer 2020 drei Monate lang täglich Mischproben aus Abwasser und bereitete sie für die Illumina-Sequenzierung auf (medRxiv, 2020.2009.2013.20193805). Die Gruppe reicherte die Viren in den Proben mittels Ultrafiltration an oder extrahierte mithilfe von Silika-Säulchen die gesamte RNA, die sie anschließend revers zu cDNA transkribierte. Für die Sequenzierung nutzte das Team ein kommerzielles auf Oligo Capture basierendes Virus-Panel für respiratorische Viren.

Die Sequenzdaten der Kalifornier waren sehr aufschlussreich. So dominierten Pflanzenviren in den Virussequenzen – trotz des durchgeführten Oligo Captures. Die Virus- oder RNA-Anreicherung war entscheidend für den Erfolg der Sequenzierung, wobei beide Techniken vergleichbare Ergebnisse lieferten. Die hierfür nötige SARS-CoV-2-Konzentration entsprach etwa einem CT-Wert von 33 bei den üblichen RT-qPCR-Analysen. Neben den bekannten SARS-CoV-2-Varianten fand die Gruppe noch weitere. Die relative Häufigkeit einzelner Virusvarianten ermittelten die Forscher mit dem Analyse-Programm InStrain, das sie ursprünglich für Mikrobiom-Studien entwickelt hatten (bioRxiv, doi: 10.1101/2020.01.22.915579).

Mit der Anreicherung der anvisierten Viren geht eine Abreicherung der restlichen Probenbestandteile einher. Wer RNA-Viren in menschlichen Proben direkt sequenziert, findet in den Reads 90 bis 99 Prozent humane rRNA. Die diversen kommerziellen Kits zur Beseitigung humaner rRNA wurden eigentlich für Human-Transkriptomanalysen entwickelt. Sie fischen die rRNA mit Wirtszell-spezifischen Sonden heraus, ganz ähnlich wie beim Oligo Capture. Die gebundenen rRNA-Moleküle werden mit RNAse H zerlegt, die Sonden mit DNAse I verdaut. Die restliche RNA wird revers zu cDNA transkribiert.

Reverse Transkription ohne Zufalls-Hexamere

Die klassische cDNA-Synthese ist ähnlich unspezifisch wie die Shotgun-Sequenzierung und nicht immer erhält man die gewünschten cDNAs. US-Forscher fanden jedoch einen Kniff, mit dem die reverse Transkription viraler RNAs gepusht werden kann, und setzten die Technik für die Sequenzierung von SARS-CoV-2 ein. Statt Zufalls-Hexamere nutzt ihre sogenannte V-Seq-Methode überlappende RT-Primer für die reverse Transkription (bioRxiv, doi: 10.1101/2020.08.15.252510). Aus allen 25-meren, die im SARS-CoV-2-Genom nur einmal auftreten, filterten die Forscher solche mit geeignetem GC-Gehalt heraus. Von diesen kamen nur diejenigen als Kandidaten für Hexamer-Primer infrage, deren Sequenzen in rRNA-Genen nicht vorkommen und auch in humanen Transkripten möglichst selten sind.

Die Primer-Kandidaten fasste die Gruppe zu einem Set zusammen, in dem die Primer regelmäßig über das SARS-CoV-2-Genom verteilt sind und höchstens 182 Nukleotide auseinanderliegen. Die Forscher erreichten mit V-Seq eine neunzigfache Anreicherung der SARS-CoV-2-Reads. Die Viruskonzentration der Proben entsprach damit etwa einem CT-Wert von 25 bei der RT-qPCR. Von den RNA-Proben bis zur sequenzierfertigen Bibliothek benötigten die US-Amerikaner circa fünf Stunden.

Long-Read-Sequenziertechnologien, wie zum Beispiel die Nanoporen-Sequenzierung können den Platzhirsch Illumina bei der Analyse von Virusgenomen (noch) nicht verdrängen. Sie machen zu viele Lesefehler, die insbesondere bei schnell mutierenden Virusgenomen sehr problematisch sind. Die Long-Read-Sequenzierung hat jedoch den Vorteil, kurze Genome in einem Zug lesen zu können. Zudem ist sie auch mit Multiplexing-Ansätzen und Amplicon-Enrichment-Verfahren kompatibel (BMC Infect. Dis. 20(1): 648).

Viren-Sammlungen

Die mit den verschiedenen Techniken erhaltenen Viren-Sequenzen werden in Datenbanken gesammelt. So stellt zum Beispiel das NCBI Virus Portal des National Center for Biotechnology Information in Bethesda, USA, Sequenzdaten aus verschiedenen Quellen sowie Werkzeuge zur taxonomischen Einordnung und Zuordnung zu Wirtsorganismen zur Verfügung (www.ncbi.nlm.nih.gov/labs/virus/vssi/#/). Selektiert man nach bestimmten viralen Taxa, werden Wirtsorganismen, sortiert nach der Häufigkeit der gefundenen Sequenzen, angezeigt. Gegenüber 5,8 Millionen Virussequenzen (5,5 Millionen davon RNA-Viren) aus menschlichen Proben, gefolgt von Hausschwein (390.000), pathogenen Bakterien und diversen Nutztieren sind Pflanzenvirus-Sequenzen weit abgeschlagen. Der botanische Spitzenreiter ist die Tomate mit 29.000 RNA-Virus-Sequenzen.

Mittlerweile beherbergt die Datenbank GISAID, die ursprünglich für Influenza-Viren angelegt wurde, über eine halbe Million SARS-CoV-2-Genomsequenzen. Sie stammen von weltweit analysierten Proben und helfen, Virus-Varianten zu erkennen und Infektionscluster zu definieren. Der Zugriff ist gratis, für die Verwertung der Daten, etwa für eigene phylogenetische Analysen, muss man jedoch das OK der Autoren einholen. Damit haben die Urheber der Daten einerseits Gewissheit, dass ihre Sequenzen nicht unzitiert in Studien anderer Wissenschaftler auftauchen. Andererseits bremst dieses Vorgehen den wissenschaftlichen Austausch und Fortschritt. Mehrere hundert Wissenschaftler haben deshalb in einem offenen Brief auf der Webseite des COVID-19-Datenportals dazu aufgerufen, SARS-CoV-2-Rohdaten auch an die Datenbanken der International Nucleotide Sequence Database Collaboration (INSDC) zu schicken, um sie möglichst rasch frei zugänglich zu machen (www.insdc.org). Andreas Bergthaler ist in diesem Punkt jedoch etwas entspannter und meint dazu: „GISAID und die Konditionen sehe ich nicht so kritisch. Im Gegenteil, meiner Meinung nach ist das sogar eher förderlich für den schnellen wissenschaftlichen Datenaustausch.“



Letzte Änderungen: 08.03.2021