Editorial

Wie gut ist mein Genom?

(28.9.16) Für den Qualitätsvergleich von Genom-Assemblies gibt es ein paar nützliche Kennzahlen. Besonders anschaulich ist die BUSCO-Analyse – denn sie verrät etwas darüber, wie vollständig eine Genomsequenz ist.
editorial_bild

© Science in School

Genomsequenzen sind nichts besonderes mehr. Dank Next Generation Sequencing, fallenden Preisen und semi-automatisierter Bioinformatik sind frisch sequenzierte Genome nur noch selten eine Nachricht wert, und Glam-Journals winken meist müde ab; es sei denn, die Forscher können mit ihrem Datenberg auch gleich eine interessante biologische Frage beantworten. Oft ist eine neue Genomsequenz aber eher eine Ressource, die später andere Forscher nutzen können.

Aber bei der Routine, mit der Genom-Papers heutzutage erscheinen, gerät ein wenig aus dem Blickfeld, dass nicht alle dieser "Draft"-Genomsequenzen von gleicher Qualität sind. Denn kaum ein Genomprojekt wird wirklich so weit getrieben, dass man bis zum letzten Nukleotid eine durchgehende Sequenz erhält – das ist in der Regel auch kein sinnvolles Ziel.

Ein Genom-Assembly besteht vielmehr aus mal mehr, mal weniger Contigs und Scaffolds. Contigs sind zusammengepuzzelte Abschnitte, in denen Reads überlappen (Reads heißen die kurzen Schnipsel der Rohdaten, die aus dem Sequenzierer kommen). Innerhalb eines Contigs gibt es keine größeren Lücken, von einzelnen Sequenzierfehlern mal abgesehen. Gelingt es dem Bioinformatiker, mit zusätzlichen Infos mehrere dieser Contigs in biologisch richtiger Abfolge anzuordnen, so hat er einen Scaffold gebastelt. Scaffolds haben im Gegensatz zu Contigs größere Löcher.

Editorial

In erster Näherung gilt: Je länger die Contigs, desto vollständiger ist in der Regel die Genomsequenz. Quantitativ ausdrücken kann man das mit Hilfe der "ContigN50"-Länge. Diese entspricht in etwa der mittleren Länge eines Contigs im Assembly. Wer es genau wissen will: die ContigN50-Länge ist definiert als diejenige Contig-Länge, über der 50% der gesamten Genomsequenz liegen.

So ist zum Beispiel die ContigN50-Länge im 2,86 Gb langen "Draft"-Genom des Quastenflossers 12,7 Kilobasen (www.nature.com). Das heißt, die Hälfte der Sequenzinfo in diesem Genom-Assembly steckt in Contigs, die mindestens 12,7 kb lang sind.

Die Zahl ist ein nützlicher Indikator für die Qualität einer Genomsequenz. Aber die Contig-N50-Länge beantwortet nicht unbedingt die Frage, wie "komplett" eine Genomsequenz tatsächlich ist, aus der Sicht des Genetikers. Und die Qualität von Assemblies verschiedener Organismen, mit unterschiedlicher Genomgröße, kann man mit dieser Kennzahl auch nicht ohne Weiteres vergleichen.

In der Praxis ist es, je nach Fragestellung, oft gar nicht so furchtbar wichtig, wie viele Lücken eine Genomsequenz hat. Interessanter für Genetiker und Molekularbiologen ist, ob möglichst viele der potentiell interessanten Gene in der Sequenz enthalten sind.

Um ein Maß für die Vollständigkeit einer Genomsequenz zu bekommen, haben Bioinformatiker um Felipe Simao, Robert Waterhouse und Kollegen an der Uni Genf 2015 eine neue Methode samt Software ausgetüftelt, publiziert unter dem schönen Akronym BUSCO (für Benchmarking Universal Single Copy Orthologs – siehe (busco.ezlab.org).

BUSCO geht davon aus, dass es im Gen-Inventar einer neu sequenzierten Art in der Regel keine großen Überraschungen gibt.

Fehlen viele Gene, die bei den meisten nahe verwandten Arten vorhanden sind, so ist das in der Regel nicht ein Zeichen für ein ungewöhnliches Genom, sondern einfach für eine sub-optimale Sequenzabdeckung.

Um solche Vergleiche standardisiert durchführen zu können, haben Simao et al. "BUSCO-Sets" definiert, zunächst für sechs recht weit gefasste phylogenetische Gruppen wie "Fungi", "Arthropoden" oder "Wirbeltiere". In ein BUSCO-Set haben sie jeweils nur nicht duplizierte Einzelgene aufgenommen, die in circa 90 % der bereits sequenzierten Genome der jeweiligen phylogenetischen Gruppe vorhanden sind.

Das Wirbeltier-BUSCO-Set enthält beispielsweise 3023 Einzelgene. Analysiert man nun ein frisch sequenziertes Genom, so sucht die Software in der neuen Sequenz nach diesen 3024 Genen und entscheidet anhand von Cutoff-Werten für jedes Gen, ob es vorhanden ist oder nicht. Da nur nicht-duplizierte Gene im Vergleichsdatensatz aufgenommen wurden, ist dabei meist eine eindeutige "1:1"-Zuordnung möglich.

Das Schöne an BUSCO ist, dass die Methode ein paar Zahlen auswirft, die auch dem Nicht-Bioinformatiker intuitiv etwas Sinnvolles über die Qualität einer Genomsequenz sagen. Am wichtigsten ist die Completeness: Ein Wert von zum Beispiel 85 % sagt aus, dass 85 % der Gene aus dem Vergleichsset auch im getesteten Assembly vorhanden sind – eine recht brauchbare Genomsequenz also.

Daneben kann BUSCO beispielsweise auch analysieren, wie viele Gene nur in fragmentierter Form vorliegen. Ist dieser Wert hoch, deutet das auf eine lückenhafte Abdeckung hin.

Mit der ContigN50-Länge korrelieren die Completeness-Werte der BUSCO-Analyse interessanterweise nicht besonders gut – was darauf hindeutet, dass die beiden Qualitätsindikatoren offenbar jeweils einen anderen, komplementären Güte-Aspekt der Genomsequenz erfassen.

Hans Zauner



Letzte Änderungen: 08.12.2016