Wer nicht kodiert, erhält Aktenvermerk

(22.11.17) Die Annotation von Genen ist ein Balanceakt zwischen Genauigkeit und Durchsatz. Insbesondere bei langen nicht-kodierenden RNAs sind die in der GENCODE-Datenbank gesammelten Sequenzdaten noch sehr lückenhaft und ungenau. Ein neues Verfahren bügelt die Fehler aus und spürt neue lncRNAs auf.
Editorial
editorial_bild

© University of Toronto

Nur ein Bruchteil des menschlichen Genoms steht für Protein-verschlüsselnde Transkripte. Andere Regionen werden transkribiert, aber nicht translatiert. Je nach Länge (kürzer beziehungsweise länger als 200 Nukleotide) unterscheidet man kleine (snc-) und lange nicht-kodierende (lnc)RNAs. Von letzteren schwirren viel mehr im Genom herum als bisher gedacht; und die bereits identifizierten tragen hie und da Verstümmelungen, da ihre 5´- und 3'-Enden nicht korrekt annotiert sind.

lncRNAs haben aber sehr wohl Funktionen, etwa als Regulatoren „echter“ mRNAs. Deshalb muss auch diese eher dunkle Materie des Genoms ordentlich beleuchtet werden.

Genom-Annotationsmethoden sind immer ein Balanceakt zwischen Hochdurchsatz und Qualität. Unmengen von Transkripten nur kurz anzusequenzieren, und dann auf die tatsächliche Länge in silico zu vervollständigen ist relative kostengünstig, aber riskant. Seltene Transkripte - und das betrifft vor allem nicht-kodierende RNAs - werden übersehen, Strukturen falsch vorhergesagt.

Editorial

Angesichts dieser Unzulänglichkeiten machte sich ein internationales Team um Rory Johnson von der Universität Bern daran, lncRNAs mit der Capture Long-read Sequencing (CLS)-Strategie zu angeln und in ihrer ganzen Länge korrekt zu annotieren (Nature Genetics). Die Angel der Gruppe bestand aus sogenannten „Capture Oligos“, den Fischteich repräsentierten cDNA-Bibliotheken. Die Capture Oligos waren dafür ausgelegt, mutmaßliche lncRNA-Kandidaten in der GENCODE-Datenbank zu überprüfen, oder in neuen Loci aufzuspüren. In GENCODE suchten die Oligo-Proben überwiegend nach multi-exonischen Transkripten, in neuen, bisher unbekannten Loci zielten sie auf kleine RNA Gene, Enhancer oder ultrakonservierte Elemente aus denen üblicherweise lncRNAs entstehen.

Die Capture Oligos wurden hierzu mit einer cDNA-Bibliothek inkubiert, cDNAs die anbissen beziehungsweise mit den Proben hybridisierten wurden sequenziert. Das Fischen mit den Capture-Oligos führte zu einer knapp 19-fachen (Mensch) beziehungsweise 11-fachen (Maus) Anreicherung von lncRNAs. Da die Bibliothek aus nicht-fragmentierten, oligo-dT-geprimten cDNAs bestand, waren auch die geangelten lncRNAs heil und enthielten einen polyA-Schwanz. Die 5´-Enden überprüfte die Gruppe mit der CAGE-Methode (Cap Analysis of Gene Expression), um eine verlässliche Annotation des Transkriptstarts zu erhalten.

Editorial

Um die CLS-Strategie noch kostengünstiger zu machen, nutzten die Forscher einen Barcode. Dazu versahen sie die cDNA-Bibliotheken aus unterschiedlichen Geweben vorab mit einem gewebespezifischen Oligo-Barcode. So konnten die Wissenschaftler alle cDNA-Bibliotheken zusammen in denselben "Teich" werfen. Anhand des Barcodes verrieten ihnen die sequenzierten lncRNAs ihre Herkunft.

Die CLS-Technik brachte im Genom von Mensch und Maus circa 9000 beziehungsweise 3800 neue Spleißstellen ans Licht und erweiterte die bisherigen Annotationen um 6.3 sowie 1.6 Mega-Basen (86 beziehungsweise 64%).

Mit den durch CLS erhaltenen, verlässlichen lncRNA-Sequenzinformationen, begab sich das Team auf die Suche nach Mustern für lncRNA Gene. Diese könnten helfen, lncRNAs gezielter zu identifizieren. Dabei erhielten die Forscher ein noch etwas verschwommenes Bild. Die gefundenen lncRNAs sind im Durchschnitt 1100 Nukleotide lang und damit deutlich länger als die bisher angenommenen knapp 700 Nukleotide. Ihre Länge unterscheidet sich nur wenig von durchschnittlichen mRNAs (1200 nt), sehr wohl aber von Protein-kodierenden Transkripten (1500 nt). Eine durchschnittliche lncRNA hat 4,3 Exons, eine mRNA dagegen 6,7. Länger und dennoch weniger Exons? Dieser vermeintliche Widerspruch erklärt sich dadurch, dass lncRNAs längere Exons haben.

CLS räumt mit einigen Unzulänglichkeiten bisheriger Annotations-Strategien auf. Ein wirklich charakteristisches Muster in lncRNAs, ist aber auch mit CLS nicht zu erkennen. Es ließe sich aber vielleicht finden, wenn noch mehr Kandidaten-Gene durchforstet werden. Da die Methode in beliebigen Geweben und Spezies mit bekannter Genomsequenz funktioniert, stehen die Chancen nicht schlecht, auf entsprechende Muster zu stoßen.

 

Andrea Pitzschke

 

Letzte Änderungen: 15.12.2017