a_lj_p_4_9
a_lj_p_5_9
a_lj_p_7_9

Mehr als Erbsenzählen
Produktübersicht: Software für DNA- und Protein-Analyse

Confetti

In Zeiten, in denen das Sequenzierungs-Fieber unter ­Genomforschern schlimmer wütet als die Pest in der Bevölkerung des mittelalterlichen Europas, sind effektive Bioinformatik­Programme wichtiger denn je.

Spätestens seit dem Einzug von Next Generation Sequenzier-Geräten (NGS) in die Labore von Genomikern, Proteomikern und sonstigen „Omikern“ ist es untertrieben, wenn von einem exponentiellen Anstieg der produzierten Datenmengen die Rede ist. Derzeit explodiert die von Sequenzierern und anderen Hochdurchsatzgeräten ausgespuckte Datenmenge geradezu. Allein für die Archivierung der bei der NGS anfallenden Bild-Rohdaten sind Speicherkapazitäten von mehreren duzend Terabyte nötig. Dagegen wirken die 25 Gigabyte, die auf einer üblichen Blueray-Disk platz finden niedlich. Die Archivierung der Daten ist dabei noch das kleinste Problem, die eigentliche Herkulesarbeit besteht darin, die Datenflut zu kanalisieren und auszuwerten.


Fertig geschnürte Pakete

Die dazu nötige Software können sich Molekularbiologen entweder kostenlos auf den unzähligen, für Laien wie den LJ-Redakteur längst nicht mehr überschaubaren Internet-Flohmärkten für Bioinformatik-Programme herunterladen, oder gegen Bezahlung eines deftigen Obolus bei kommerziellen Softwareentwicklern erwerben. Letztere bieten in der Regel umfangreiche Programmpakete oder Suiten an, die alles enthalten, was Molekularbiologen für die Analyse von DNA- oder Proteinsequenzen brauchen.

Dazu gehört zunächst ein Zugang zu den großen DNA- und Protein-Datenbanken etwa von EMBL, EBI, NCBI oder DDBJ. Diesen Part übernehmen in die Programme integrierte Genom Browser, mit denen man Sequenzen oder andere Informationen aus den Myriaden von Datenbankeinträgen herausfiltern und für die weitere Analyse auf dem eigenen Rechner speichern kann.

Das Herzstück jeder Bioinformatik-Suite sind aber Alignment-Programme für den Sequenzvergleich. Hier greifen auch kommerzielle Anbieter gerne auf freie Programme zurück und binden sie in ihre Programmpakete mit ein. So verzichten die wenigsten auf das derzeit populärste Alignment-Werkzeug, BLAST und seine vielen Varianten. BLAST nimmt es bei den Sequenzvergleichen zwar nicht ganz so genau, dafür ist es aber äußerst fix und wühlt sich in Windeseile auch durch große Datensammlungen hindurch. In vielen Programm-Paketen ist BLAST oder ein Ableger davon deshalb erste Wahl für den schnellen Abgleich einer Sequenz gegen die Abermillionen Einträge in den Datenbanken von NCBI und Co.

Mit BLAST sind zwar auch Multiple Alignments möglich, bei denen man viele Sequenzen gleichzeitig und sehr detailliert auf konservierte Strukturen oder Sequenz­blöcke untersucht. Viele Bioinformatiker und Molekularbiologen bevorzugen hierzu jedoch das Programm ClustalW, das auf dem Webserver des EBI für den kostenlosen Download bereit steht. Auch um diesen Bioinformatik-Renner kommen die kommerziellen Softwareanbieter im Grunde nicht herum und implementieren es daher neben ihren eigenen Alignment-Werkzeugen in die angebotenen Programm-Pakete.

Für eine ClustalW-Abfrage muss man bei einigen Anbietern lediglich den Pfad zu dem bereits auf dem eigenen Rechner installierten ClustalW angeben und kann das Programm dann direkt von der Benutzeroberfläche der Suite heraus starten, ohne Sequenzen importieren oder exportieren zu müssen.

Auch bei der Konstruktion von phylogenetischen Bäumen setzen die Programm­entwickler meist auf Altbewährtes und verwenden häufig Distanzmaß-orientierte Methoden, beziehungsweise Programme, die zum Beispiel auf den vielgenutzten Algorithmen UPGMA oder Neighbor-Joining basieren. Wer ausgefeiltere Konstruktionsmethoden verwenden will, kann die Programmpakete teilweise über Plugins mit zusätzlicher Stammbaum-Software aufrüsten. Programme, die bei Primer-Design und täglicher Klonierungsroutine helfen die richtigen Oligos oder passenden Schnittstellen für Restriktionsenzyme zu finden, komplettieren die Bioinformatik-Pakete.


DNA-Konfetti

Ein neues und extrem schnell wachsendes Betätigungsfeld für die Programm-Entwickler eröffnen die oben erwähnten Sequenzierungsverfahren der nächsten, besser gesagt aktuellen Generation. Diese sind der altehrwürdigen Sanger-Sequenzierung in punkto Geschwindigkeit und Kosteneffizienz zwar haushoch überlegen. Einen wesentlichen Schwachpunkt des Sanger-Vefahrens, die kurze Leseweite beziehungsweise Länge der Reads, haben aber auch die NGS-Verfahren nicht beseitigt. Ganz im Gegenteil. Teilweise produzieren sie Unmengen extrem kurzer Reads mit gerade einmal 35 bis 100 Basenpaaren, die Assemblierungs-Programme mühsam zu größeren Teilsequenzen (Contigs) zusammen puzzlen müssen. Dazu sind sehr hohe Rechenleistungen nötig, die jeden Standard-PC in die Knie zwingen. Die Programmanbieter sind deshalb dabei, clevere Assemblierungs-Algorithmen zu entwickeln und in ihre Programmpakete zu integrieren, die die Verarbeitung kurzer­ Reads vereinfachen und beschleunigen sollen.


(Erstveröffentlichung: H. Zähringer, Laborjournal 9/2009, Stand: Juli 2009, alle Angaben ohne Gewähr)


Hier erhalten Sie diese Produktübersicht als Acrobat Datei (.pdf):

A4 Format zum Ausdrucken




Letzte Änderungen: 09.09.2009


Impressum | Datenschutz | Haftungsausschluß

© 1996-2016 LJ-Verlag GmbH & Co. KG, Freiburg, f+r internet agentur, Freiburg,
sowie - wenn nicht anders gekennzeichnet - bei den jeweiligen Autoren und Fotografen.