Editorial

Schaufeln und Abladen mit der Maus

Proteinalignments mit STRAP

Christoph Gille


Alignment-Programme sollten mehr können als verwandte Sequenzen aufzulisten. Christoph Gille, der Entwickler des Programms STRAP, weiß worauf es ankommt.

Mit Sequenzalignments können Biologen Gemeinsamkeiten und Unterschiede zwischen verwandten Proteinen aufdecken oder Abschnitte in der Aminosäuresequenz identifizieren, die aufgrund funktioneller oder struktureller Bedeutung in der Evolution konserviert sind. Neben einer Vielzahl von Webdiensten und Kommandozeilen-orientierten Alignment-Programmen existiert eine große Zahl interaktiver Programme. Bekannte und kostenlose grafische Programme sind BioEdit, Cinema, ClustalX, GeneDoc, Jalview, MEGA, ModView, Pfaat, SeaView und Ugene. Kostenpflichtige Programme bieten Firmen wie Aertia, Geneious und CLC an.

Wissenschaftlern, die nur gelegentlich Alignmentaufgaben lösen möchten, kommen Programme mit intuitiver Benutzerführung, Standard Short Cuts und Mausbedienung entgegen. Prinzipiell sind die Möglichkeiten von Alignment-Programmen bezüglich Funktionalität, Erweiterbarkeit und Rationalisierung häufig wiederholter Analysegänge nach oben offen. Dies gilt auch für das kostenfreie Opensource-Programm STRAP, das sich mit Java Webstart auf allen Plattformen von der STRAP-Webseite (http://3d-alignment.eu/ oder http://www.charite.de/bioinf/strap/ ) oder vom Desktop-Icon starten lässt. Eine gesonderte Installation ist für STRAP nicht erforderlich.


Alignment-Ausschnitt
Beispiel eines mit STRAP exportierten Alignment-Ausschnittes. STRAP-Alignments kann man mit MS-Word oder Open Office wie ein beliebiges Textdokument editieren, um Publikations-taugliche Abbildungen zu erhalten.



Mit fast allen freien und kommerziellen Alignment-Programmen kann man Proteine über einen grafischen Dateiauswahldialog (Ctrl-O) laden. Das dazu nötige wiederholte Navigieren durch die Verzeichnisstruktur ist aber oft sehr zäh und mühsam. Eine bequeme Alternative ist Ziehen und Ablegen oder Drag-and-Drop (D&D), mit dem man Dateien oder andere Objekte mit der Maus bewegen kann. Sowohl kommerzielle als auch freie Programme, wie Jalview, Se-Al, STRAP und Ugene, nutzen D&D für den komfortablen Import von Protein- und Alignment-Dateien. Dabei bewegt der Nutzer eine oder mehrere Proteindateien und zieht sie in das Alignment-Programm. Die weitaus größere Zahl der Programme kennt diese Funktion jedoch nicht.

Viele Server geben Proteinlisten als Ergebnis einer Suche oder Berechnung aus. Die Proteine muss man dann einzeln aus dem Browser heraus in einem Temporärverzeichnis zwischenspeichern und von dort in das Analyseprogramm importieren. Optimal wäre es, wenn man die Proteine mit D&D unmittelbar von der Web-Seite laden könnte. Tatsächlich bietet die CLC-Oberfläche die Möglichkeit, ausgesuchte Protein- und Alignment-Texte direkt per D&D zu importieren. Dazu öffnet der Nutzer die reine Textversion des Proteins im Browser und markiert den Text mit der Maus, bevor er ihn in das Programm zieht. Aber auch hier kommt man um zwei aufwändige Schritte nicht herum: Navigieren und Markieren.


Mauswege verkürzen

Um diesen Vorgang zu vereinfachen entwickelten die STRAP-Programmierer eine neue Methode, mit der man die Proteinverweise direkt in das Programm ziehen kann. Damit kann der Nutzer eine größere Anzahl von Proteinen, zum Beispiel aus Ergebnislisten von Uniprot oder einer anderen Datenbank, direkt in das Alignment „schaufeln“. Um die zurückgelegten Mauswege zu verkürzen, enthält STRAP ein kleines verschiebbares D&D-Zielfenster, das dicht an die Proteinlinks herangeschoben werden kann. Dadurch sinkt der Zeitaufwand pro Import unter eine Sekunde. Danach sind die Proteine im Alignment enthalten und man kann sie durch Ziehen der Zeilenköpfe des Align­ments an beliebige Stellen des Dateisystems kopieren.

Editorial

Editorial

Programmapplikationen mit D&D-Unterstützung können auch selbst das D&D-Ziel sein. STRAP lässt sich so als „Zwischenstation“ verwenden, um Dateien vom Internet in andere Anwendungen zu importieren. Dabei unterscheidet STRAP zwischen Proteinen, Alignments, Aminosäureselektionen, Bildern und Ligandenstrukturen. Je nach Objekttyp und D&D-Ziel führt das Programm unterschiedliche Aktionen aus. Handelt es sich um ein Protein, wird es geladen. Wird hingegen ein Bild kopiert, so entsteht aus diesem ein Protein-Icon oder der Hintergrund einer Aminosäureannotation.

Automatisch generierte Sequenzalignments können bei entfernt verwandten Proteinen gravierende Fehler aufweisen, wenn man die 3D-Struktur der Proteine nicht berücksichtigt. Man erkennt dies, wenn funktionell wichtige homologe Sequenzpositionen, wie das aktive Zentrum oder Ligandenbindungsorte, nicht richtig zugeordnet werden. Trotz dieser Gefahr schenken viele Wissenschaftler den 3D-Strukturen bei Alignments zu wenig Beachtung. Das liegt weniger daran, dass sie die Bedeutung von 3D-Strukturen unterschätzen, als vielmehr am Fehlen der hierzu nötigen Programme. So berücksichtigen die wenigsten der oben erwähnten interaktiven Alignment-Programme die 3D-Koordinaten bei der Alignment-Berechnung. Lediglich einige wenige Kommandozeilen-orientierte Programme wie T-coffee, MultiProt und ClustalW, sowie die darauf basierenden Web-Dienste, nutzen 3D-Koordinaten für multiple Sequenzalignments. Im Gegensatz hierzu wählt STRAP die geeignete Strategie in Abhängigkeit der verfügbaren Information selbstständig aus. Sind keine 3D-Strukturen vorhanden, benutzt es ein rein sequenzbasiertes Verfahren. Liegt hingegen von zwei oder mehr der verglichenen Proteine eine 3D-Struktur vor, so kombiniert STRAP 3D-Überlagerungen und sequenzbasierte Verfahren miteinander.

STRAP-Molekülbetrachter Pymol
3D-Darstellung der schweren b-Myosin Kette des Herzmuskels mit dem STRAP-Molekülbetrachter Pymol. Die Positionen von Mutationen sind farbig hervorgehoben.



Wie findet der Nutzer die entsprechenden 3D-Strukturen? In der unteren Menüleiste befindet sich der Knopf „Associate 3D-structure“, mit dem man Atomkoordinaten identischer oder homologer Proteine zuordnen kann. Der Nutzer hat drei Möglichkeiten: Ist die 3D-Struktur des Proteins veröffentlicht und in der PDB abgelegt, kann STRAP auf den PDB-Verweis der Sequenzdatei zurückgreifen. Ist dies nicht der Fall, muss man die Struktur eines homologen Proteins ermitteln. Der klassische Weg ist die BlAST-Suche nach einer 3D-Struktur mit ähnlicher Sequenz im PDB-Archiv des EBI-Servers in Hinxton, England. Das dauert jedoch 20 lange Sekunden pro Protein. Wesentlich schneller ist es, wenn STRAP die bereits im Voraus berechneten BLAST-Ergebnisse von SSMap verwendet. Das ist aber nur bei Proteindateien möglich die aus Datenbanken stammen.

Wo liegt die Mutation?

Christoph Gille
Entwickelte STRAP
Christoph Gille.

Die Visualisierung von Alignments ist für die Beurteilung genetischer Varianten äußerst wichtig. STRAP speichert dazu Mutationen und SNPs als Aminosäure-Annotation. Letztere sind benannte Markierungen von Sequenzpositionen mit dazugehörenden Informationen wie Textnotizen, Internetverweisen und Skriptbefehlen für die PDF-Ausgabe mittels TeXshade. Ob sich eine Variation im Innern des Proteins oder auf der Oberfläche befindet und ob sie die Liganden-Bindungsorte oder das aktive Zentrum beeinträchtigt, erkennt man in der 3D-Darstellung. STRAP verwendet dafür den 3D-Betrachter Pymol, der so in das Programm eingebunden ist, dass Klicks auf Atome in der Moleküldarstellung dem Alignmentpanel „mitgeteilt werden“ und umgekehrt die aktuelle Cursorposition und Mausselektion des Alignmentpanels in Pymol als Selektionsobjekt vorliegt. Den markierten Sequenzpositionen kann man eine beliebige Zahl von Pymol-Befehlen zuordnen, um die Mutationen unterschiedlich darzustellen. Da Biologen oder Mediziner, zum Beispiel bei genetisch bedingten Erkrankungen, oftmals Hunderte verschiedener Mutationen beobachten, bietet STRAP die Möglichkeit, viele Sequenz-Annotationen gleichzeitig zu verändern. Auf diese Weise kann man den ausgewählten Amino­säuresequenzen gleichartige Pymol-Kommandos hinzufügen, zum Beispiel Ball-and-Stick-Darstellungen. Oft ist für das zu bearbeitende Protein keine 3D-Struktur vorhanden, dafür aber eine für ein ähnliches Protein. Auch für diese Fälle bietet STRAP Lösungsansätze an. Eine ausführliche Anleitung hierzu findet sich im STRAP-Menü „Tutorials“.

Viele Arbeitsgruppen präsentieren auf ihrer Web- oder Projektseite Alignments mit Unterstreichungen und Markierungen. Bei dieser Darstellungsweise lässt sich das Alignment nicht aktualisieren, wenn zum Beispiel nach der Fertigstellung neue Merkmale (Sequence Features) in die Datenbanken aufgenommen wurden. Sequence Features können zum Beispiel phosphorylierte oder glykosylierte Aminosäuren, ligandenbindende Aminosäuren, an der Katalyse beteiligte Aminosäuren oder Schnittstellen und vieles mehr sein. Mit STRAP kann der Anwender Proteindateien und Sequence Features frisch von der Originalquelle beziehen, um die aktuellen Sequenzmerkmale im Alignment zu visualisieren. Diese Web-Integration nutzen derzeit die Web-Dienste Bioclipse, CE/CL, Gangsta+ 3D-superposition, Jena Library, PDBSum, Prodom, Superimposé und ViperDB um STRAP als Protein- und Alignment-Betrachter zu verwenden.







Letzte Änderungen: 18.06.2009