Editorial

Die EMBO Software Suite

Die eierlegende Wollmilchsau?

von Thomas Siegmund


Computerprogramme für die Sequenzanalyse sind aus dem molekularbiologischen Alltag nicht wegzudenken. Doch oft genug sorgen sie für Frust: entweder sie sind teuer, unpraktisch oder den Datenmassen der Genomprojekte nicht mehr gewachsen. Oder alles zusammen. Daß es auch anders geht, beweist die "European Molecular Biology Open Software Suite", kurz: EMBOSS .

Ob Alignments, Restriktionsanalysen oder Proteincharakterisierung: Professionelle Sequenzanalyse war mehr als ein Jahrzehnt lang gleichbedeutend mit den drei Buchstaben "GCG". Das Programmpaket der "Genetics Computer Group" der Universität Wisconsin lief zwar nur auf teuren Unix- oder Vax-Servern, aber es enthielt für fast jeden Zweck das nötige Werkzeug. Das "Wisconsin Package" war deshalb auch in vielen Großforschungseinrichtungen das Rückgrat der Sequenzanalyse.

Was die Bioinformatikprofis besonders schätzten: Die GCG-Programme wurden mitsamt Quelltext geliefert. Das bedeutet: wer das nötige Know-how hatte, konnte direkt kontrollieren, ob die Programme wie gewünscht arbeiten und bei Bedarf sogar eigene Korrekturen und Erweiterungen einbauen. So auch beim EMBnet, dessen Wissenschaftler seit Ende der 80er Jahre mit "EGCG" eine ganze Sammlung eigener Programme auf der Basis von GCG nutzten. Diese Symbiose zwischen GCG und selbstbastelten Erweiterungen der Nutzer endete jedoch zehn Jahre später. GCG wurde privatisiert, und neue Lizenzbestimmungen verboten die Weitergabe modifizierter GCG-Programme. Den Programmierern beim "Human Genome Mapping Project", beim "Sanger Center" und anderen EMBnet-Organisationen war plötzlich die Arbeitsgrundlage entzogen.

Aus der Not eine Tugend gemacht

Aus der Not machten die EMBnet-ler eine Tugend: Sie beschlossen, ein von Grund auf neues Sequenzanalysepaket zu schreiben und es als "Open Source" zur Verfügung zu stellen. Das bedeutet, wie beim bekannten Linux Betriebssystem ist der gesamte Quelltext für jedermann nicht nur einsehbar, sondern darf auch nach Herzenslust verändert werden. Einzige Bedingung: wer veränderte Programme weitergibt, muß dem Empfänger die gleichen Rechte einräumen. Ein interessanter Nebenaspekt dabei ist der Preis. Die "European Molecular Biology Open Software Suite", kurz "EMBOSS", getaufte Programmsammlung ist kostenlos. Und sie läuft (unter anderem) auf dem ebenfalls kostenlosen Linux auf preiswerten PCs aus dem Supermarkt. Eine komplette, großzügig ausgestattete Sequenzanalyse-Workstation ist damit für rund 1500 Euro machbar - ein wenig Eigenintiative bei der Installation vorausgesetzt (Download-Adressen und Installationstips siehe Kasten).


Eineinhalb hundert freie Tools

Wer sich heute, drei Jahre nach den ersten Testversionen, das aktuelle EMBOSS 2.4.1 installiert, ist mit einer Fülle von Programmen konfrontiert. Mehr als 150 Tools decken fast jeden Bedarf ab: Alignments, Datenbankrecherchen, Identifikation von Proteinmotiven, Restriktionsanalysen, Codon usage und Primer Design - eine vollständige Diskussion würde ein ganzes Laborjournalheft sprengen. Zum Beispiel Restriktionsanalyse: Es gibt mit restrict ein klassisches Programm, das eine Liste der Schnittstellen in einer DNA-Sequenz erzeugt, und mit remap ein zweites, welches die Sequenz mit Schnittstellen und Translation ausgibt. Beide Programme weisen genügend Funktionen auf, um darüber einen Artikel zu schreiben. Doch darüber hinaus kann restover eine Sequenz nach Schnittstellen mit einem bestimmten Überhang durchsuchen. recoder und silent helfen bei der gerichteten Mutagenese: Sie entfernen Restriktionsschnittstellen oder fügen neue ein, ohne dabei das Translationsprodukt zu verändern. redata schließlich durchforstet die Enzymdatenbank Rebase nach nützlichen Informationen.

Ähnlich gut sind auch die meisten übrigen Bereiche der Sequenzanalyse in EMBOSS versorgt. Was fehlt, sind Programme zur schnellen Homologiesuche wie FASTA und BLAST sowie ein gutes Genvorhersage-Programm. Diese sind jedoch aus anderen Quellen ebenfalls frei verfügbar und können parallel installiert werden. In einigen Fällen dient EMBOSS vor allem zur vereinfachten Steuerung echter Programmklassiker. So gibt es aus EMBOSS einen direkten Zugriff auf clustalw für multiple Alignments und auf primer3 für die Wahl von PCR-Primern. In anderen Fällen wurden wichtige Programme anderer Autoren in EMBOSS integriert. Prominentester Vertreter dieser "EMBASSY"-Programme ist das Phylogenie-Paket Phylip, ein anderes Beispiel sind die Hidden Markov Model-Programme um hmmer, auf denen die Pfam-Proteindomänen-Datenbank und -suche basiert.


Polyglottes Universaltalent

Wer als Programmierer von Sequenzanalysesoftware etwas auf sich hält, der verewigt sich, so scheint es, zuerst in einem neuen Datenformat, das inkompatibel zu allen anderen Programmen ist. Die EMBOSS-Entwickler haben hier den entgegengesetzten Weg eingeschlagen: Ihre Programme lesen und schreiben rund dreißig verschiedenen Formate direkt. Für den EMBOSS-Benutzer ist damit Schluß mit lästigen Formatkonversionen oder gar dem Übertragen per Copy & Paste aus dem Webbrowser. Egal ob eine Sequenzdatei vom EMBL oder der Genbank heruntergeladen wurde oder aus anderen Programmen stammt: Jedes EMBOSS-Programm kann zig Formate lesen und schreiben.

Besser noch: Alle Programme können direkt auf verschiedene Datenbanken zurückgreifen - je nach Installation auf lokale Sammlungen oder auf entfernte Server. Um zwei Sequenzen aus der Swissprot mit Hilfe der Alignmentprogramme needle oder water zu vergleichen reicht es, dem Programm zwei Zugriffsnummern anzugeben: Ein Speichern auf der eigenen Festplatte ist nicht erforderlich, der Download der Datei vom Web-Server erfolgt für den Anwender unsichtbar im Hintergrund. Solche nützlichen Eigenschaften erben auch die in EMBOSS integrierten Fremdprogramme. Sogar die notorisch "zickigen" Phylip-Programme akzeptieren plötzlich fast beliebige Formate. Auch die Größe von Dateien spielen für EMBOSS keine Rolle: Wer die Restriktionskarte eines ganzen Bakteriengenoms erstellen möchte, kann das problemlos tun. Und schließlich kann EMBOSS mit einer ganzen Reihe von Spezialdatenbanken umgehen: Neben der schon erwähnten REBASE arbeitet es mit der CUTG Codon usage Bank und den SCOPE, PROSITE und PRINTS Proteindomänenbanken.

Aufmerksame Leserinnen warten vermutlich an dieser Stelle schon auf den Pferdefuß. Gratis, nützlich und von hoher Qualität, das geht doch kaum! Linux? Das heißt vermutlich, daß man auf jeden Komfort verzichtet und statt dessen kryptische Befehle in die Kommandozeile eintippt? Richtig geraten, EMBOSS ist eine Sammlung von Kommandozeilenprogrammen. Doch auch in Sachen Komfort hat Linux in den letzten Jahren enorme Fortschritte gemacht. Ein PC unter Linux braucht sich, was die Anwenderfreundlichkeit angeht, hinter seinen Pendants unter Windows oder MacOS nicht zu verstecken. Und auch EMBOSS kann neuerdings komfortabel mit der Maus gesteuert werden.

Exklusiv vom Autor: Volle Integration in moderne Linux-Oberflächen

Exklusiv für Laborjournal-Leser präsentieren wir hier erstmals eine vollständige Integration von EMBOSS in die "KDE"-Oberfläche moderner Linux-Systeme. Dabei wählt man das gewünschte Programm aus einem grafischen Menü, woraufhin sich ein Fenster öffnet, in dem alle Einstellungen für das fragliche Programm mit Maus und/oder Tastatur getroffen werden können. Dann ein Mausklick auf "Show" und das EMBOSS-Programm wird gestartet. Die Ergebnisse landen in einem neuen Fenster auf dem Schirm. Screenshot (180 kb)

Ist man mit dem Resultat noch nicht zufrieden, kann man die getroffenen Einstellungen korrigieren und erneut auf "Show" klicken. Sequenzen und Reports werden dabei in einem normalen Texteditor dargestellt, so daß sie problemlos gespeichert, gedruckt oder sonstwie weiterverarbeitet werden können. Grafiken können in verschiedenen Formaten gesichert werden. Diese neue Benutzeroberfläche für EMBOSS basiert auf "Kaptain", einem Open Source Programm von Terék Tzolt. Scriptdateien, mit denen Kaptain alles nötige zur Steuerung von EMBOSS beigebracht wurde, stellt der Autor dieses Laborjournal-Artikels zur Verfügung. Die EMBOSS-Autoren selbst arbeiten für größere Installationen an einer weiteren Benutzeroberfläche. Dabei wird EMBOSS auf einem Server installiert und von beliebigen Rechnern im Netz aus genutzt. Die gefürchtete Kommandozeile wird nur noch für die Installation gebraucht.

Fazit: Bisher keine gravierenden Pferdefüße bekannt

EMBOSS ist ein enorm umfangreiches Programmsystem, das zudem auch noch schnell weiterentwickelt wird. Mehrmals im Jahr erscheinen neue Versionen, häufig auch zusätzliche Programme. Erst kürzlich wurde EMBOSS um eine ganze Programmgruppe zur dreidimensionalen Struktur von Proteinen und darauf basierenden Alignments ergänzt. Entsprechend wichtig ist die Dokumentation. Die Kaptain-Fenster bieten zu vielen Funktionen Hilfe in Form von "Tooltips", welche unter dem Mauszeiger erscheinen. Zu jedem Programm gibt es eine Anleitung als HTML-Seite, außerdem einige einleitende Tutorials.

Sogar Support gibt es - in Form einer Mailingliste, in der Programmierer und andere Anwender bei Problemen weiterhelfen. Eine derart komplexe Software wie EMBOSS ist niemals fehlerfrei - auch der Autor dieser Zeilen ist bei der Arbeit mit EMBOSS auf die eine oder andere Ungereimtheit gestoßen. Eine freundliche Mail an die Entwickler hatte in jedem Fall eine ebenso freundliche Antwort zur Folge - und ein paar Tage später ein korrigiertes Programm.



Nützliche EMBOSS Links:




Letzte Änderungen: 08.09.2004