Editorial

Mit Bioinformatik gegen Spam

Spam-Mails nerven. Zunehmend. Doch wie filtern? IBM-Bioinformatiker erzielten jetzt gute Ergebnisse mit einem Algorithmus, der ursprünglich für die Sequenzanalyse entwickelt war.

(28.09.2004) "Es gibt keine angewandte Wissenschaft, es gibt nur Anwendungen der Wissenschaft." So sprach einst Louis Pasteur. Auch auf die Gefahr hin, in reine Wortspielereien abzugeleiten: Manchmal gibt es auch Anwendungen von Anwendungen für die Wissenschaft. Und die sind bisweilen alles andere als naheliegend.

Jedenfalls hatten gewisse IBM-Forscher 1996 nichts anderes im Sinn als die Nöte der vielen Biologen und Mediziner, auf die als Folge vieler Genomprojekte urplötzlich eine stetig steigende Flut von Sequenzdaten zurollte. Flugs schrieben sie einen Algorithmus, der den Forschern helfen sollte, die schier unendlichen Reihen von Nukleotiden und Aminosäuren nach wiederkehrenden Mustern zu durchsuchen - um ihnen somit die Sequenzanalysen zu erleichtern.

Schon damals bestachen die IBM-Programmierer durch eine gewisse Originalität in der Namensgebung: "Teiresias" nannten sie den Algorithmus, nach dem blinden Seher aus der griechischen Mythologie.

Prophetische Gaben wären wohl auch 1996 nötig gewesen, hätten die IBM-Forscher vorhersagen sollen, wie ihr "Teiresias" seit kurzem auch eingesetzt werden soll: als E-Mail-Spam-Filter nämlich.

Und zwar aus folgendem Grund: Einer der Haupttricks der wild wuchernden Werbemails besteht darin, dass sie die übliche Spam-Abwehr durch Zeichenersetzungen und -einschübe zu überlisten versuchen. Wobei die Schlüsselworte natürlich noch erkennbar bleiben müssen. Das klappt vor allem deshalb gut, weil unser Hirn selbst bei solchen Ungetümen wie V#ia`gr?a" oder "p0=rn!sT'ar$" immer noch weiß, was gemeint ist. "Teiresias" könnte nun bei der Abwehr solcherlei Spams helfen, da es folglich ebenfalls um Musterkennung geht. So die Idee.

Die Bioinfomatiker Isidore Rigoutsos und Tien Huynh vom IBM Thomas J Watson Research Center konfigurierten daher den Algorithmus kurzerhand um - vom DNA-Durchsucher zum Spam-Spürhund. Und das nicht schlecht: Nach einer kurzen Trainingsphase filterte der Software-Prototyp aus 88.000 Spams knapp 97 Prozent heraus. Die Rate für falsch Positive betrug 0,066 Prozent, oder eine "echte" E-Mail von sechstausend.

Nun will IBM den einstmaligen Sequenzsucher in einen kollaborativen Anti-Spam-Filter namens "SpamGuru" integrieren. Den Namen "Teiresias" wollten die IBM-Forscher ihm hierbei allerdings nicht lassen. Würde ja auch nicht wirklich passen. Statt dessen tauften die IBM-Leute den "Teiresias-Abkömmling" auf "Chung-Kwei". Dieser ist eine Figur aus dem Feng-Shui, zumeist dargestellt mit einem Schwert sowie einer Fledermaus in der Hand - dem Symbol für Wohlstand und Langlebigkeit. Außerdem schaut Chung-Kwei ziemlich wild und grimmig, weswegen die IBM-Forscher ihn wohl als ideale Symbolfigur für "Schutz" ansehen.

Griechische Mythologie gebiert also chinesische Harmonielehre? Nun ja - wenn's denn hilft.

Ralf Neumann



Letzte Änderungen: 01.10.2004