Editorial

Tipp 107:
Googeln im Intranet


Nicht nur in der Redaktion des Laborjournals ist die Suchmaschine "Google" im Dauereinsatz, wenn es darum geht, das Internet nach Information zu durchwühlen. Wie Sie im Labor den Google-Ableger "Google Desktop" für die Suche in Ihrem Intranet nutzen können, weiß Matthias Faix.

Faix ist Datenbank- und Netzwerkadministrator an der Informationszentrale gegen Vergiftungen der Universität Bonn und verwaltet dort tausende von Sichersheitsdatenblättern. Auf diese können die Ärzte des Zentrums, etwa beim Verdacht auf eine Vergiftung, über das Intranet des Hauses zugreifen.


"Sehr geehrtes Laborjournal-Team,

unser Ziel ist es, Sicherheitsdatenblätter und andere Dokumente so zu "verschlagworten", dass sie Ärzte, Biologen und Chemiker von jedem Terminal aus mit einer Volltextsuche schnell und einfach finden können. Dabei sollte die Einarbeitungszeit in das Programm für die Anwender möglichst kurz sein. Das Problem an den Sicherheitsdatenblättern ist, dass die Firmen die Dokumente in unterschiedlichen Formaten liefern, was die Suche erschwert.

Für die Suche verwenden wir die Suchmaschine "Google Desktop". Dazu spielen wir die Daten auf einem separaten Rechner in ein spezielles Directory (Verzeichnis) ein. Als Formate können die Standardtextformate von "MS Office" und "Open Office" dienen. Sobald sich der Inhalt des zu bezeichnenden Directorys ändert, startet ein Prozess, der die Dateien auswertet und "verschlagwortet". Jede Firma bekommt ein eigenes Subdirectory. Dadurch hat man später mehr Suchmöglichkeiten.

Da das Programm Google Desktop keinen eigentlichen Netzzugriff gestattet, wird es mittels des Programms DNKA in der Version 0.49 quasi aufgebohrt. So können unter Berücksichtigung verschiedener Sicherheitsaspekte die Informationen auf andere Rechner im Netz projiziert werden. (Beide Programme sind im fortgeschrittenen Beta-Stadium. Dies sollte im professionellen Einsatz berücksichtigt werden). DNKA kann unter http://dnka.com/downloads.html downgeloaded werden. Nach dem Download wird das Programm als so genanntes "Gadget" in den Google Desktop integriert. DNKA ist ein Sharewareprogramm (siehe Lizenzbedingen), das im kommerziellen Bereich etwa 30 Euro (39 Dollar) kostet.


Für den Anwender sieht das Ganze wie das gewohnte Google-Fenster aus. Damit reduziert sich der Erklärungsaufwand für die beratenden Ärzte auf ein Minimum. Im Suchfeld können mit Einschränkungen die gewohnten Abfragen in Google-Art eingegeben werden. Der Benutzer gibt zum Beispiel die Abfrage "Beckensteine" ein. Als Return bekommt er folgende Antwort:

Der gesamte Bestand wird nach dem Schlüsselwort "Beckensteine" durchsucht. Derzeit sind 5.000 Dokumente im Bestand. Die Antwortzeit beträgt weniger als eine Sekunde. Bemerkenswert ist auch die Anzeige des Auswahlfensters, die nach dem gewohntem Google-Layout erfolgt. Der Kontext in dem das Suchwort vorkommt wird angezeigt, so dass eine schnelle Auswahl des Textes erfolgen kann.

Wenn man den Schalter "Relevanz" betätigt sortiert das Programm die Dokumente nach ihrer Relevanz aus (Google schweigt sich jedoch darüber aus, was Relevanz besagt). Die Anzeige erfolgt durch Doppelklick auf den Dokumentennamen, dabei wird das zu rufende Programm automatisch gestartet. Sollte das Programm nicht zur Verfügung stehen, kann man es herunterladen oder aber über die Funktion "Im Cache gespeichert" auf eine Textversion zugreifen. Diese wandelt "Word" und "Adobe" oder verwandte Programme in ein Textformat um. Hier ist aber besonders in der Formatierung und im Zeichensatz noch der Beta-Charakter der Software zu spüren. Speziell bei Tabellen kann es zu unleserlichem Kauderwelsch kommen.

Andere Sucharten gehen auch. Zum Beispiel Multiwortsuche (" /Biesterfeld/Beckensteine"), Reihenfolgeabhängiges Suchen ("Pentaclean Bio Beckensteine"), Suchen in Schnittmengen ("Biesterfeld-Beckensteine"). Es gibt auch eine erweiterte Suche, die selbst hartnäckige Anfragen erledigen sollte. Leider sind die trunkierte Suche und die Fuzzy-Suche noch nicht möglich.

Das Einspeisen von Dokumenten in diese firmenweite Suchmaschine erfolgt über Netzwerkfreigabe und Windows-Boardmittel. Die Verschlagwortung kann einige Zeit in Anspruch nehmen (bei 1000 Dokumenten durchaus mehrere Stunden). Google Desktop läuft im Hintergrund und schlägt bei Leerlauf zu. Über den Verlauf der Suche gibt das Anwahlfeld "Indexstatus" Auskunft.


Thema Sicherheit: Der Zugriff kann über DNKA durch Auswahl des Ports, der IP und passwortgeschützt erfolgen. Eine grobe Sicherheitslücke scheint der mögliche Zugriff auf das gesamte Verzeichnis zu sein. Es genügt, wenn man ein Dokument kennt, um Zugriff auf das gesamte freigegebene Verzeichnis zu erlangen!

Google Desktop hat eine offene Schnittstelle, die es ermöglicht, ein aktives Intranet zu gestalten. Damit lassen sich situationsbezogene Inhalte anzeigen, zum Beispiel könnte man jedem User sein eigenes Intranet zusammenstellen. Und Sie können auch "Gadgets" verteilen. In der Sprache von Google sind Gadgets eigene, kleine Hilfsprogramme, die geneigte Benutzer den anderen im Internet freundlicherweise zu Verfügung stellen.

Letztlich kann Google Desktop zusammen mit DNKA einen großen Teil der im Intranet schlummernden Dokumente und Texte auf einfache und billige Art sichtbar machen. Man sollte jedoch nicht vergessen, dass aus schlechten Dokumenten auch durch raffinierteste Zutaten keine Lichtblicke werden können. Und Sie sollten berücksichtigen, dass Google Desktop in einigen Punkten noch nicht ausgereift ist. So hat es zum Beispiel noch folgende Schwachpunkte:
  1. Die Indexierung läuft, wann sie will.
  2. Die Relevanz der Dateien bestimmt nicht der Adminstrator, sondern Google.
  3. Die Einbindung intelligenter Suchverfahren (trunkierte Suche, Synonyme und Thesauren) in Google Desktop hat Google angekündigt, aber noch nicht realisiert.
  4. Es besteht die Gefahr, dass Informationen nach außen gelangen.
  5. Man ist von zwei Produkten abhängig.

Fazit:

Die Kombination aus den beiden einfachen Programmen DNKA und Google Desktop erleichtert uns die Arbeit. Wir nutzen Win2000, WinXP und Linux sowie PCs und Mackintosh-Rechner. Durch die Verwendung des normalen Browsers (Safari geht auch, Mozilla und Internet Explorer sind für Macs ok) bewegt man sich auf der Ebene des kleinsten gemeinsamen Nenners. Deswegen erhielt dieses kleine Mini-Projekt innerhalb der Anwendergemeinde im Hause die meiste Zustimmung gegenüber Alternativprodukten wie ELO, Dr. Doc oder Askam 6.i.

Für eine echte Dokumentenverwaltung ist diese Lösung trotzdem zu eingeschränkt. Wir testen im Rahmen einer Studienarbeit die Umwandlung der Dokumente in das Format XML und deren Aufnahme in eine recherchierbare XML Datenbank. Dies ist leider noch nicht in einer Beta-Phase und deswegen Thema einer anderen Arbeit."




Letzte Änderungen: 15.09.2006