next up previous contents
Next: 4 Betriebliche Nutzung des Up: 3 WWW Previous: 3.3 HTML

3.4 Suchdienste

Die Größe des World Wide Web, seine fehlende Struktur und damit seine Unübersichtlichkeit machen es sehr schwierig bis unmöglich, gezielt an bestimmte Informationen zu kommen, vergleichbar mit der sprichwörtlichen Suche nach der Stecknadel im Heuhaufen.

Um diesem Problem zu begegnen, wurde schon sehr bald mit der Einrichtung von Suchdiensten begonnen, die auf verschiedene Art und Weise den Benutzer dabei unterstützen, Beiträge zu einem bestimmten Thema im Web zu finden. Heute zählen diese Suchmaschinen zu den am häufigsten frequentierten Hosts im WWW (vgl. [146], Seite 334).

Aufgrund unterschiedlicher Philosophien, die hinter den einzelnen Suchhilfen stecken, können vier verschiedene ,,Wege des Suchens`` unterschieden werden (vgl. [24], Seite 389):

In diesem Kapitel werden die vier genannten Möglichkeiten, die dahinter liegenden Suchdienste, deren Prinzipien und ihre Anwendung vorgestellt. Den Abschluß bildet ein Ausblick auf mögliche künftige Entwicklungen.

Übersichtskataloge

Übersichtskataloge sind, einfach gesagt, hierarchisch strukturierte Aufzählungen von Verweisen zu bestimmten Themenbereichen. Sie können mit Schlagwortkatalogen in Bibliotheken verglichen werden, in denen ebenfalls die Referenzkarten der vorhandenen Werke nach Themen geordnet sind. Innerhalb von Hauptkategorien erfolgt eine weitere Untergliederung in zunehmend detaillierte Sachbereiche, vergleichbar mit einem Baum, der sich in immer feinere Verästelungen verzweigt (vgl. [145], Seite 92). Die Blätter dieses Baums stellen Ansammlungen von Links dar, über die sofort durch Mausklick auf die jeweiligen, das Thema behandelnden Seiten gesprungen werden kann.

Einer der bekanntesten Kataloge im World Wide Web ist Yahoo!, dessen Themenbereiche sich von Kunst über Wirtschaft, Bildung, Unterhaltung, Gesundheit, Politik und Sport bis zu den Sozialwissenschaften erstrecken. Zusätzlich bietet Yahoo! die Möglichkeit, die erfaßten Verweise nach bestimmten Stichwörtern zu durchsuchen (vgl. [125]). Ein nicht minder bedeutender Katalog, der allerdings schon auf der obersten Ebene die unterschiedlichen Kategorien wesentlich genauer unterscheidet, ist The WWW Virtual Library. Die alphabetisch sortierte Liste reicht dort von Aboriginal Studies bis zu den Zoos (vgl. [118]).

Neben diesen allgemeinen ist im Web auch eine Menge von auf bestimmte Themenbereiche spezialisierten Übersichtskatalogen zu finden. Ein Beispiel ist WWW Provider's Tools & Docs, der alle Bereiche des Information Providing im World Wide Web abdeckt (vgl. [65]). Einen Überblick über allgemeine und spezielle Kataloge gibt [10], Seite 105.

Um auch den deutschsprachigen Markt entsprechend zu berücksichtigen, findet man im Web bereits einschlägige Kataloge wie DINO oder den deutschen Ableger von Yahoo! (vgl. [84] und [63]). Das Informationsangebot erstreckt sich auch hier auf die oben genannten Themen.

Die Aufnahme der angepriesenen Seiten in den Übersichtskatalog wird häufig von den Informationsanbietern selbst veranlaßt. Zu diesem Zweck werden eigene Add URL-Formulare angeboten, über die eine Organisation oder Firma ihre Homepage der Katalogverwaltung übermittelt (vgl. [126]). Manchmal erfolgt anschließend eine Überprüfung zur Entscheidung, ob die Adresse in die Liste aufgenommen werden soll.

Diese Moderation des Katalogs führt zwar zu einem relativ kleinen, dafür aber hochwertigen Informationspool. Meist ist eine Suche nach Seiten zu einem bestimmten Thema nur von wenigen Verweisen gekrönt, diese sind jedoch in der Regel auch tatsächlich brauchbar. Eine Recherche über Kataloge eignet sich daher vor allem dazu, einen ersten Überblick über ein Sachgebiet zu erhalten. Das große Problem der Übersichtskataloge ist andererseits das WWW selbst, in dem neue Hosts wesentlich schneller angeschlossen werden als die Kataloge verständigt und aktualisiert werden können. Somit können diese Dienste kaum wirklich aktuell sein.

Ein Ausweg aus diesem Dilemma ist, nicht nur auf zugesandte URLs zu warten, sondern auch selbst aktiv zu werden und das Netz nach interessanten Beiträgen zu durchsuchen. Diese Aufgabe übernehmen heute vielfach entsprechende Computerprogramme, sogenannte Robots.

3.4.2 Robots und Search Engines

Der weitaus größte Teil der Suchdienste im World Wide Web wird von Robots/Search Engines eingenommen. Bei diesen beiden Begriffen handelt es sich nicht um zwei Bezeichnungen für dieselbe Sache, sondern um zwei Mechanismen, die stets gemeinsam auftreten.

Das zentrale Bindeglied ist eine Datenbank, die Informationen darüber enthält, welche Stichworte wo im Web (also unter welchen URLs) zu finden sind. Die Benutzerschnittstelle, mit der diese Datenbank abgefragt werden kann, wird als Search Engine bezeichnet, da letztlich ein Computerprogramm die Datenbank nach den gewünschten Begriffen durchsuchen muß. Der Robot hingegen ist dafür zuständig, daß die Datenbank stets auf dem aktuellen Stand bleibt und mit Informationen gefüllt wird.

Im World Wide Web gibt es zahlreiche Suchdienste, die nach diesem Prinzip arbeiten. Deren Qualität kann allerdings stark variieren. Manche Suchmaschinen finden einen bestimmten Begriff gerade ein einziges Mal in ihrer Datenbank, andere liefern für dasselbe Schlagwort mehr als 30 000 Treffer (vgl. [34], Seite 60).

Eine der zentralen Ursachen dieser immensen Diskrepanz ist die Größe der zur Verfügung stehenden Datenbank. Über die größte Datenbasis verfügte Anfang 1997 Lycos mit rund 60 Millionen Verweis-Einträgen (vgl. [145], Seite 335). Wie sehr eine Zahl wie diese allerdings eine Momentaufnahme darstellt, zeigt die Tatsache, daß der gleiche Suchdienst exakt ein Jahr zuvor (Jänner 1996) nur rund 10 Millionen Web-Seiten erfaßt hatte (vgl. [145], Seite 92). Wachstumsraten wie diese sind wohl auch als Ergebnis der Ausbreitung des WWW insgesamt anzusehen. Neben der Menge der erfaßten Daten sind auch die Aktualität und Internationalität (Verweise auf nicht-englischsprachige Seiten) der Datenbank als Kriterien zu nennen (vgl. [31], Seite 48 f).

Von mindestens ebenso großer Bedeutung ist die Benutzerschnittstelle, mittels derer die gesuchten Begriffe gesucht werden können. Gewöhnlich wird dem Benutzer ein elektronisches Formular (vgl. Kapitel 8.7.1) angeboten, in das die gewünschten Schlagworte einzutragen sind. Der einfachste Weg der Informationsrecherche ist es, einfach einen zentralen Begriff einzutippen und anschließend die Datenbankabfrage zu starten. Das Ergebnis der Suche werden mitunter Tausende von Verweisen auf Textstellen sein, in denen das genannte Stichwort vorkommt. Ob all diese Dokumente dann auch tatsächlich verwertbar sind, ist allerdings mehr als fraglich. Häufig wird es daher notwendig sein, die Suche zu präzisieren, indem z. B. nach mehreren Begriffen gemeinsam gesucht wird.

Typische Möglichkeiten dieser erweiterten Suche sind die Verknüpfungen verschiedener Wörter mit den bool'schen Operatoren AND, OR und NOT, manchmal sogar mit Klammerung, um auch komplexere Verknüpfungen zuzulassen. Zusätzlich bietet manchmal ein Operator die Möglichkeit zu bestimmen, wie weit die genannten Wörter im Text voneinander entfernt sein dürfen. Phrasen (fixe Wortfolgen) werden in Anführungszeichen eingeschlossen. Eine weitere Möglichkeit ist die maskierte Suche, bei der nur der erste Teil des Stichwortes angegeben wird (vgl. [72] und [129]).

Besonders hervorzuheben ist in diesem Zusammenhang der Suchdienst Excite. Dieser sucht nicht nur exakt nach den eingegebenen Begriffen in der Datenbank, sondern versucht mittels Methoden der künstlichen Intelligenz den Sinn der Anfrage zu erfassen und somit auch nach Synonymen zu suchen. Bei mehr als 50 Millionen Datenbank-Einträgen kommt so eine ganze Menge von Treffern zustande (vgl. [89]).

Das Ergebnis einer Recherche in der Datenbank wird als Liste von relevanten Seiten im Web angezeigt. Gewöhnlich wird für jeden Treffer zumindest der Titel des Dokuments, seine Adresse als direkter Link dorthin und ein kurzer Beschreibungstext des Inhalts angeboten. Bei den meisten Suchdiensten besteht letzterer aus den ersten paar Zeilen oder einer Zusammenfassung des Dokument-Textes, ist also nicht sehr aussagekräftig. Alle Treffer sind nach Relevanz sortiert; diese wird gewöhnlich aus der Anzahl der gefundenen Stichwörter im Text des Dokuments berechnet. Die zeitaufwendige Arbeit, interessant klingende Seiten tatsächlich zu besuchen und sich so mitunter durch Tausende Treffer zu wühlen, bleibt dem Benutzer überlassen.

Der Großteil der Suchdienste wird durch Werbeanzeigen, die auf jedem Seitenkopf zu finden sind, finanziert (vgl. [10], Seite 104 und Seite 108). Um Inserenten anzulocken, muß der Dienst möglichst frequentiert sein. Viele Suchdienste versuchen daher, durch zusätzliche Services ihr Angebot zu verbessern und so das Ausmaß ihrer Inanspruchnahme zu vergrößern. Neben anderen bietet Excite mit seinen Web Site Reviews eine Art Übersichtskatalog mit von täglich surfenden Experten für gut befundenen Links und den NewsTracker als Sammlung von Verweisen zu Magazinen und Zeitungen (vgl. [88] und [89]. WebCrawler andererseits offeriert eine Top 100-Liste, WebRoulette als zufällige Auswahl von 10 Links aus der Datenbank (gute Ausgangspunkte zum Surfen) und die Möglichkeit, das Web rückwärts zu durchsuchen und so festzustellen, von wo Links auf die eigene Homepage gesetzt wurden (vgl. [73]).

Robots oder Spiders, Worms, Wanderer und Web Crawlers sind Programme, die automatisch durch das World Wide Web surfen, indem sie, von einem Startdokument ausgehend, rekursiv allen gefundenen Links folgen. Der wesentliche Unterschied zu einem Browser (vgl. Kapitel 3.2) besteht darin, daß dieser die Informationen im Web für den Menschen aufbereitet, während der Robot vollautomatisch funktioniert und die erhaltenen Daten nur intern verarbeitet.

Robots dienen dem Aufbau der Datenbank, die später vom Benutzer durch die Search Engine abgefragt wird. Zu diesem Zweck werden die aus dem Web erhaltenen Dokumente indiziert, also nach relevanten Stichworten durchsucht. Suchdienste unterscheiden sich hinsichtlich ihrer Qualität auch darin, was nun genau indiziert wird: Manchmal ist es nur der Titel und allenfalls der erste Absatz des Textes, bei guten Diensten hingegen Volltext (vgl. [63]).

Die große Zahl der sich mit diesem Auftrag ständig auf Reise befindenden Robots belastet auch die Infrastruktur des Internet. Schätzungen sprechen davon, daß alle zusammen dreimal am Tag das gesamte WWW durchkämmen. Da Robots die Dokumente sehr rasch hintereinander abfragen, kann ein ,,Roboter-Angriff`` durchaus einen Server überlasten. Daher wird heute gewöhnlich Breitensuche angewandt, d. h., der Robot greift nur ein paar Mal am Tag auf denselben Web-Server zu. Zusätzlich wurde ein (freiwilliger) Standard for Robot Exclusion geschaffen, mit dem Robots vom Besuch des eigenen Servers abgehalten werden können (vgl. [10], Seite 104 und [71]). Die Existenz der eigenen Homepage kann man auch über die bereits erwähnten Add URL-Formulare den Suchdienst-Betreibern mitteilen.

Tabelle 3.2 gibt einen kurzen Überblick über die wichtigsten Search Engines im World Wide Web. Eine umfangreiche Analyse und Bewertung des aktuellen Angebots hat [31], [32], [33], [34] vorgenommen.

  table433
Tabelle 3.2:  Robots/Search-Engines

3.4.3 Server-Landkarten

Besonders dann, wenn man Web-Server aus einem bestimmten Land sucht, bietet sich die Nutzung der geographischen Suchhilfen an. Diese ermöglichen die Suche mit Hilfe von Landkarten oder Auflistungen, die nach geographischen Kriterien strukturiert sind.

Die bekannteste Server-Landkarte ist The Virtual Tourist. Er präsentiert die folgende Weltkarte als Imagemap, durch Mausklick gelangt man jeweils zu einer detaillierteren Karte, z. B. von Europa (vgl. [117]). Am Ende der Suche erhält der Benutzer eine Liste mit Links zu den registrierten Servern der jeweiligen Region.

  figure447
Abbildung 3.3: Weltkarte des Virtual Tourist

Auch einfache Auflistungen von Servern ohne grafische Unterstützung, geordnet nach Kontinenten und Staaten, werden im World Wide Web angeboten (vgl. [119]).

3.4.4 Surfen

Die bisher vorgestellten Dienste und Mechanismen wurden entwickelt, weil bei der gezielten Suche nach bestimmten Informationen Surfen im World Wide Web nur selten zum Erfolg führte. Dennoch kann auch dieses Verfahren manchmal das schnellste von allen sein, wenn man sich das Prinzip der Domain-Namen (vgl. Kapitel 2.2) vor Augen führt.

So findet man die Homepages von Firmen im WWW sehr häufig unter Domain-Namen wie www.firma.co.at, www.firma.at oder www.firma.com je nach Staat.

Non-Profit-Organisationen sind oft über www.organisation.org oder www. organisation.or.at ans Netz angeschlossen (vgl. [24], Seite 459). Ein entsprechender Versuch lohnt sich immer.

Darüber hinaus ist Surfen die beste Fortsetzung der Informationsrecherche, wenn man (z. B. über eine Search Engine) eine gute Quelle zum gewünschten Thema gefunden hat. Viele Anbieter von Web-Seiten stellen eine Liste von weiteren guten Informationsquellen zum Thema zur Verfügung (oft als Hotlinks bezeichnet). Deren Inanspruchnahme lohnt sich meist mehr als das Probieren der restlichen fünfhundert Treffer des Suchdienstes.

Nicht zuletzt führt auch der bloße Zufall oft zu einem Glücksgriff...

3.4.5 Vergleich mit der Recherche gedruckter Literatur

Auch wenn das Internet unter dem technischen Gesichtspunkt ein völlig anderes Medium als gedruckte Literatur darstellt, unterscheidet sich der Vorgang der Informationsrecherche im World Wide Web gegenüber dem herkömmlichen Beschaffen von Material kaum.

In einer realen Bibliothek sucht man mit Hilfe von Themen- und Schlagwortkatalogen die Signaturen relevanter Werke aus dem Bestand. In der virtuellen Bibliothek des WWW treten Übersichtskataloge und Search Engines an deren Stelle, der Vorgang bleibt jedoch grundsätzlich der gleiche.

Eine interessante Einführung an der Übergangsschwelle dieser beiden Welten ist bib-o-pac, der Online-Katalog des österreichischen Bibliothekenverbundes, der seit einiger Zeit auch über das World Wide Web abgefragt werden kann (vgl. [59]).

Eine andere, von PETERSEN empfohlene Möglichkeit der Literaturrecherche ist das Schneeball-System. Dabei greift man auf das Literaturverzeichnis oder Register eines bereits zum Thema gefundenen Werkes zurück, um von diesem ausgehend weitere relevante Literaturstellen zu finden (vgl. [171], Seite 73 ff). Das Äquivalent dieser Methode im WWW ist der Zugriff auf die Liste der Hotlinks, die bei vielen Informationsanbietern zur Verfügung gestellt wird.

Die Gleichartigkeit der Verfahren zur Informationsbeschaffung im Internet und in Bibliotheken ermöglicht es, mit den gewohnten Suchmethoden problemlos sowohl auf gedruckte Quellen als auch auf Online-Information zurückgreifen zu können - lediglich der Umgang mit der Technik muß beherrscht werden.

3.4.6 Trends und Ausblick

Aufgrund des rasanten Wachstums des World Wide Web ist ein baldiges Ende des bisherigen Konzepts der Suchdienste, vor allem der Robots, absehbar. Schon heute müssen diese ihre Datenbanken verteilen und auf Rechner mit mehreren hundert Gigabytes Festplatte und 6 Gigabytes Hauptspeicher zurückgreifen, um die Datenmengen einigermaßen bewältigen zu können (vgl. [10], Seite 104 und Seite 108). Darüber hinaus sind Suchergebnisse von über einer Million Treffer auch für die Benutzer nicht mehr wirklich brauchbar.

Einen vielversprechenden Lösungsansatz bietet Harvest, ein verteiltes System, das somit gut der Struktur des Internet an sich angepaßt ist (vgl. [10], Seite 109). Eine zweite Möglichkeit ist die sogenannte Push-Technologie, die ähnlich einem Zeitschriftenabonnement funktioniert. Der Benutzer tut einem Informationsanbieter seine Interessen kund und wird daraufhin automatisch vom Server mit aktuellen Daten versorgt (vgl. [19], Seite 23). Trotz solch erfolgversprechender Ansätze ist die Lösung aller anstehenden Probleme allerdings immer noch nicht gefunden.


next up previous contents
Next: 4 Betriebliche Nutzung des Up: 3 WWW Previous: 3.3 HTML

Thomas Neurauter
Sun May 3 18:05:51 CEST 1998