1.1. Wie funktionieren die Suchmaschinen?

Technisch gesehen besteht eine Suchmaschine aus folgenden Elementen:

  • ein URL-Server (Internetadresse)
  • einige Webcrawler wie Roboter, Spider oder Searchbot
  • ein Parser
  • Store-Server
  • und einen Index

URL (Uniform Resource Locator): dient dazu, eine Ressource über das verwendete Netzprotokoll zu erkennen und den Ort, in der sich diese Ressource befindet, im Computernetzwerk zu lokalisieren. In der Umgangssprache sind die URLs als Internetadressen bekannt. Sie bestehen aus:

Protokoll (://) Hostname (.) Domäne (.) Toplevel-Domäne (/) Pfad zur Datei

z.B.: http://www.seo-online-seminar.de/index.php/seo-seminare.html

WebCrawler: Computerprogramm, das eine automatische Durchsuchung von World Wide Web und eine Analyse von Webseiten durchführt. WebCrawler stellen eine bestimmte Art von Bots (Bots sind wieder Computerprogrammen, die autonom die sich ständig wiederholenden Aufgaben nachgehen.) dar. Außerdem werden sie eingesetzt, um RSS-Newsfeeds, E-Mail-Adressen und weitere Informationen zusammenzulegen.

Parser: Computerprogramm, das eine beliebige Eingabe in ein für die Weiterverarbeitung brauchbares Format umschreibt, d.h. ein Text wird in eine neue Struktur übersetzt.

Store-Server: zieht die in den vereinfachten Seiten enthaltenen Informationen aus.

Wie kooperieren diese Elemente miteinander, um eine Suchmaschine zum Funktionieren zu bringen?

Die Webadressen, die immer noch nicht in den Index aufgenommen sind, werden vom URL-Server gesteuert. Die bei Suchmaschinen

angemeldeten Internetseiten werden dann an den URL-Sever weitergeleitet. Er gibt die Daten an den WebCrawler weiter. Der nächste Schritt wird von den WebCrawler gemacht, wenn sie jeden einzelnen URL in eine IP-Adresse ummodeln. Das geschieht mit dem Ziel, sich mit den jeweiligen Server in Verbindung zu setzen. Um eine schnellere und problemlose Datenübertragung stattzufinden und eine Überbelastung des Servers zu verhindern, macht ein WebCrawler mehrere hundert Verbindungen zugleich auf. Der Vorteil dieser Arbeitsweise besteht darin, dass beim Auftreten von Problemen bei einer Verbindung, greift der WebCrawler, automatisch und ohne Zeit zu verlieren, zu der nächsten verfügbaren Verbindung zu. Diese Rotationsmethode bietet die Möglichkeit, bis zu 30-35 Seiten pro Sekunde berücksichtigt zu werden. Danach werden die Webseiteninformationen vom WebCrawler an den Parser geliefert.  

Wie schon oben in der Definition von Parser dargestellt wurde, ermöglicht er eine Vereinfachung der einzelnen Internetseiten (HTML-Seiten). Dann werden diese von ihm weiter an den Store-Server übermittelt.

HTML (Hypertext Markup Language): ist zurzeit die wichtigste Sprache zur Seitenbeschreibung im World Wide Web und wird im Textformat übertragen. Der HTML-Code besteht vor allem aus Tags, die die eigentlichen Befehle bilden und in Spitzenklammern (> <)geschrieben werden.

z.B.: >Text< oder <b>Fett geschriebener Text</b> („b“ steht für „fett“) 

Die Aufgabe des Store-Servers bezieht sich darauf, die Informationen und die Daten, die in den „übersetzten“ Seiten enthalten sind, herauszufiltern.

Die Links werden demnächst an den URL-Server weitergegeben, und die Texte und die Begriffe, die enthalten sind, aber immer noch nicht bekannt, werden dann in der Datenbank, noch Index genannt, hinzugefügt.

Index (Datenbank): führt die Wortlisten aus und kennt die URLs zu diesen Wortlisten. So kann er die Suche und das Sortieren nach bestimmten Kriterien und Feldern intensivieren. Der Index besteht aus einem Lexikon, den Hit Lists und einem Depot (Repository genannt).

  • Lexikon – eine Sammlung von allen im Netzwerk gefundenen Begriffen, dargestellt in Form von einer Tabelle. Alle diesen sind auf die Hit Lists verzeichnet.
  • Hit Lists – enthalten Verweise zu jedem einzelnen Wort und Begriff auf die entsprechende Stelle im Depot.
  • Depot (Repository) – stellt ein Verzeichnis zur Speicherung und Beschreibung von Webseiten dar.

Damit der User mir der Suchmaschine interagieren kann, braucht er eine Weboberfläche (Fronted), auf der die sichtbaren Komponenten einer Suchmaschine abgebildet sind. Wird eine Suchanfrage vom Benutzer betätigt, dann wird mittels Searcher eine Ergebnisliste erstellt. Der Searcher bedient sich an dem Lexikon und den Hit Lists und zieht daraus die abgerufenen Inhalten.

Jede Suchmaschine hat einen eigenen Algorithmus, der die Suchergebnisse nach einem bestimmten Kriterium sortiert. Im Grunde genommen stellt der Algorithmus den entscheidenden Kern der Suchmaschinen dar. Das Ordnen hängt natürlich von der Suchanfrage ab.