Einfach erklärt: Wie funktionieren die modernen Suchmaschinen?

Wie funktionieren die modernen Suchmaschinen
Wie funktionieren die modernen Suchmaschinen

Suchen im Internet, allgemein schon als „googlen“ bekannt, gehört nach E-Mails schreiben zur zweitpopulärsten Tätigkeit im Web. Google ist dabei inzwischen schon so groß und mächtig geworden, dass die Konkurrenz seit Jahren hoffnungslos hinterher hinkt. Und tatsächlich kann es sich heute kein Unternehmen mehr leisten, bei Google nicht gefunden zu werden. Doch wie funktionieren solch moderne Suchmaschinen überhaupt? Wir klären auf.

Wie funktionieren Suchmaschinen?

Eine Suchmaschine ist laut Definition ein Softwareprogramm zur Informationsbeschaffung, das Informationen entdeckt, durchsucht, umwandelt und speichert, um sie als Antwort auf Benutzeranfragen abzurufen und zu präsentieren. Sie besteht normalerweise aus vier Komponenten: Suchoberfläche, Crawler (auch Spider oder Bot genannt), Indexer und Datenbank. Der Crawler durchforstet eine Dokumentensammlung, zerlegt den Text des Dokuments und ordnet Surrogate für die Speicherung im Index der Suchmaschine zu. Online-Suchmaschinen speichern auch Bilder, Linkdaten und Metadaten zu den Dokumenten.

Arten von Web-Suchmaschinen

Suchmaschinen im Web sind Websites, die mit der Möglichkeit ausgestattet sind, die auf anderen Websites gespeicherten Inhalte zu durchsuchen. Es gibt Unterschiede in der Funktionsweise verschiedener Suchmaschinen, aber sie alle erfüllen drei grundlegende Aufgaben:

  • Auffinden und Auswählen von vollständigen oder teilweisen Inhalten auf der Grundlage der angegebenen Schlüsselwörter
  • Führen eines Indexes der Inhalte und Verweisen auf die gefundenen Stellen
  • Ermöglichung der Suche nach Wörtern oder Wortkombinationen, die in diesem Index gefunden wurden

Der Prozess beginnt, wenn ein Benutzer eine Suchanfrage über die bereitgestellte Schnittstelle in das System eingibt.

Die unterschiedlichen Suchmaschinentypen

Es gibt grundsätzlich drei Arten von Suchmaschinen: Solche, die von Robotern (Crawler oder Spider genannt) betrieben werden, solche, die durch menschliche Eingaben betrieben werden, und solche, die eine Mischung aus beidem sind.

Crawler-basierte Suchmaschinen verwenden automatisierte Software-Routinen, die eine Website besuchen, die dort vorhandenen Textinformationen verarbeiten, die Meta-Tags der Website lesen und den Links folgen, die die Website verbindet, um alle verlinkten Websites ebenfalls zu indizieren. Der Crawler sendet all diese Informationen zurück an ein zentrales Depot, wo die Daten indiziert werden. Er kehrt zudem in regelmäßigen Abständen zu den Websites zurück, um zu prüfen, ob sich die Informationen geändert haben. Die Häufigkeit, mit der dies geschieht, wird von den Administratoren der Suchmaschine festgelegt.

Suchmaschinen, die von Menschen betrieben werden, sind darauf angewiesen, dass Menschen Informationen eingeben, die dann indiziert und katalogisiert werden. Nur Informationen, die eingereicht werden, werden in den Index aufgenommen.

Bilden Suchmaschinen das gesamte Web ab?

In beiden Fällen durchsuchen Sie, wenn Sie eine Suchmaschine nach Informationen befragen, den von der Suchmaschine erstellten Index – also nicht das gesamte Web. Die Indizes sind riesige Datenbanken mit Informationen, die gesammelt und gespeichert und anschließend durchsucht werden. Das erklärt, warum eine Suche in einer kommerziellen Suchmaschine wie Yahoo! oder Google manchmal Ergebnisse liefert, die in Wirklichkeit tote Links sind. Da die Suchergebnisse auf dem Index basieren, behandelt die Suchmaschine eine Seite, die seit ihrer Ungültigkeit nicht mehr aktualisiert wurde, als aktiven Link, obwohl sie es nicht mehr ist. Das wird so bleiben, bis der Index aktualisiert wird. Die generelle Aktualität hängt bei diesen Suchmaschinen also immer von der Frequenz der Aktualisierungen ab.

Warum führt die selbe Suche in verschiedenen Suchmaschinen zu unterschiedlichen Ergebnissen?

Ein Teil der Antwort auf diese Frage liegt darin, dass nicht alle Indizes genau gleich sind. Es hängt davon ab, was die Spider finden oder was die Menschen eingegeben haben. Noch wichtiger ist jedoch, dass nicht jede Suchmaschine denselben Algorithmus verwendet, um die Indizes zu durchsuchen. Der Algorithmus ist das, was die Suchmaschinen verwenden, um die Relevanz der Informationen im Index für das zu bestimmen, wonach der Benutzer sucht.

Eines der Elemente, nach denen der Algorithmus einer Suchmaschine sucht, ist die Häufigkeit und Position der Schlüsselwörter auf einer Webseite. Diejenigen mit einer höheren Häufigkeit werden in der Regel als relevanter angesehen. Die Suchmaschinentechnologie wird jedoch immer ausgefeilter, um das sogenannte Keyword-Stuffing oder Spamdexing zu verhindern.

Ein weiteres gemeinsames Element, das die Algorithmen analysieren, ist die Art und Weise, wie Seiten auf andere Seiten im Web verweisen. Indem sie analysiert, wie Seiten miteinander verlinkt sind, kann eine Suchmaschine sowohl feststellen, worum es auf einer Seite geht (wenn die Schlüsselwörter der verlinkten Seiten den Schlüsselwörtern auf der Originalseite ähnlich sind), als auch, ob diese Seite als „wichtig“ angesehen wird und eine Aufwertung im Ranking verdient. Genauso wie die Technologie immer ausgefeilter wird, um Keyword-Stuffing zu ignorieren, wird sie auch immer raffinierter gegenüber Webmastern, die künstlich generierte Links in ihre Seiten einbauen, um ein besseres Ranking zu erreichen.

Fazit

Moderne Suchmaschinen sind hochkomplexe Softwaresysteme, die sich im Laufe der Jahre technologisch weiterentwickelt haben. Die am weitesten verbreiteten Suchmaschinen wie Google und Yahoo! setzen Hunderttausende von Rechnern ein, um Billionen von Webseiten zu verarbeiten, damit sie zielgerichtete Ergebnisse liefern können. Aufgrund dieses hohen Abfrage- und Textverarbeitungsvolumens muss die Software in einer weit verzweigten Umgebung mit einem hohen Grad an Zuverlässigkeit laufen.

 

Über Technikblogger 492 Artikel
Wir sind das Redaktionsteam hinter dem TechnikBlog, wir schreiben über fast alles was einen Stecker oder einen Akku hat. Schwerpunkt sind Apps, Fernseher, Computer, Games aber auch Software und Gimmicks. Gerne Schreiben wir auch über dein Produkt, schreibt uns dazu einfach an