Wie funktioniert die Google-Suche?

17. März 2023 · von Richard Spitzbarth · 8 Minuten Lesedauer · Keine Kommentare

Google ist die bekannteste und am häufigsten genutzte Suchmaschine weltweit. Aber wie funktioniert sie eigentlich? Es ranken sich viele Mythen, um das, was Google tut. Dabei besteht das grundsätzliche Problem darin, dass die Angaben aus dem Silicon Valley – aus nachvollziehbaren Gründen – keine tieferen Einblicke geben. Der Code ist geheim. In diesem Artikel erkläre ich die Funktionsweise hinter den Suchergebnissen anhand geleakter Daten einer anderen Suchmaschine und vermittle damit hoffentlich ein grobes Verständnis für die Arbeit hinter der Eingabemaske.

Google ist nicht die einzige Suchmaschine: Nach ihr sind Bing, Yahoo! und Yandex die drei größten Dienste. Ende Januar verbreitete sich eine News wie ein Lauffeuer durch die SEO-Community: Der Yandex-Code wurde teilweise geleakt. Yandex ist eine russische Tech-Firma, die vor allem dort und in den umliegenden Ländern sehr populär ist. Search Engine Land berichtete, dass über 1.900 Ranking-Faktoren im Leak enthalten wären – und er hat einige interessante Informationen über die Funktionsweise von Yandex offengelegt. Obwohl Google und Yandex sich in einigen Details unterscheiden, können wir dennoch einige allgemeine Prinzipien aufzeigen, die beide Suchmaschinen teilen. Nehmen wir die drei Faktoren Page Quality, Page Level Factors sowie PageRank. Doch erst einmal gehe ich kurz zwei kleine Schritt zurück.

Wie funktionieren Suchmaschinen?

Vereinfacht ausgedrückt, sammelt ein Bot (Crawler/Spider) Informationen auf Websites und archiviert diese zum Teil in einer Sammlung beziehungsweise einem Katalog: dem Index. Die gesammelten Informationen werden kontextualisiert bewertet. Die Bewertung erfolgt durch verschiedene Algorithmen, die die Ranking-Faktoren bilden. Die Antwort auf die Frage „Was ist der Google Algorithmus?“ lässt sich nach dieser Einordnung mit „den einen Algorithmus gibt es nicht“ beantworten.

Je nach Thema und Ergebnistiefe der Suchanfrage orchestrieren sich einzelne Faktoren vermeintlich unterschiedlich. Manche Algorithmen springen erst unter bestimmten Bedingungen an. Wenn jemand nach Steuertipps sucht, werden allein wegen des Themas zum Teil andere Faktoren berücksichtigt, als wenn es in der Suchanfrage um ein Kuchenrezept geht. Der Yandex-Leak ermöglicht für die allgemeine Erklärung der Funktionsweise faktenbasierte Aussagen. Ansonsten sind groß angelegte Case Studies notwendig, die innerhalb unterschiedlicher Themen die Gewichtung untersuchen. Es ließen sich auch verschiedene Patente (geschützte Verfahren) von den unterschiedlichen Diensten sichten, jedoch beweist die Existenz eines Patents nicht zwangsläufig den aktuellen Einsatz. Die aktuelle Verwendung sollte auch im Fall von Yandex nicht allgemein für alle Code-Zeilen angenommen werden.

Woher kommen die geleakten Yandex-Daten?

In einem Hacker-Forum veröffentlichte ein User fast 45 GB an Code – was eine nicht unerhebliche Menge ist. Der russische Suchdienst äußerte sich dazu, die Kernaussagen:

Der Code entspricht der veralteten Version, dieser unterscheidet sich von der aktuellen Version.
Die veröffentlichten Codefragmente enthalten auch Testalgorithmen, die nur innerhalb von Yandex verwendet wurden, um den korrekten Betrieb der Dienste zu überprüfen.

Yandex bestritt des Weiteren, dass das Unternehmen gehackt wurde, und führt den Leak auf einen Diebstahl eines ehemaligen Mitarbeiters zurück. Stelle man sich nur den unglaublichen Aufschrei vor, wenn die Häuser Meta (Facebooks Mutterkonzern) oder Alphabet (Google) gehackt würden. Doch die drei sehr grundlegenden Algorithmen, um die es im Anschluss gehen wird, sind höchstwahrscheinlich in ähnlicher Form eben auch bei Google im Einsatz.

Page-Level Factors

Hier gibt es eine Menge zu entdecken. Wie sich herausstellt, verfügt Yandex über zahlreiche Faktoren auf Seitenebene, die beim Aufbau des Ergebnisses der Suchanfrage zum Tragen kommen. Einige der Interessanten sind:

Page Freshness (Aktualität)
Ist gerade bei Blog-Inhalten und Nachrichten-Websites relevant. Es ist gibt einen negativen Faktor, wenn eine Inhaltsseite älter als zehn Jahre ist. Erfahrungsgemäß lassen sich auch Content Pieces bei Google pushen, wenn diese nach einiger Zeit aktualisiert werden. Die Auszeichnung innerhalb der strukturierten Daten (eine standardisierte Form, in der bestimmte Attribute wie bspw. das Veröffentlichungsdatum, festgehalten sind) muss ebenfalls erfolgen.
Last Destination (letztes Ziel)
Bei Yandex werden Inhalte belohnt, die die Suchreise des Nutzers beenden. Demnach konnte die Suchintention bedient werden.
Traffic Source Ratio
Yandex bevorzugt Seiten, deren Besucher:innen über verschiedene Kanäle kommen (organische Suche, bezahlte Anzeigen, direkte Besuche).
Content Quality (Qualität des Inhalts)
Der Text muss originell und nicht bloß mit Keywords vollgestopft sein. Es hat positive Auswirkungen (Boost), wenn externe Webseiten den Text zitieren oder verlinken. Darüber hinaus führt schlechter Inhalt auf der Webseite dazu, dass die Seite schlechter in den Suchergebnissen positioniert wird, selbst wenn qualitativ hochwertiger Inhalt an anderer Stelle auf der Website erscheint.

Page Quality

Auch wenn es bereits um die Qualität der Inhalte ging (OnPage), versucht Yandex auch die allgemeine Qualität der Webseite zu bewerten. Die Grundlage dafür bilden mehrere Faktoren:

Anzahl der Besuche
Anzahl der eindeutigen Besucher
Verweildauer auf einer Seite
Anzahl der durchgeführten Aktionen auf einer Seite

PageRank

Der PageRank-Algorithmus ist ein Ranking-Faktor, der bereits von den Google-Gründern Larry Page und Sergey Brin entwickelt wurde. Er bewertet die Bedeutung einer Website anhand ihrer Backlinks, also Verweise/Links von anderen Websites. Dabei geht es nicht allein um die Anzahl der Links, sondern vielmehr um die Relevanz beziehungsweise Qualität. Ein Backlink von einer hochwertigen Seite sollte mehr Gewicht als ein Backlink von einer minderwertigen oder schlecht besuchten Seite haben.

Bei Google hat die Gewichtung der Links zum Teil abgenommen und es wird ein sehr viel größerer Fokus auf die User Experience gelegt.

Die Yandex-Daten zeigen auch etwas, das für die Google Suche schon lange Zeit angenommen wird: den Wikipedia-Boost. Backlinks aus der Web-Enzyklopädie werden besonders belohnt. Wikipedia-Backlinks sind in der Regel auch bei Google von Vorteil, da es sich um eine hochqualitative Seite handelt. Nur ist das keine Bestätigung für einen Google-Algorithmus dieser Art.

Was lässt sich aus dem Yandex Code lernen?

Wie zu Beginn erörtert, belegen die Yandex-Faktoren nicht, dass Google diese ebenso einsetzt. Jedoch lassen sich aus der Erfahrung und verschiedenen Tests der SEO Community Parallelen zu dem Anspruch an qualitativ hochwertigen Inhalten, sei es textlich oder technisch, ziehen. Ebenso steht die Erfahrung der Nutzenden im Vordergrund. Yandex misst die Erfahrung anhand der erwähnten Metriken. Werden Inhalte langfristig nicht gelesen, passen diese nicht zu der Suchanfrage und werden somit langfristig nicht gut ranken. Somit ist es für Webinhalte, die auf einer Internetseite stattfinden, notwendig, diese im Rahmen der bekannten Faktoren zu gestalten. Im Anschluss erfolgt dann eine Beobachtung der Rankings, umso weitere Optimierungen vorzunehmen. Suchmaschinenoptimierung bleibt ein Prozess.