Die Bedeutung des Seitenqualitätswerts und von Qualitätsschwellen in SEO
In diesem Beitrag erläutere ich die zentralen Mechanismen, mit denen Suchmaschinen Seitenqualitätswerte messen, konsensbasierte Relevanzurteile treffen und Dokumente in thematisch passende Indexpartitionen einteilen.
Dabei zeige ich zunächst auf, wie Google mithilfe von consensus scores, Query-Klassifikationen und Qualitätsschwellen die Zuordnung von Inhalten an sich verändernde Nutzerintentionen anpasst.
Anschließend wird betrachtet, in welcher Weise historische Daten, Nutzersignale und Markensuchen – wie bereits in älteren Patenten (etwa aus dem Jahr 2013) dokumentiert – einfließen, um die Bewertung neuer oder bislang unbekannter Websites zu erleichtern. Durch diese mehrstufigen Verfahren, in denen semantische und linguistische Faktoren ebenso wie die autoritative Relevanz einer Seite einbezogen werden, entsteht ein dynamischer Prozess: Einerseits lassen sich bestimmte Inhalte schneller und zielgenauer auffinden, andererseits werden die Anforderungen an Qualität und Konsistenz ständig neu justiert.
Auf diese Weise wird nicht nur die Informationsflut besser strukturiert, sondern auch die langfristige Sicherung qualitativ hochwertiger Suchergebnisse gewährleistet. Wie genau dies funktioniert, erläutere ich im Folgenden.
Suchanfrage-Klassifikatoren und Konsens mit etablierten Fakten wichtig für Seitenqualität und Rankingpotential
Wer einen schnellen und brandaktuellen Einstieg in das Thema „Einfluss von Qualitätskriterien auf die Suchmaschinenoptimierung“ haben möchte, dem empfehle ich, dieses Video von Mark Williams-Cook anzusehen:
Zusammenfassend ist festzuhalten, dass Mark Williams-Cook und sein Team circa zwei Terabyte an Daten sowie über 90 Millionen Suchanfragen auswerteten. Google zahlte ihnen 13.337 US-Dollar für das Aufdecken dieser Endpunkt-Sicherheitslücke, interessanter jedoch sind die aus der Analyse resultierenden SEO-Erkenntnisse:
Google vergibt einen „consensus score“, indem die Textabschnitte eines Textes gezählt werden, die dem allgemein etablierten Wissen über ein spezifisches Thema (=Konsens) entsprechen, widersprechen oder gewissermaßen neutral gegenüberstehen. Ob ein Dokument für eine Suchanfrage ranken kann oder nicht, hängt vom consensus score ab. Google will mit diesem Mechanismus gegen Falschinformationen vorgehen.
Ferner wurde gezeigt, welche Suchanfrage-Klassifikatoren (query classifications) vergibt. Dabei handelt es sich um acht „refined query semantic queries“:
- Short fact (kurze Faktenabfrage)
- Bool (kurz für Boolean, also Fragen, die mit ja oder nein beantwortet werden)
- Other (andere)
- Instruction (Anleitungen)
- Definition (Begriffsbestimmungen)
- Reason (Begründungen, Erörterungen)
- Comparison (Vergleiche)
- Consequence (Your Money Your Life, or YMYL)
Je nach Klassifikation einer Suchanfrage kann sowohl die Gewichtung einzelner Rankingfaktoren wie auch die Zusammenstellung der Top-10 organischen Suchergebnisse variieren. Beispielsweise ist es denkbar, dass bei „Bool“-Suchanfragen ausschließlich Dokumente mit einem sehr hohen consensus score angezeigt werden, hingegen bei eher subjektiven Suchanfragen, bei denen eher Meinungen statt Fakten eine Rolle spielen, ein Top-10-Mix aus Dokumenten mit hohem Konsens, mit neutralen und vom Konsens abweichenden Informationen erscheinen könnte.
Besonders interessant ist aber die Erwähnung sogenannter Qualitätsschwellen (quality thresholds). Google vergibt einen Seitenqualitätswert (site quality score) auf der Sakla von null bis eins, beispielsweise also 0,8. Laut Mark Williams-Cook braucht es mindestens einen site quality score von 0,4, damit sich ein Dokument für bestimmte Rich Snippets wie Featured Snippets qualifiziert.
Was sind Qualitätsschwellen (quality thresholds) und wozu braucht eine Suchmaschine diese?
Bereits seit weit über zehn Jahren existiert das Google-Patent mit der Nummer US9760641B1 und dem vielsagenden Titel „site quality score“. Auch Mark Williams-Cook erwähnt dieses Patent. Dieser behauptet, die Seitenqualitätsmetrik hänge von drei Faktoren ab:
- Markenbekanntheit (z. B. Brand-Suchanfragen, also jene, bei denen der Marken- oder Domainname Teil der Suchanfrage ist)
- Nutzerinteraktionen (Klicks auf Seiten, selbst wenn diese nicht auf Position 1 rangiert)
- Verlinkungstexte (Anchor-Text-Relevanz im gesamten Web)
Tatsächlich können die genannten drei Faktoren aus dem Patent direkt oder indirekt abgeleitet werden. Beschäftigt man sich etwas intensiver mit der Funktionsweise von Suchmaschinen, versteht man allerding, warum und auf welche Weise Suchmaschinen einen Qualitätsschwellenwert benötigen und verwenden.
Wie wird die Seitenqualität ermittelt, wenn keine historischen Daten vorliegen?
Wenn keine historischen Daten für eine neue Website vorliegen, bewertet Google die Seitenqualität anhand eines Phrasenmodells, das auf bereits bekannten und bewerteten Websites basiert. Dazu analysiert Google den Textinhalt der neuen Website, identifiziert relevante Phrasen mithilfe von n-grams und prüft, wie häufig diese Phrasen auf qualitativ hochwertigen oder minderwertigen Websites vorkommen. Phrasen, die auf hochwertigen Seiten häufig vertreten sind, tragen positiv zur Bewertung bei, während minderwertige Phrasen eliminiert werden. Diese Korrelation ermöglicht es, einen vorläufigen Qualitätsscore zu berechnen, der die Einstufung der neuen Website beeinflusst.
Dazu mehr: Qualitätsbewertung neuer Websites durch Google.
Zunächst ist festzuhalten, dass Suchmaschinen nicht einfach „alle verfügbaren Inhalte“ wahllos in ihren Hauptindex aufnehmen, sondern Qualitätsgrenzen definieren, um die Informationsflut sinnvoll zu strukturieren und nur solche Informationen zu indizieren, die für den Nutzer letztlich hilfreich und nachgefragt sind. Betrachtet man zudem die immense Datenmenge, die eine Suchmaschine indexieren muss, erscheint ein solches Vorgehen sinnig.
Zur Umsetzung dieses Prinzips verwenden moderne Suchmaschinen wie Google die sogenannte Indexpartitionierung (Index Partition). Indexpartitionierung bedeutet, dass eine Suchmaschine ihren gesamten Index in mehrere Bereiche unterteilt. Würde die Suchmaschine nämlich bei jeder einzelnen Suchanfrage tatsächlich ihren kompletten Index durchsuchen, müssten wir extrem lange auf ein einziges Suchergebnis warten – bei Google vermutlich Stunden.
Es existieren unterschiedliche Methoden der Index-Partitionierung. Während ältere Ansätze sich stärker an kontextuellen Begriffen und Schlüsselwörtern im Dokument orientierten (linguistisch), konzentrieren sich moderne Verfahren vermehrt auf semantische Strukturen, etwa in Form von Triplets (Subjekt, Prädikat, Objekt). Durch diese semantische Segmentierung lässt sich nicht nur die Geschwindigkeit der Suchergebnisse erhöhen, sondern auch die inhaltliche Relevanz der angezeigten Resultate deutlich verbessern.
Wie werden Suchanfragen Indexpartitionen zugeordnet?
Um festzulegen, welches Dokument in welche Partition gelangt, spielen verschiedene linguistische und semantische Faktoren eine Rolle. Eine Suchmaschine kann ein Dokument zunächst indizieren, es später aber auch wieder aus dem Index entfernen und neu einordnen, wenn etwa andere Anfragen oder geänderte Suchintentionen dies notwendig machen.
Die linguistische Perspektive
Betrachten wir als Beispiel zuerst eine linguistische Perspektive, nämlich die Wortart Verben. Verben weisen verschiedene Lemmata auf. Lemmata bezeichnen die Grundform, den Wortstamm eines Verbs, auf dessen Basis die Wortbeugung vorgenommen wird. Eine gebeugte Verbform von „kaufen“ wäre „gekauft“.
In semantischen Suchmaschinen-Indizes können beispielsweise verschiedene Wortformen jeweils eigene Indizes erhalten, in unserem Beispiel könnten dies eigene Indexpartitionen sein für „kaufen“, „gekauft“ und „kaufend“.
Betrachtet nun die Suchmaschine ein Dokument und findet sie darin Wortformen des Lemmas „kaufen“, würde sie beispielsweise auf Grundlage der Häufigkeit des Vorkommens einer einzelnen gebeugten Form von „kaufen“, auf dem Vorhandensein verschiedener n-grams, die eine gebeugte Form enthalten oder anderer Kriterien, oder aber bestimmter Qualitätsschwellen entscheiden, in welche Indexpartition das Dokument einzuordnen ist.
Die semantische Perspektive
Bei der semantischen Analyse einer Suchanfrage geht es der Suchmaschine im Kern darum, die Absicht hinter der Suchanfrage zu verstehen, anstatt sich rein auf die wörtliche Bedeutung einzelner Begriffe zu verlassen.
Während in der allgemeinen Sprachsemantik „kaufen“ und „verkaufen“ klar gegensätzliche Begriffe sind, können sie im Kontext von query semantics als synonyme Konzepte betrachtet werden, da die dahinterstehende Nutzerintention – beispielsweise ein Geschäftsvorgang – ähnlich ist. Die Suchmaschine berücksichtigt also eher den Zustand (state) eines Nutzers, der seine Suche mit einem bestimmten Vorwissen oder einer bestimmten Erwartungshaltung ausführt.
Bei der Indexpartitionierung können Dokumente auf verschiedene Intentions-Cluster verteilt werden. Entscheidend ist, wie gut ein Dokument mit der Abfrage harmoniert, die in diesem Fall semantisch anstatt wortwörtlich oder linguistisch interpretiert wird.
Im Gegensatz zu einer linguistischen Indexpartitionierung ist beim semantischen Vorgehen mehr Dynamik festzustellen. Durch Suchanfragen, die neu sind und zum ersten Mal in die Google-Suchmaske eingegeben werden, oder auch durch eine Änderung der Suchintention zu bekannten Suchanfragen kann es notwendig sein, die bestehenden Zuordnungen zu verändern und den neuen Gegebenheiten anzupassen. Auf diese Weise ändert sich fortlaufend der Dokumentkorpus aller Indexpartitionen, Dokumente gewinnen und verlieren an Relevanz, werden von Neben-Indizes (Supplemental Index) in den Haupt-Index verschoben und umgekehrt.
Die Rolle der Qualitätsschwelle
Die bisher erläuterten Prozesse der linguistischen und semantischen Indexpartitionierung funktionieren nicht isoliert, sondern bilden die Basis für ein umfassenderes Qualitäts- und Relevanzverständnis, das sich stetig weiterentwickelt. Tatsächlich konzentrieren sich viele der weitreichenden Core-Algorithmus-Updates von Suchmaschinen wie Google vor allem auf die Relevanz und weniger auf technische Faktoren. Diese Updates justieren beispielsweise die Bedeutung von semantischer Nähe, thematischer Distanz und der Häufigkeit gemeinsamer Begriffsvorkommen in Dokumenten-Clustern (Co-Occurrence-Matrizen).
Diese dynamische Anpassung führt dazu, dass die Schwellenwerte für Qualität und Relevanz kontinuierlich neu austariert werden. Befindet sich ein Dokument in einem Cluster mit zahlreichen inhaltlich ähnlichen und hochwertigen Seiten, steigt die Qualitätsschwelle an. Ist das Angebot hingegen dünner, kann der Qualitätsanspruch geringer ausfallen. In einem solchen Fall sortiert die Suchmaschine gegebenenfalls sogar hochautoritative, aber nicht ganz exakt passende Inhalte nach vorne, solange sie wenigstens thematisch relevant sind. Dieses Prinzip zeigt sich besonders deutlich beim sogenannten „Passage Indexing“, bei dem nur relevante Abschnitte berücksichtigt werden, um möglichst genau auf die Nutzerintention zu antworten.
Wichtig ist hierbei, die unterschiedlichen Schwellenwerte zu verstehen: Die Überschreitung der Relevanzschwelle macht ein Dokument zunächst nur zu einem potenziellen Kandidaten für die organischen Top 100, während das Erreichen bzw. Überschreiten der Qualitätsschwelle dafür sorgt, dass es tatsächlich als „repräsentative“ Seite im Hauptindex präsentiert werden darf.
Sie wünschen Sie eine individuelle Einschätzung oder ein konkretes, verbindliches Angebot. Dann buchen Sie sich jetzt Ihren kostenloses Beratungstermin mit uns.
Jetzt kostenloses Beratungsgespräch vereinbaren Klicken Sie hier für den nächsten Schritt zum Erfolg