Cosine Similarity: Content-Relevanz messen und SEO-Performance verbessern

Autor:Patrick Stolp Letzte Aktualisierung:19.11.2024 Kategorie:Suchmaschinenoptimierung Lesedauer:6 Minuten
Cosine Similarity

Eine der Kernfragen, wenn es in der Suchmaschinenoptimierung (SEO) darum geht, Dokumente bzw. Inhalte zu einer Suchanfrage zu ranken, ist größtmögliche Relevanz herzustellen.

Es steht also die Frage im Zentrum:
Wie ähnlich sind sich eine konkrete Suchanfrage und ein spezifisches Webdokument?

Eine mit nahezu hundertprozentiger Sicherheit genutzte Methode zur Bestimmung der Ähnlichkeit zweier Inhalte ist die sogenannte Cosine Similarity, welches unter anderem von Googles Deep-Learning-Modell BERT verwendet wird – und dank Open Source auch problemlos selbst zur Content- bzw. Relevanzoptimierung von Seiteninhalten genutzt werden kann.

Wie verstehen Maschinen Text?

Damit moderne Suchmaschinen oder auch Large Language Models menschlichen Text und seine Bedeutung nicht nur lesen, sondern auch „verstehen“ können, müssen Textdaten wie Buchstaben, Wörter, Sätze oder Absätze in maschinenlesbare Zahlenwerte, in diesem Fall Vektoren (embeddings), umgewandelt werden. Dies geschieht über sogenannte Vektorraummodelle (VSM; vector space models).

Ob nun OpenAIs ChatGPT oder Googles BERT, sowohl Large Language Models (LLM) als auch (semantische) Suchmaschinen extrahieren Textinhalte aus Dokumenten und übersetzen Textdaten mittels eines Vektorraummodells in Vektoren.

Dies läuft vereinfacht wie folgt ab:

Vektoren werden in einer Vektordatenbank gespeichert und können so einfach abgerufen und miteinander verglichen werden.

Was ist Cosine Similarity?

Die Ähnlichkeit zweier Vektoren im Vektorraum lässt sich berechnen. Moderne Suchmaschinen und auch LLMs nutzen hierfür den sogenannten Kosinus, der vielen noch aus der Schul-Mathematik bekannt sein dürfte.

Die Cosine Similarity, die auf dem Kosinus des Winkels zwischen zwei Vektoren basiert, nimmt Werte zwischen 0 und 1 an. Ein Wert von 0 bedeutet, dass die Vektoren orthogonal zueinander sind und somit keine inhaltliche Ähnlichkeit besteht. Ein Wert von 1 signalisiert, dass die Vektoren in die gleiche Richtung zeigen und die Inhalte somit sehr ähnlich sind. Diese Methode ist besonders nützlich, um die inhaltliche Relevanz zweier Textrepräsentationen zu vergleichen.

Eine vereinfachte Übersicht der Berechnung der Cosine Similarity in einem zweidimensionalen Raum sähe so aus:

Komplexere Vektoren lassen sich visuell leider nicht darstellen, das ändert jedoch nichts daran, dass die Cosine Similarity dieselbe Aussagekraft für die Ähnlichkeit zweier komplexerer Textinhalte und somit für die SEO-Relevanz beispielsweise eines Dokuments zu einer Suchanfrage hat, wie es im obigen Schaubild der Fall ist.

Ein Stanford-Dokument mit dem Titel „Queries as vectors“ aus den Händen von Pandu Nayak, aktuell Vice President of Search bei Google, bestätigt genau dies über die Cosine Similarity:

„As a consequence, we can use the cosine similarity between the query vector and a document vector as a measure of the score of the document for that query.“

Aber: Dan Petrovic hat behauptet, dass die Aussagekraft über die Ähnlichkeit zweier Textinhalte über die Consine Similarity sinkt, sofern der der Textinhalt eines Dokuments im Vergleich zur Suchanfrage größer wird.

Wer solch einen Test im Zuge seiner Content-Relevanz-Optimierung selbst vornehmen möchte, dem empfehle ich diese Anleitung:

Welche Bedeutung hat Cosine Similarity für SEO und Rankingprozesse?

Cosine Similarity spielt in modernen Rankingprozessen eine Schlüsselrolle, insbesondere in hybriden Suchsystemen, die verschiedene Ranking-Modelle kombinieren, um Effizienz und Qualität des Rankingprozesses zu optimieren.

In hybriden Systemen können verschiedene Modelle in unterschiedlichem Maße am finalen Ranking beteiligt sein. So können unterschiedliche Scoring-Systeme zur Relevanzbewertung beispielsweise hälftig das Gesamtscoring festlegen.

Hybride Systeme nutzen also kaskadierende Ansätze, bei denen zum Beispiel mittels einer initialen keyword-basierten Suche relevante Dokumente identifiziert werden, bevor ein Vektorrankingsystem Cosine Similarity einsetzt, um unter den erstausgewählten Dokumenten jene zu finden mit der größten Ähnlichkeit zur Suchanfrage. Diese Methode minimiert die benötigten Rechenressourcen, ohne an Ergebnisqualität einzubüßen.

Sie möchten auch von diesem Wissen profitieren? Jetzt Termin vereinbaren!

Sie wünschen Sie eine individuelle Einschätzung oder ein konkretes, verbindliches Angebot. Dann buchen Sie sich jetzt Ihren kostenloses Beratungstermin mit uns.

Jetzt kostenloses Beratungsgespräch vereinbaren Klicken Sie hier für den nächsten Schritt zum Erfolg