In den folgenden Kapiteln wird ein Überblick über aktuell verwendete Ranking-Verfahren der führenden Suchmaschinen gegeben. Besonders wird auf Ranking-Verfahren eingegangen, die bei der Suchmaschine Google zum Einsatz kommen. Neben den Ranking-Verfahren werden wichtige Begriffe und die Bedeutung des Rankings für Webseitenbetreiber behandelt. Bevor Webdokumente hinsichtlich ihrer Relevanz optimiert werden können, ist es erforderlich die Ranking-Verfahren zu kennen und zu verstehen. Die Gewichtungsmodelle bilden die Grundlage für die Optimierung von Webdokumenten.
4.1 Einführung
Um zu unterscheiden, welche Dokumente eines Datenbestandes inhaltlich über einen Bezug zu einer Suchanfrage verfügen und zu welchem Grad eine Ähnlichkeit besteht, ist es erforderlich Gewichtungsmodelle einzusetzen, die Dokumente im Hinblick auf ihre Relevanz zu einer Suchanfrage unterscheiden können. Die Gewichtungsmodelle lassen sich nach Glöggler (2003, S. 67) grob in Statistische Gewichtungsmodelle (vgl. Kapitel 4.2) und Hypermedia basierte Gewichtungsmodelle (vgl. Kapitel 4.3) einteilen.
4.1.1 Begriffsklärungen
Relevanz kann nach Glöggler (2003, S. 67) auch „im Sinne von Ähnlichkeit gedeutet werden“.
„Ein Dokument ist im Sinne einer Suchanfrage relevanter als ein anderes Dokument, wenn es inhaltlich der Suchanfrage eher entspricht, als ein anderes Dokument“ (Glöggler, 2003, S. 43).
Wichtig ist der Zusammenhang zwischen Relevanz und Rangbildung (Ranking):
„Die Rangbildung, auch Ranking genannt, orientiert sich bei den Suchmaschinen heute nach dem Grad der Ähnlichkeit. Je eher ein Dokument einer Suchanfrage entspricht, desto weiter oben auf der Ergebnisliste erscheint es. Das Dokument das auf der ersten Seite und auf der ersten Position einer Suchergebnisliste angezeigt wird, entspricht der gestellten Suchanfrage, gemäß der Berechnungsmethodik der Suchmaschine, am genauesten. Die Rangposition entspricht folglich dem Ähnlichkeitsgrad eines Dokuments zur Suche“ (Glöggler, 2003, S. 70).
4.1.2 Bedeutung des Rankings für Webseiten-Betreiber
Das Ranking nimmt für Webseiten-Betreiber einen immer höheren Stellenwert ein. In einer, von der Firma Netbooster Web Positioning in Auftrag gegebenen, Studie (Karzauninkat, 2001) wurde festgestellt, dass rund 80 Prozent der Suchmaschinennutzer nicht über Seite zwei der Suchergebnisliste (vgl. Kapitel 4.1.3) hinausgehen. Im Normalfall bedeutet dies, dass nur die ersten 20 Treffer der Suchergebnisliste von einem Großteil der Nutzer überhaupt eingesehen werden (Karzauninkat, 2001).
Bei Google werden in der Standardeinstellung 10 Treffer pro Seite angezeigt. Die Webseiten die nicht innerhalb der Top 20 gelistet werden, müssen also auf zahlreiche Besucher verzichten. Ein schlechtes Ranking bei führenden Suchmaschinen wie Google kann, besonders für E-Commerce-Unternehmen, gleichbedeutend mit Umsatzeinbußen und damit verbundenen negativen Auswirkungen auf den Geschäftserfolg sein. Dies trifft besonders dann zu, wenn die Webseite zuvor einen Spitzenrang in der Suchergebnisliste innehatte und diesen an andere Webseiten verloren hat.
In der Studie wird ein hohes Ranking bei Suchmaschinen höher eingestuft als Online-Werbung, da Suchmaschinen-Marketing billiger und effektiver als das Schalten von Werbebannern ist (Karzauninkat, 2001).
„Ein Versicherungsmakler, der in Google bei der Suche nach dem Begriff ’versicherungen’ auf Platz eins zu finden ist, kann erfahrungsgemäß mit mindestens 10 000 Besuchern im Monat rechnen. Wollte er dieselbe Besucherzahl über Werbung einkaufen, so müsste er dafür mehrere tausend Euro ausgeben“ (Fischerländer, 2003, S. 84).
4.1.3 Suchergebnisliste von Google
In der Suchergebnisliste von Google werden als erstes die farbig hervorgehobenen Sponsored Links [1] des Payed Placement-Programmes angezeigt (vgl. Kapitel 4.5). Diese Sponsored Links werden, von den Ranking-Verfahren unabhängig, je nach Suchanfrage angezeigt (Glöggler, 2003, S. 112). Es folgen Newsmeldungen [2] der Google-News, falls für diese Suchanfrage News vorhanden sind, ansonsten wird dieser Bereich nicht angezeigt. Die durch die Ranking-Verfahren ermittelten Suchergebnisse [3] werden nach absteigender Relevanz angezeigt. Entscheidend für die Reihenfolge der Suchergebnisse ist neben den in nachfolgenden Kapiteln vorgestellten Ranking-Verfahren, vor allem der PageRank (vgl. Kapitel 5) der Webseite. Am rechten Rand [4] befinden sich weitere Sponsored Links des Google Payed Placement-Programmes (vgl. Kapitel 4.5)
4.2 Statistische Gewichtungsmodelle
Statistische Gewichtungsmodelle werden im traditionellen Information Retrieval (Informationswiedergewinnung) schon sehr lange zur Bestimmung der Relevanz von Textdokumenten eingesetzt. Bei diesen Modellen wird im Allgemeinen die Häufigkeit des Vorkommens eines Begriffes oder eines Parameters im Dokument untersucht. Die statistischen Gewichtungsmodelle kommen neben bibliothekarischen Information Retrieval Systemen bei den bekannten Suchmaschinen zum Einsatz. Bei Google werden statistische Gewichtungsmodelle ergänzend zum dominierenden PageRank-Verfahren (vgl. Kapitel 5) für die Relevanzbewertung eingesetzt (Glöggler, 2003, S. 73).
4.2.1 Das Vektorraummodell
Derzeit basieren verschiedene Retrieval-Algorithmen der Suchmaschinen auf dem Vektorraummodell, da es ein einfaches und benutzerfreundliches Modell ist, das sofort auf neue Datenbestände angewendet werden kann und je nach gewählter Retrievalfunktion eine relativ gute Retrievalqualität bietet (Glöggler, 2003, S. 73).
Das Prinzip des Modells wird von Glöggler wie folgt beschrieben:
„Beim Vektorraummodell wird jedes Dokument durch einen Vektor von n-Deskriptoren repräsentiert. D.h. für jedes Dokument existiert ein Vektor, dessen Vektorenraum durch n-Schlüsselwörter des betreffenden Dokuments gebildet wird. Konkret bedeutet das, dass jedes gefundene Schlüsselwort eines Dokumentes im Vektor eine Dimension bildet und der Vektor eines Dokumentes somit n-dimensional ist. Werden beispielsweise zwanzig Keywords für ein Dokument bestimmt, besitzt der Vektor des betreffenden Dokuments zwanzig Dimensionen (n = 20).
Eine Suchanfrage wird ihrerseits als m-dimensionaler Vektor dargestellt. In Analogie zum Vektor eines Dokuments bestimmt sich der Vektorraum einer Suchanfrage aus der Anzahl der Suchworte. Besteht eine Suche aus vier Suchworten, hat der Suchvektor vier Dimensionen (m = 4)“ (Glöggler, 2003, S. 73).
Es existieren zwei grundsätzliche Ansätze des Vektorraummodells, das binäre und das gewichtete Vektorraummodell (Glöggler, 2003, S. 73-74):
· Beim binären Vektorraummodell wird lediglich binär überprüft, ob ein Begriff in einem Datensatz vorkommt oder nicht. Es ist dadurch keine Differenzierung von Dokumenten hinsichtlich ihrer Ähnlichkeit zueinander bzw. eine Berechnung der Ähnlichkeit hinlänglich einer Suchanfrage möglich.
· Ziel des gewichteten Vektorraummodells ist es, über Gewichtungsverfahren Dokumente in Bezug auf ihre Ähnlichkeit zur Suchanfrage zu identifizieren und in eine gewichtete Rangfolge zu bringen.
Der Unterschied zwischen gewichteten und ungewichteten Modellen soll anhand folgender Gegenüberstellung aufgezeigt werden:
Jeder Deskriptor (normiertes Schlagwort) kann als eine Dimension im Vektor dargestellt werden. Ein Dokument mit n-Deskriptoren wird somit über einen n-dimensionalen Vektor dargestellt. In der Gegenüberstellung (vgl. Tabelle 3) verfügt der Vektor über drei Dimensionen, bestimmt durch die Schlüsselwörter „Computer“, „Prozessor“ und „Netzwerkkarte“. Durch den Einsatz eines Keyword-Relevanzfilter erfolgt eine automatisierte Identifikation von Schlüsselwörtern. Im invertierten Dateisystem werden alle Keywords berücksichtigt, die der Filter als relevant für ein Dokument erachtet. Das Dokument wird im System als n-dimensionaler Vektor abgebildet. Die Anzahl der Dimensionen eines Dokumentenvektor wird von der Anzahl der gefundenen Keywords bestimmt (Glöggler, 2003, S. 74).
Die Länge eines Vektors repräsentiert den Wert im gewichteten Vektorraummodell, der einem Keyword zugerechnet wird. Ein Deskriptor kann neben Null entweder einen positiven oder negativen Wert einnehmen. Für die Gegenüberstellung, in der das Dokument mit n = 3 und den Deskriptorengewichten {t1 = 2,3; t2 = 3,5; t3 = 1,6} abgebildet ist, ergibt sich folgender dreidimensionaler Vektor:
Um die Ähnlichkeit von Anfrage und Dokument zu berechnen wird die Anfrage ebenfalls als Vektor mit einem vorbestimmten Wert definiert. Es wird nun nicht mehr wie es im binären Booleschen-Modell erforderlich ist auf einer völligen Übereinstimmung zwischen Anfrage- und Dokumentenvektor bestanden, sondern es wird festgelegt, dass der Nachweis eines Dokuments von dem Ähnlichkeitswert zwischen der Suchanfrage und dem Dokument abhängt. Die Ähnlichkeit wird zwischen einem bestimmten Dokumentenvektor und einem Suchanfragevektor als Funktion bestimmt, wofür von den Suchmaschinen unterschiedliche Retrieval-Funktionen eingesetzt werden (Glöggler, 2003, S. 75).
Fast alle Suchmaschinen im Internet basieren auf dem gewichteten Vektorraummodell zur Berechnung von Deskriptorengewichten und der Relevanz von Dokumenten. Beim Vektorraummodell werden jedoch keine Vorgaben gemacht wie die Dokumentenbeschreibung, Gewichtung und Ähnlichkeitsberechnung zu erfolgen hat, es wird lediglich sowohl ein Dokument, als auch eine Suchanfrage als mathematischer Wert abgebildet (Glöggler, 2003, S. 75).
4.2.2 Die relative Worthäufigkeit (TF-Algorithmus)
Der Term Frequency Algorithmus (TF), der auch Algorithmus der Worthäufigkeit genannt wird, basiert auf der Erkenntnis (Zipf’sches Gesetz bzw. Gesetz des geringsten Widerstandes), dass es für den Verfasser bei der Texterstellung grundsätzlich leichter ist, immer den gleichen Begriff für ein und den selben Sachverhalt zu verwenden, als ständig wechselnde Begriffe. Zudem können für bestimmte Wörter keine Synonyme verwendet werden, da keine existieren (Glöggler, 2003, S. 76).
Mit steigender Häufigkeit eines Wortes innerhalb eines Textes nimmt die Bedeutung des Wortes für den Inhalt an Relevanz zu. In der einfachsten Form kann ein Wert mittels TF über die Summe der Häufigkeit eines auftretenden Keywords im Text bestimmt werden. Ein Wort das beispielsweise 20 mal im Text auftritt, hätte einen TF-Wert von 20 (Glöggler, 2003, S. 76).
Das Problem dieser einfachen Berechnungsmethodik ist, dass bei langen Texten in denen ein Begriff nur deshalb häufiger vorkommt, weil der Text länger ist, ein höherer Wert zustande kommt als bei kürzeren Dokumenten. Um dies zu vermeiden wird die Worthäufigkeit ins Verhältnis zu allen im Dokument vorkommenden Worten gesetzt. Diese relative Worthäufigkeit ist folglich aussagekräftiger, da eine Bewertung hinlänglich der Wichtigkeit eines bestimmten Wortes zu dem im Text behandelten Thema vorgenommen wird (Glöggler, 2003, S. 76f).
Die relative Worthäufigkeit eines Wortes hat folglich Auswirkungen auf die Gewichtung eines Dokumentes. Der von den Suchmaschinen als Keyword bestimmte Worttyp, ist immer ein Substantiv, da nur über Substantive eine Bestimmung über Inhalte und Themen eines Textdokuments möglich ist. Die relative Worthäufigkeit bezieht sich somit auf die relative Häufigkeit von Substantiven im Text eines Dokuments (Glöggler, 2003, S. 77).
4.2.3 Die inverse Dokumentenhäufigkeit (ITF-Algorithmus)
Das Konzept des Inverse Document Frequency Algorithmus (IDF) bzw. der inversen Dokumentenhäufigkeit bewertet ein Keyword um so höher, je seltener es in anderen Dokumenten vorkommt bzw. umso niedriger, je häufiger es in anderen Dokumenten auftritt. Ausgangspunkt dieses Konzepts sind die Aufgaben, die ein Keyword bei der Bestimmung relevanter Dokumente erfüllen soll:
„[...] ein Keyword muss es ermöglichen Unterschiede zwischen verschiedenen Dokumenten sichtbar zu machen, um hierdurch bei der Informationssuche die relevanten von den nicht relevanten Dokumenten im Datenbestand unterscheiden zu können“ (Glöggler, 2003, S. 77f).
Kommt beispielsweise der Begriff „Computer“ in der Gesamtheit aller erfassten Dokumente und somit im gesamten Datenbestand sehr häufig vor, ist er ungeeignet die einzelnen Dokumente zueinander zu unterscheiden. Dies führt zu der Überlegung, Keywords auch hinsichtlich ihrer Unterscheidungsfähigkeit zu den einzelnen Dokumenten zu bewerten. Die Bedeutung eines Begriffs wächst mit der Häufigkeit innerhalb eines Dokuments, ist jedoch umgekehrt proportional zur Gesamtzahl der Dokumente, in denen er vorkommt (Glöggler, 2003, S. 78).
Um IDF in einem dynamisch anpassenden System, wie dem der Suchmaschinen zu implementieren, wird in der Word List die Häufigkeit eines jeden Begriffs gespeichert und der Faktor der inversen Dokumentenhäufigkeit kann dann zum Zeitpunkt des Dokumenten-Retrieval errechnet werden. Die hierfür benötigten Informationen können, ergänzend zu einer Variablen, die immer dynamisch die Gesamtanzahl aller Dokumente berechnet, mit wenig Aufwand über die betreffende invertierte Datei kalkuliert werden (Glöggler, 2003, S. 78).
4.2.4 Bedeutung der Lage eines Keywords
Bei diesen Gewichtungsverfahren wird davon ausgegangen, dass ein Verfasser ein für den Inhalt sehr wichtiges Keyword eher am Dokumentenanfang als am Ende eines Textes positioniert. Es lassen sich zwei Methoden unterscheiden. Gewichtungsverfahren die sich auf die absolute Position eines Keywords im Dokument beziehen und das sog. Proximity-Verfahren, das den Abstand der Keywords zueinander berücksichtigt (Glöggler, 2003, S. 79).
Die Position der Worte wird von den Information Retrieval Systemen durch besondere Parser bestimmt, die es ermöglichen die genaue Position eines Wortes im Dokument festzustellen (Glöggler, 2003, S. 79).
Die Struktur von HTML-Dokumenten (Hypertext Markup Language) lässt sich grob in einen Dokumentenkopf und einen Dokumentenkörper einteilen. Der Dokumentenkopf enthält neben dem Dokumententitel auch Metaangaben in Form von Meta-Tags. Den Informationen im Dokumentenkopf kommt eine hohe Bedeutung zu, da davon auszugehen ist, dass der Verfasser eines Textes den Titel verwendet, um den Inhalt möglichst prägnant zu beschreiben. Viele Suchmaschinen gewichten Worte die sich im Dokumentkopf befinden besonders hoch (Glöggler, 2003, S. 79).
Der eigentliche Text eines HTML-Dokuments befindet sich im Dokumentenkörper und ist für die Erfassung und Auswertung eines Themas der wichtigste Bereich.
„Bei Systemen die eine differenzierte Gewichtung von Worten in Abhängigkeit ihrer Position im Text vornehmen, wird jedes einzelne Wort exakt mit seiner Position innerhalb des Textes erfasst. Dabei wird jedes Wort mit genauer Positionsangabe im invertierten Dateisystem abgespeichert. Grundsätzlich gilt bei dieser Methode, je weiter am Dokumentenanfang ein Keyword vorkommt, desto höher ist die Bewertung“ (Glöggler, 2003, S. 79f).
Die Bewertungssystematik kann durch die Bildung von Klassen vereinfacht werden,
indem beispielsweise Keywords, die sich innerhalb der ersten 50 Worte befinden, eine höhere Bewertung erhalten, als Keywords die sich innerhalb der Sektion von 51 bis 100 Worten befinden (Glöggler, 2003, S. 80).
Ein Keyword kann auch innerhalb des URL (Uniform Resource Locator) als Domain-Name, als Verzeichnisname oder auch als Dokumentenname vorkommen. Um beispielsweise das Keyword „Ferienwohnungen“ mit den maximalen Möglichkeiten in einem URL zu positionieren, wäre es erforderlich folgende URL zu verwenden:
www.ferienwohnungen.de/ferienwohnungen/ferienwohnungen.html
Durch eine Analyse des URL lässt sich sehr einfach feststellen, ob ein Keyword als Domainname, als Verzeichnisname oder als Dokumentenname eingesetzt ist. Je nach zum Einsatz kommender Methodik kann eine differenzierte Gewichtung in Abhängigkeit der Lage des Keywords in dem URL erfolgen (Glöggler, 2003, S. 80).
Das Proximity-Verfahren beruht auf der Grundüberlegung, dass zwei Worte, die in einem Text näher zueinander vorkommen, einen Text inhaltlich eher repräsentieren als Worte, die weiter voneinander entfernt sind. Es kommt bei Suchanfragen zum Einsatz, die aus mindestens 2 Suchworten bestehen. In der Umsetzung bewerten Suchmaschinen Dokumente differenzierter, wenn Keywords die in Kombination gesucht werden, in den Dokumenten unterschiedlich weit von einander entfernt sind (Glöggler, 2003, S. 80).
4.3 Hypermedia basierte Gewichtungsmodelle
Die klassischen Gewichtungsverfahren des Information Retrieval sind durch die Möglichkeiten des Hypertext im Internet um Hypermedia basierte Gewichtungsmodelle erweitertet worden. Bei Hypermedia basierten Gewichtungsmodellen wird die Systematik des Hypermedia als eine weltweit gegenseitige Verflechtung von Dokumenten mittels Hyperlinks sowie die Möglichkeiten des Anwendungsprotokolls HTTP (Hypertext Transfer Protocol) genutzt (Glöggler, 2003, S. 80).
Während sich z.B. das Vektorraummodell ausschließlich auf ein Dokument oder eine Sammlung von Dokumenten bezieht, bei denen die Dokumente als zweidimensionales Konstrukt definiert werden können, sind Dokumente bei den hier vorgestellten Hypermedia basierten Gewichtungsmodellen, durch die Einbeziehung des gesamten Hypermedia, als dreidimensionales, interdependentes Konstrukt zu sehen, das eine neue Dimension für das Information Retrieval eröffnet. Wichtig ist dabei, dass die Verfahren nicht exklusiv eingesetzt werden, sondern mit weiteren Gewichtungsverfahren kombiniert werden (Glöggler, 2003, S. 81).
4.3.1 Link Popularity-Verfahren
Das von den Google-Gründern Sergey Brin und Larry Page entwickelte PageRank-Verfahren (vgl. Kapitel 5) kommt inzwischen in ähnlicher Form bei vielen Suchmaschinen (z.B. Altavista, Alltheweb) in Kombination mit anderen Gewichtungsverfahren zum Einsatz. Es wird allgemein als Link Popularity-Verfahren bezeichnet. Link Popularity ist ein Verfahren, das „Hyperlink-Verweise von Dokumenten zueinander analysiert und die Anzahl und Qualität der Hyperlink-Verweise als relevantes Gewichtungskriterium einsetzt“ (Glöggler, 2003, S. 81). Jeder eingesetzte Link Popularity-Algorithmus arbeitet etwas anders und bewirkt in Verbindung mit weiteren Gewichtungsverfahren unterschiedliche Auswirkungen auf das Ranking (Glöggler, 2003, S. 81).
4.3.2 Systematik der Click Popularity
Die Systematik der Click Popularity wurde erstmals mit der 1998 entwickelten Suchmaschine DirectHit.com eingesetzt. Grundüberlegung ist, dass diejenigen Seiten die von Nutzern entsprechend einer bestimmten Suche aus der Suchergebnisliste heraus häufiger angeklickt werden, relevanter sein müssen, als solche Verweise der Ergebnisliste, die von den Anwendern seltener aufgerufen werden. Das Click Popularity-Verfahren wurde in den letzten Jahren beispielsweise von MSN, Lycos, Fireball als auch von Webkatalogen wie Yahoo eingesetzt. Es konnte sich aber im Gegensatz zur Link Popularity nie wirklich durchsetzen. Da es von der Suchmaschine Google nicht eingesetzt wird, soll in dieser Arbeit nicht näher darauf eingegangen werden. Eine ausführliche Abhandlung findet sich beispielsweise in Glöggler (2003, S. 87-90).
4.4 Cluster-Verfahren
Das Cluster-Verfahren (Cluster = Block) ist eine, von den bisher dargestellten Gewichtungsmodellen unterschiedliche, Methode zur Bewertung eines Dokuments, welche es zum Ziel hat, aus einer Gesamtheit von Dokumenten Gruppen von Dokumenten zu bilden, die zueinander ähnlich sind. Die Ähnlichkeitsberechnung beruht zunächst nicht auf einer Suchanfrage, sondern auf den Inhalten und bestimmten Parametern der einzelnen Dokumente zueinander (Glöggler, 2003, S. 90).
Das Prinzip wird von Glöggler wie folgt beschrieben:
„Über verschiedene Verfahren der Cluster-Bildung wird, ausgehend von vordefinierten oder sich automatisch selbst generierenden Vorgaben der einzelnen Gruppen, alle Dokumente überprüft, inwieweit sie mit den Definitionen eines bestimmten Clusters übereinstimmen. Die Zuordnung eines Dokuments zu einem Cluster erfolgt u.a. über Berechnungsmethoden die auf statistischen Gewichtungsverfahren beruhen. Die Ergebnisse der Berechnungen von Ähnlichkeiten der einzelnen Dokumente zueinander, bzw. ihre Zugehörigkeit zu bestimmten Clustern, wird im Zuge der Indexierung vorgenommen und im invertierten Dateisystem mit einem numerischen Vermerk auf den jeweiligen Cluster berücksichtigt. Die Klassifikation kann dazu dienen, nicht nur Dokumente bei einer Suche zu berücksichtigen die einer konkreten Suchanfrage optimal entsprechen, sondern auch solche Dokumente Element eines Suchergebnisses werden zu lassen, die eine hohe Ähnlichkeit zu den Dokumenten aufweisen, die als relevant zur Suchanfrage bestimmt wurden“ (Glöggler, 2003, S. 90).
Bei Google kommt das Cluster-Verfahren ebenfalls zum Einsatz. Auf der Suchergebnisliste ist die Funktion „Similar Pages“ (vgl. Abb. 10) verfügbar, die Dokumente auswählt, die eine Ähnlichkeit zu einem bestimmten Dokument aus der Suchergebnisliste besitzen.
Wird das Link „Similar Pages“ angeklickt, erscheinen alle Dokumente, die aufgrund des eingesetzten Cluster-Verfahrens zu dem betreffenden Verweis als ähnlich definiert wurden. Das Objekt bezogene Cluster-Verfahren basiert auf verweisende Hyperlinks. Das verweisende Dokument ist dabei ebenso ein Element des gleichen Clusters wie auch die ausgewählten Dokumente. Dokumente können gleichzeitig unterschiedlichen Gruppen zugeordnet werden und gehören nicht exklusiv einem einzigen Cluster an (Glöggler, 2003, S. 91).
Cluster-Modelle können in Word Cluster zur Erzeugung von automatisierten Thesauri
(geordnete Zusammenstellungen von Begriffen mit ihren natürlichsprachigen Beziehungen) und in Objekt-Cluster zur Erzeugung von Dokumenten-Clustern unterschieden werden. Der Word Cluster in Form eines Thesaurus kommt bei der Indexierung der Information Retrieval Systeme nicht zum Einsatz und findet gelegentlich bei der automatisierten Bildung von Webkatalogen Verwendung. Der von Google eingesetzte Dokumenten-Cluster soll hingegen eine Struktur von ähnlichen Dokumenten aufbauen, mit der Zielsetzung auch Dokumente zu finden, die ähnlich zueinander aber nicht direkt ähnlich zur Suchanfrage sind. Durch die Auswahl eines bestimmten Dokuments aus der Suchergebnisliste werden Dokumente zurückgegeben, die ähnlicher zu dem betreffenden Dokument als zu der initialen Suchanfrage sind (Glöggler, 2003, S. 92f).
Bei Dokumenten-Clustern kann ein einzelnes Dokument als kleinste Einheit eingesetzt werden und stellt den Ausgangspunkt des Clusters dar. Falls keine Struktur als Startpunkt eines Verfahrens vorhanden ist, werden verschiedene Objekteigenschaften benutzt um eine Startkonfiguration bestimmen zu können. Besondere Beachtung finden nach Glöggler (2003, S. 93) u.a. nachfolgende Parameter:
· Begriffe innerhalb des Title-Tags
· Begriffe innerhalb des URL
· Top-Level-Domainsuffix innerhalb des URL
· Anzahl der Begriffe im Dokument
· Hyperlink-Verweise von / auf Dokumente
Aus einer kleinen Teilmenge von Dokumenten werden dann sog. Kern-Cluster gebildet, die dazu dienen, eine Ähnlichkeitsberechnung mit anderen Dokumenten auszuführen. Bei der Bildung von Kern-Clustern nicht berücksichtigte Dokumente werden dann schrittweise in diese Cluster-Struktur überführt. Wenn eine Ausgangskonfiguration vorliegt, werden in einem zweiten Schritt Cluster-Repräsentanten für die bestehenden Cluster berechnet. Die Gruppierung der einzelnen Objekte wird mit Hilfe von Ähnlichkeitskoeffizienten zwischen den einzelnen Objekten und Cluster-Zentroiden (Mittelpunkte) durchgeführt (Glöggler, 2003, S. 93).
4.5 Payed Placement bei Google
Payed Placement wird das Ranking gegen Bezahlung genannt. Bezahlte Werbung ist den regulären, auf Relevanzkriterien basierten Suchergebnissen vorangestellt bzw. wird wie bei Google AdWords in einem separaten Bereich angezeigt. Wichtig ist zu wissen dass Payed Placement nicht von, in dieser Arbeit vorgestellten, Ranking-Verfahren beeinflusst wird. Da es aber für Webseiten-Betreiber die Möglichkeit bietet ohne große Zeitverzögerung sicher auf prominenten Positionen zu erscheinen, soll es hier im Rahmen des Rankings vorgestellt werden (Glöggler, 2003, S. 235).
4.5.1 AdWords
Die AdWords Werbung erscheint auf der rechten Seite der Suchergebnisliste (vgl. Abb.
und ist durch den Vermerk Sponsored Links als solche deutlich gekennzeichnet. Die Werbung ist Keyword orientiert, d.h. dass die Werbeeinblendung nur dann erscheint, wenn die vom Webseiten-Betreiber bestimmten Keywords gesucht werden. Sie wird auf einer Cost-Per-Click (CPC) Basis abgerechnet. CPC bedeutet, dass erst bei einem Klick auf einen Link der Werbung der vereinbarte CPC-Betrag anfällt. Für jedes neue Konto wird eine anfängliche Limitierung des Budget von 50.- Euro für 30 Tage festgelegt. Das Budget wird stufenweise erhöht, wenn das Limit durch die Anzahl der erfolgten Klicks erreicht wird, bevor der Zeitraum von 30 Tagen verstrichen ist. Google setzt das Limit bei Bedarf auf 200.- Euro, dann 350.- Euro und letztendlich auf 500.- Euro.
Webseiten-Betreiber haben jederzeit die Möglichkeit eine Kampagne abzubrechen. Durch die Zuweisung des Limits stellt Google sicher, dass eine erfolgreiche Kampagne nicht an einem begrenzten Budget scheitert. Des Weiteren ist eine Kostenlimitierung, die das täglich maximale Budget bestimmt, möglich. Die Werbeanzeigen werden solange eingeblendet bis ein definiertes Tagesbudget durch die Häufigkeit von Klicks aufgebraucht ist (Glöggler, 2003, S. 237).
Die Rangposition der Anzeigen wird aus einer Kombination der Höhe, die ein Anbieter bereit ist für einen Klick zu bezahlen, und der Anzahl der erfolgten Klicks auf eine Werbung bestimmt. Zur Erstellung einer Kampagne bietet Google ein Berechnungstool an, das den maximal erforderlichen CPC berechnet, um vor den anderen Werbeanbietern zu erscheinen (Glöggler, 2003, S. 237).
Da Google mit verschiedenen Portalen und Webkatalogen kooperiert, besteht die Möglichkeit, AdWords-Kampagnen nicht nur bei Google, sondern auch bei den Partnern von Google erscheinen zu lassen. Dadurch kann die Reichweite einer Werbekampagne über die Nutzergruppen von Google hinaus ausgeweitet werden (Glöggler, 2003, S. 237f).
4.5.2 Premium Sponsorship
Premium Sponsorship Werbung ist ebenfalls Keyword orientiert (vgl. Kapitel 4.5.1) und zeigt maximal zwei Text basierte Verweise von unterschiedlichen Anbietern an (vgl. Suchergebnisliste in Abb. 8). Wie in Abbildung 8 ersichtlich ist, heben sich die Werbeeinblendungen farblich von den anderen Suchergebnissen ab und erscheinen in der Suchergebnisliste ganz oben (Glöggler, 2003, S. 235).
Allerdings nimmt Google seit geraumer Zeit keine Premium Sponsorship Werbekunden mehr an und lässt bestehende Verträge auslaufen. Auf der Seite für Googles Werbeangebote (Google, 2004e) wird das Programm seit Jahresbeginn nicht mehr aufgeführt. Der Platz der Premium Sponsorship Anzeigen wird jetzt von den relevantesten AdWords eingenommen, die vom rechten Rand über die Suchergebnisse rücken (vgl. Kapitel 4.1.3).
Dieser Artikel ist ein kleiner Auszug meiner Studienarbeit “Relevanzoptimierung und Ranking-Verfahren der Suchmaschine Google”
Download der kompletten Studienarbeit (mit Abbildungen):
http://www.wissen24.de/vorschau/25665.html