Digital-Nirvana.de





WM 2006: Tickets bei eBay = kein Zugang ins Stadion?

26. April 2005 02:03 - Digital-Nirvana

Der Vizepräsident des Organisationskomitees (OK) für die Fußball-WM 2006, Horst R. Schmidt, hat nun eindringlich davor gewarnt, Karten über das Internet-Auktionshaus eBay zu ersteigern. Grund dafür ist die Personalisierung der WM-Karten.

Denn auf jedem Ticket sind die persönlichen Daten des Käufers gedruckt. Wenn diese aber nicht mit dem Personalausweis des Zuschauers übereinstimmen, kann diesem der Eintritt verwehrt werden. Nur mit Zustimmung des OK können Karten übertragen werden.

Man wollte dem Internethandel bei eBay vergeblich schon im Vorfeld einen Riegel vorschieben, nun werden auch juristische Schritte gegen Anbieter geprüft. Hoffnung auf Karten besteht aber noch durch unausgeschöpfte Kontingente der Nationalverbände.

Ich glaube kaum, dass das durchgezogen wird, weil leere Stadien will ja auch niemand haben. Viel mehr soll die Ankündigung abschreckende Wirkung auf potentielle eBay-Verkäufer haben.

Hommingberger Gepardenforelle

25. April 2005 12:27 - Digital-Nirvana

Nach etwa einer Woche des SEO-Wettbewerbes konnte mein Beitrag unter Hommingberger Gepardenforelle bereits exzellente Platzierungen erzielen. Bei Google habe ich mich auf Platz 19 vorgearbeitet ( bei knapp 500.000 Seiten). Bei Yahoo war meine bisher beste Platzierung Platz 10. Sogar auf Seekport bin ich bei nur 101 Treffern auf Platz 48 indexiert worden. Bei MSN war meine bisher beste Platzierung Rang 14.
Täglich kommen neue Hommingberger-Gepardenforelle-Seiten hinzu gegen die man sich erwehren muss.

PageRank-Update von Google

25. April 2005 12:21 - Digital-Nirvana

Am Freitag den 22. April 2005 war es also soweit: Das lang ersehnte PageRank-Update von Google wurde durchgeführt. Gleichzeitig lief ein Update der Backlinks. Meine Private Homepage www.philipp-wiedmaier.de konnte sich von PR 3 auf PR 4 verbessern. Die von mir betreute Seite www.witze-blogger.de gar von PR 0 auf PR 5.

Das PageRank-Update wird von vielen Suchmaschinen-Optimierer immer sehnsüchtig erwartet, obwohl es sich auf das Ranking praktisch nicht auswirkt, da der PageRank von Google intern längst berücksichtigt wird und es sich bei dem Update nur um eine Veröffentlichung des PageRanks “nach außen” handelt. In der Google-Toolbar wird der PageRank dann als grüner Balken entsprechend angezeigt. Dies ist vor allem für Linktausch-Partner interessant, die sich immer noch an diesem grünen Balken orientieren.

Pokal-Halbfinale Schalke – Werder Bremen

19. April 2005 23:55 - Digital-Nirvana

Fabian Ernst verschießt also den alles entscheidenden Elfmeter. Ausgerechnet Ernst! Ich will ihm ja gar nicht unterstellen, dass er absichtlich “ausgerutscht” ist, an seiner Stelle hätte ich aber gar nicht erst geschossen, schließlich kann er nur verlieren: Trifft er, ist das die normalste Sache der Welt, verschießt er macht er sich bei allen Werder-Fans unbeliebt. Dass Ex-Bremer Ailton auch verschossen hat, zeigt welche Rolle persönliche Gedanken auf die Psyche haben (ich könnte mich hier bei den Fans meines neuen Klubs unbeliebt machen wenn ich treffe? Ich könnte mich bei den Bremern Fans enorm unbeliebt machen, wenn ich verschieße? hmmm schwierig…im Zweifelsfall wohl ersteres :-) )

Hommingberger Gepardenforelle

18. April 2005 23:50 - Digital-Nirvana

Hommingberger Gepardenforelle

SEO Contest der c’t und Heise.

Ich habe mich gerade entschieden an diesem SEO-Contest teilzunehmen:-) Auch wenn die Zeit gerade sehr knapp ist, denke ich, ist so ein Contest für das Verständnis aktueller Ranking-Verfahren enorm wertvoll. Da ich mich den Großteil meines Studiums mit Ranking-Verfahren und der Relevanzoptimierung für die Suchmaschine Google auseinandergesetzt habe, kann ich jetzt dieses Wissen an der “Hommingberger Gepardenforelle” erproben.

In dem Contest geht es darum bei den Großen Suchmaschinen wie Google, Yahoo und MSN sowie Seekport unter den Top-Platzierungen zum Keyword “Hommingberger Gepardenforelle” gelistet zu werden.

Ich werde mit einem separaten Hommingberger Gepardenforelle-Blog ins Rennen gehen:-)
Dabei kommt es mir in erster Linie nicht auf eine Spitzenposition an (diese wird als Einzelperson mit wenig Zeit und wenig Backlinks kaum möglich sein) in den Suchergebnislisten an. Viel wichtiger ist es unterschiedliche Optimierungs-Methoden zu testen und mit anderen Sites zu vergleichen.

Dies ist mein Hommingberger Gepardenforelle-Blog mit Informationen zu:

* Hommingberger Gepardenforelle
* Gepardenforelle
* Hommingberger
* Berger
* Geparden
* Homming
* Homming Berger Geparden Forelle
* Forelle

Die Gewinner werden am 15. Mai und am 15. Dezember 2005 auf der Seite von heise.de gekürt. Preise gibt es keine (mal abgesehen von ein paar Terabyte Traffic bei Platz 1*g*), aber dafür macht man sowas ja auch nicht :-)

Ich hoffe, daß ich durch den Blog zum Thema Hommingberger Gepardenforelle eine gute Platzierung erzielen kann und erhoffe mir durch die Hommingberger Gepardenforelle neue Kentnisse über Ranking-Verfahren zu erwerben.
So long…
Eure Hommingberger Gepardenforelle unter http://hommingbergergepardenforelle.digital-nirvana.de

PHP Passwort-Generator

13. April 2005 12:11 - Digital-Nirvana

PHP Passwort-Generator ist ein PHP-Script zur automatischen Generierung von Passwörtern. Anhand von Listen können Optionen wie die Anzahl der Passwörter, Länge der Passwörter, Groß/Kleinschreibung und diverse Modi (nur Zahlen bzw. Buchstaben, sprechend oder kombiniert) ausgewählt werden. Das PHP-Script benötigt kein MySQL. Eine Installation ist nicht erforderlich. Einfach das PHP-Script uploaden und es kann sofort losgehen.

Demo: Passwort-Generator PHP

Diabolus von Dan Brown – Sakrileg wird verfilmt

13. März 2005 12:41 - Digital-Nirvana

Dan Browns Roman “Diabolus” (Digital Fortress) kann ab sofort bestellt werden. Nach “Illuminati” (Angels & Demons), “Meteor” (Deception Point) und Sakrileg (“The Da Vinci Code”) ist Diabolus der 4. Roman des Erfolgsautors (eigentlich sein erster, aber der 4. wo in Deutschland veröffentlicht wird).


Diabolus jetzt bestellen!

Der weltweite Start der Verfilmung des Romans THE DA VINCI CODE (dt: Sakrileg) ist von Sony Pictures auf den 19. Mai 2006 terminiert. Für die Darstellung von Robert Langdon wurde Tom Hanks gewonnen, Jean Reno stellt den französichen Kommissar Bezu Fache dar. Die Rolle der jungen Polizistin Sophie Neveu übernimmt die 26-Jährige Französin Audrey Tautou. Der Regisseur Ron Howard darf sogar einige Szenen im Louvre drehen: Museumsdirektor Henri Loyrette erteilte dazu die grundsätzliche Genehmigung!

Auf diesen Film freue ich mich schon und jeder der das Buch gelesen hat sicherlich auch… :-)

Ranking-Verfahren

14. August 2004 02:31 - Digital-Nirvana

In den folgenden Kapiteln wird ein Überblick über aktuell verwendete Ranking-Verfahren der führenden Suchmaschinen gegeben. Besonders wird auf Ranking-Verfahren eingegangen, die bei der Suchmaschine Google zum Einsatz kommen. Neben den Ranking-Verfahren werden wichtige Begriffe und die Bedeutung des Rankings für Webseitenbetreiber behandelt. Bevor Webdokumente hinsichtlich ihrer Relevanz optimiert werden können, ist es erforderlich die Ranking-Verfahren zu kennen und zu verstehen. Die Gewichtungsmodelle bilden die Grundlage für die Optimierung von Webdokumenten.

4.1 Einführung

Um zu unterscheiden, welche Dokumente eines Datenbestandes inhaltlich über einen Bezug zu einer Suchanfrage verfügen und zu welchem Grad eine Ähnlichkeit besteht, ist es erforderlich Gewichtungsmodelle einzusetzen, die Dokumente im Hinblick auf ihre Relevanz zu einer Suchanfrage unterscheiden können. Die Gewichtungsmodelle lassen sich nach Glöggler (2003, S. 67) grob in Statistische Gewichtungsmodelle (vgl. Kapitel 4.2) und Hypermedia basierte Gewichtungsmodelle (vgl. Kapitel 4.3) einteilen.

4.1.1 Begriffsklärungen

Relevanz kann nach Glöggler (2003, S. 67) auch „im Sinne von Ähnlichkeit gedeutet werden“.
„Ein Dokument ist im Sinne einer Suchanfrage relevanter als ein anderes Dokument, wenn es inhaltlich der Suchanfrage eher entspricht, als ein anderes Dokument“ (Glöggler, 2003, S. 43).
Wichtig ist der Zusammenhang zwischen Relevanz und Rangbildung (Ranking):
„Die Rangbildung, auch Ranking genannt, orientiert sich bei den Suchmaschinen heute nach dem Grad der Ähnlichkeit. Je eher ein Dokument einer Suchanfrage entspricht, desto weiter oben auf der Ergebnisliste erscheint es. Das Dokument das auf der ersten Seite und auf der ersten Position einer Suchergebnisliste angezeigt wird, entspricht der gestellten Suchanfrage, gemäß der Berechnungsmethodik der Suchmaschine, am genauesten. Die Rangposition entspricht folglich dem Ähnlichkeitsgrad eines Dokuments zur Suche“ (Glöggler, 2003, S. 70).

4.1.2 Bedeutung des Rankings für Webseiten-Betreiber

Das Ranking nimmt für Webseiten-Betreiber einen immer höheren Stellenwert ein. In einer, von der Firma Netbooster Web Positioning in Auftrag gegebenen, Studie (Karzauninkat, 2001) wurde festgestellt, dass rund 80 Prozent der Suchmaschinennutzer nicht über Seite zwei der Suchergebnisliste (vgl. Kapitel 4.1.3) hinausgehen. Im Normalfall bedeutet dies, dass nur die ersten 20 Treffer der Suchergebnisliste von einem Großteil der Nutzer überhaupt eingesehen werden (Karzauninkat, 2001).
Bei Google werden in der Standardeinstellung 10 Treffer pro Seite angezeigt. Die Webseiten die nicht innerhalb der Top 20 gelistet werden, müssen also auf zahlreiche Besucher verzichten. Ein schlechtes Ranking bei führenden Suchmaschinen wie Google kann, besonders für E-Commerce-Unternehmen, gleichbedeutend mit Umsatzeinbußen und damit verbundenen negativen Auswirkungen auf den Geschäftserfolg sein. Dies trifft besonders dann zu, wenn die Webseite zuvor einen Spitzenrang in der Suchergebnisliste innehatte und diesen an andere Webseiten verloren hat.
In der Studie wird ein hohes Ranking bei Suchmaschinen höher eingestuft als Online-Werbung, da Suchmaschinen-Marketing billiger und effektiver als das Schalten von Werbebannern ist (Karzauninkat, 2001).
„Ein Versicherungsmakler, der in Google bei der Suche nach dem Begriff ’versicherungen’ auf Platz eins zu finden ist, kann erfahrungsgemäß mit mindestens 10 000 Besuchern im Monat rechnen. Wollte er dieselbe Besucherzahl über Werbung einkaufen, so müsste er dafür mehrere tausend Euro ausgeben“ (Fischerländer, 2003, S. 84).

4.1.3 Suchergebnisliste von Google

In der Suchergebnisliste von Google werden als erstes die farbig hervorgehobenen Sponsored Links [1] des Payed Placement-Programmes angezeigt (vgl. Kapitel 4.5). Diese Sponsored Links werden, von den Ranking-Verfahren unabhängig, je nach Suchanfrage angezeigt (Glöggler, 2003, S. 112). Es folgen Newsmeldungen [2] der Google-News, falls für diese Suchanfrage News vorhanden sind, ansonsten wird dieser Bereich nicht angezeigt. Die durch die Ranking-Verfahren ermittelten Suchergebnisse [3] werden nach absteigender Relevanz angezeigt. Entscheidend für die Reihenfolge der Suchergebnisse ist neben den in nachfolgenden Kapiteln vorgestellten Ranking-Verfahren, vor allem der PageRank (vgl. Kapitel 5) der Webseite. Am rechten Rand [4] befinden sich weitere Sponsored Links des Google Payed Placement-Programmes (vgl. Kapitel 4.5)

4.2 Statistische Gewichtungsmodelle

Statistische Gewichtungsmodelle werden im traditionellen Information Retrieval (Informationswiedergewinnung) schon sehr lange zur Bestimmung der Relevanz von Textdokumenten eingesetzt. Bei diesen Modellen wird im Allgemeinen die Häufigkeit des Vorkommens eines Begriffes oder eines Parameters im Dokument untersucht. Die statistischen Gewichtungsmodelle kommen neben bibliothekarischen Information Retrieval Systemen bei den bekannten Suchmaschinen zum Einsatz. Bei Google werden statistische Gewichtungsmodelle ergänzend zum dominierenden PageRank-Verfahren (vgl. Kapitel 5) für die Relevanzbewertung eingesetzt (Glöggler, 2003, S. 73).

4.2.1 Das Vektorraummodell

Derzeit basieren verschiedene Retrieval-Algorithmen der Suchmaschinen auf dem Vektorraummodell, da es ein einfaches und benutzerfreundliches Modell ist, das sofort auf neue Datenbestände angewendet werden kann und je nach gewählter Retrievalfunktion eine relativ gute Retrievalqualität bietet (Glöggler, 2003, S. 73).
Das Prinzip des Modells wird von Glöggler wie folgt beschrieben:
„Beim Vektorraummodell wird jedes Dokument durch einen Vektor von n-Deskriptoren repräsentiert. D.h. für jedes Dokument existiert ein Vektor, dessen Vektorenraum durch n-Schlüsselwörter des betreffenden Dokuments gebildet wird. Konkret bedeutet das, dass jedes gefundene Schlüsselwort eines Dokumentes im Vektor eine Dimension bildet und der Vektor eines Dokumentes somit n-dimensional ist. Werden beispielsweise zwanzig Keywords für ein Dokument bestimmt, besitzt der Vektor des betreffenden Dokuments zwanzig Dimensionen (n = 20).
Eine Suchanfrage wird ihrerseits als m-dimensionaler Vektor dargestellt. In Analogie zum Vektor eines Dokuments bestimmt sich der Vektorraum einer Suchanfrage aus der Anzahl der Suchworte. Besteht eine Suche aus vier Suchworten, hat der Suchvektor vier Dimensionen (m = 4)“ (Glöggler, 2003, S. 73).
Es existieren zwei grundsätzliche Ansätze des Vektorraummodells, das binäre und das gewichtete Vektorraummodell (Glöggler, 2003, S. 73-74):
· Beim binären Vektorraummodell wird lediglich binär überprüft, ob ein Begriff in einem Datensatz vorkommt oder nicht. Es ist dadurch keine Differenzierung von Dokumenten hinsichtlich ihrer Ähnlichkeit zueinander bzw. eine Berechnung der Ähnlichkeit hinlänglich einer Suchanfrage möglich.
· Ziel des gewichteten Vektorraummodells ist es, über Gewichtungsverfahren Dokumente in Bezug auf ihre Ähnlichkeit zur Suchanfrage zu identifizieren und in eine gewichtete Rangfolge zu bringen.
Der Unterschied zwischen gewichteten und ungewichteten Modellen soll anhand folgender Gegenüberstellung aufgezeigt werden:
Jeder Deskriptor (normiertes Schlagwort) kann als eine Dimension im Vektor dargestellt werden. Ein Dokument mit n-Deskriptoren wird somit über einen n-dimensionalen Vektor dargestellt. In der Gegenüberstellung (vgl. Tabelle 3) verfügt der Vektor über drei Dimensionen, bestimmt durch die Schlüsselwörter „Computer“, „Prozessor“ und „Netzwerkkarte“. Durch den Einsatz eines Keyword-Relevanzfilter erfolgt eine automatisierte Identifikation von Schlüsselwörtern. Im invertierten Dateisystem werden alle Keywords berücksichtigt, die der Filter als relevant für ein Dokument erachtet. Das Dokument wird im System als n-dimensionaler Vektor abgebildet. Die Anzahl der Dimensionen eines Dokumentenvektor wird von der Anzahl der gefundenen Keywords bestimmt (Glöggler, 2003, S. 74).
Die Länge eines Vektors repräsentiert den Wert im gewichteten Vektorraummodell, der einem Keyword zugerechnet wird. Ein Deskriptor kann neben Null entweder einen positiven oder negativen Wert einnehmen. Für die Gegenüberstellung, in der das Dokument mit n = 3 und den Deskriptorengewichten {t1 = 2,3; t2 = 3,5; t3 = 1,6} abgebildet ist, ergibt sich folgender dreidimensionaler Vektor:

Um die Ähnlichkeit von Anfrage und Dokument zu berechnen wird die Anfrage ebenfalls als Vektor mit einem vorbestimmten Wert definiert. Es wird nun nicht mehr wie es im binären Booleschen-Modell erforderlich ist auf einer völligen Übereinstimmung zwischen Anfrage- und Dokumentenvektor bestanden, sondern es wird festgelegt, dass der Nachweis eines Dokuments von dem Ähnlichkeitswert zwischen der Suchanfrage und dem Dokument abhängt. Die Ähnlichkeit wird zwischen einem bestimmten Dokumentenvektor und einem Suchanfragevektor als Funktion bestimmt, wofür von den Suchmaschinen unterschiedliche Retrieval-Funktionen eingesetzt werden (Glöggler, 2003, S. 75).

Fast alle Suchmaschinen im Internet basieren auf dem gewichteten Vektorraummodell zur Berechnung von Deskriptorengewichten und der Relevanz von Dokumenten. Beim Vektorraummodell werden jedoch keine Vorgaben gemacht wie die Dokumentenbeschreibung, Gewichtung und Ähnlichkeitsberechnung zu erfolgen hat, es wird lediglich sowohl ein Dokument, als auch eine Suchanfrage als mathematischer Wert abgebildet (Glöggler, 2003, S. 75).

4.2.2 Die relative Worthäufigkeit (TF-Algorithmus)

Der Term Frequency Algorithmus (TF), der auch Algorithmus der Worthäufigkeit genannt wird, basiert auf der Erkenntnis (Zipf’sches Gesetz bzw. Gesetz des geringsten Widerstandes), dass es für den Verfasser bei der Texterstellung grundsätzlich leichter ist, immer den gleichen Begriff für ein und den selben Sachverhalt zu verwenden, als ständig wechselnde Begriffe. Zudem können für bestimmte Wörter keine Synonyme verwendet werden, da keine existieren (Glöggler, 2003, S. 76).
Mit steigender Häufigkeit eines Wortes innerhalb eines Textes nimmt die Bedeutung des Wortes für den Inhalt an Relevanz zu. In der einfachsten Form kann ein Wert mittels TF über die Summe der Häufigkeit eines auftretenden Keywords im Text bestimmt werden. Ein Wort das beispielsweise 20 mal im Text auftritt, hätte einen TF-Wert von 20 (Glöggler, 2003, S. 76).
Das Problem dieser einfachen Berechnungsmethodik ist, dass bei langen Texten in denen ein Begriff nur deshalb häufiger vorkommt, weil der Text länger ist, ein höherer Wert zustande kommt als bei kürzeren Dokumenten. Um dies zu vermeiden wird die Worthäufigkeit ins Verhältnis zu allen im Dokument vorkommenden Worten gesetzt. Diese relative Worthäufigkeit ist folglich aussagekräftiger, da eine Bewertung hinlänglich der Wichtigkeit eines bestimmten Wortes zu dem im Text behandelten Thema vorgenommen wird (Glöggler, 2003, S. 76f).
Die relative Worthäufigkeit eines Wortes hat folglich Auswirkungen auf die Gewichtung eines Dokumentes. Der von den Suchmaschinen als Keyword bestimmte Worttyp, ist immer ein Substantiv, da nur über Substantive eine Bestimmung über Inhalte und Themen eines Textdokuments möglich ist. Die relative Worthäufigkeit bezieht sich somit auf die relative Häufigkeit von Substantiven im Text eines Dokuments (Glöggler, 2003, S. 77).

4.2.3 Die inverse Dokumentenhäufigkeit (ITF-Algorithmus)

Das Konzept des Inverse Document Frequency Algorithmus (IDF) bzw. der inversen Dokumentenhäufigkeit bewertet ein Keyword um so höher, je seltener es in anderen Dokumenten vorkommt bzw. umso niedriger, je häufiger es in anderen Dokumenten auftritt. Ausgangspunkt dieses Konzepts sind die Aufgaben, die ein Keyword bei der Bestimmung relevanter Dokumente erfüllen soll:
„[...] ein Keyword muss es ermöglichen Unterschiede zwischen verschiedenen Dokumenten sichtbar zu machen, um hierdurch bei der Informationssuche die relevanten von den nicht relevanten Dokumenten im Datenbestand unterscheiden zu können“ (Glöggler, 2003, S. 77f).
Kommt beispielsweise der Begriff „Computer“ in der Gesamtheit aller erfassten Dokumente und somit im gesamten Datenbestand sehr häufig vor, ist er ungeeignet die einzelnen Dokumente zueinander zu unterscheiden. Dies führt zu der Überlegung, Keywords auch hinsichtlich ihrer Unterscheidungsfähigkeit zu den einzelnen Dokumenten zu bewerten. Die Bedeutung eines Begriffs wächst mit der Häufigkeit innerhalb eines Dokuments, ist jedoch umgekehrt proportional zur Gesamtzahl der Dokumente, in denen er vorkommt (Glöggler, 2003, S. 78).
Um IDF in einem dynamisch anpassenden System, wie dem der Suchmaschinen zu implementieren, wird in der Word List die Häufigkeit eines jeden Begriffs gespeichert und der Faktor der inversen Dokumentenhäufigkeit kann dann zum Zeitpunkt des Dokumenten-Retrieval errechnet werden. Die hierfür benötigten Informationen können, ergänzend zu einer Variablen, die immer dynamisch die Gesamtanzahl aller Dokumente berechnet, mit wenig Aufwand über die betreffende invertierte Datei kalkuliert werden (Glöggler, 2003, S. 78).

4.2.4 Bedeutung der Lage eines Keywords

Bei diesen Gewichtungsverfahren wird davon ausgegangen, dass ein Verfasser ein für den Inhalt sehr wichtiges Keyword eher am Dokumentenanfang als am Ende eines Textes positioniert. Es lassen sich zwei Methoden unterscheiden. Gewichtungsverfahren die sich auf die absolute Position eines Keywords im Dokument beziehen und das sog. Proximity-Verfahren, das den Abstand der Keywords zueinander berücksichtigt (Glöggler, 2003, S. 79).
Die Position der Worte wird von den Information Retrieval Systemen durch besondere Parser bestimmt, die es ermöglichen die genaue Position eines Wortes im Dokument festzustellen (Glöggler, 2003, S. 79).
Die Struktur von HTML-Dokumenten (Hypertext Markup Language) lässt sich grob in einen Dokumentenkopf und einen Dokumentenkörper einteilen. Der Dokumentenkopf enthält neben dem Dokumententitel auch Metaangaben in Form von Meta-Tags. Den Informationen im Dokumentenkopf kommt eine hohe Bedeutung zu, da davon auszugehen ist, dass der Verfasser eines Textes den Titel verwendet, um den Inhalt möglichst prägnant zu beschreiben. Viele Suchmaschinen gewichten Worte die sich im Dokumentkopf befinden besonders hoch (Glöggler, 2003, S. 79).
Der eigentliche Text eines HTML-Dokuments befindet sich im Dokumentenkörper und ist für die Erfassung und Auswertung eines Themas der wichtigste Bereich.
„Bei Systemen die eine differenzierte Gewichtung von Worten in Abhängigkeit ihrer Position im Text vornehmen, wird jedes einzelne Wort exakt mit seiner Position innerhalb des Textes erfasst. Dabei wird jedes Wort mit genauer Positionsangabe im invertierten Dateisystem abgespeichert. Grundsätzlich gilt bei dieser Methode, je weiter am Dokumentenanfang ein Keyword vorkommt, desto höher ist die Bewertung“ (Glöggler, 2003, S. 79f).
Die Bewertungssystematik kann durch die Bildung von Klassen vereinfacht werden,
indem beispielsweise Keywords, die sich innerhalb der ersten 50 Worte befinden, eine höhere Bewertung erhalten, als Keywords die sich innerhalb der Sektion von 51 bis 100 Worten befinden (Glöggler, 2003, S. 80).
Ein Keyword kann auch innerhalb des URL (Uniform Resource Locator) als Domain-Name, als Verzeichnisname oder auch als Dokumentenname vorkommen. Um beispielsweise das Keyword „Ferienwohnungen“ mit den maximalen Möglichkeiten in einem URL zu positionieren, wäre es erforderlich folgende URL zu verwenden:
www.ferienwohnungen.de/ferienwohnungen/ferienwohnungen.html
Durch eine Analyse des URL lässt sich sehr einfach feststellen, ob ein Keyword als Domainname, als Verzeichnisname oder als Dokumentenname eingesetzt ist. Je nach zum Einsatz kommender Methodik kann eine differenzierte Gewichtung in Abhängigkeit der Lage des Keywords in dem URL erfolgen (Glöggler, 2003, S. 80).
Das Proximity-Verfahren beruht auf der Grundüberlegung, dass zwei Worte, die in einem Text näher zueinander vorkommen, einen Text inhaltlich eher repräsentieren als Worte, die weiter voneinander entfernt sind. Es kommt bei Suchanfragen zum Einsatz, die aus mindestens 2 Suchworten bestehen. In der Umsetzung bewerten Suchmaschinen Dokumente differenzierter, wenn Keywords die in Kombination gesucht werden, in den Dokumenten unterschiedlich weit von einander entfernt sind (Glöggler, 2003, S. 80).

4.3 Hypermedia basierte Gewichtungsmodelle

Die klassischen Gewichtungsverfahren des Information Retrieval sind durch die Möglichkeiten des Hypertext im Internet um Hypermedia basierte Gewichtungsmodelle erweitertet worden. Bei Hypermedia basierten Gewichtungsmodellen wird die Systematik des Hypermedia als eine weltweit gegenseitige Verflechtung von Dokumenten mittels Hyperlinks sowie die Möglichkeiten des Anwendungsprotokolls HTTP (Hypertext Transfer Protocol) genutzt (Glöggler, 2003, S. 80).
Während sich z.B. das Vektorraummodell ausschließlich auf ein Dokument oder eine Sammlung von Dokumenten bezieht, bei denen die Dokumente als zweidimensionales Konstrukt definiert werden können, sind Dokumente bei den hier vorgestellten Hypermedia basierten Gewichtungsmodellen, durch die Einbeziehung des gesamten Hypermedia, als dreidimensionales, interdependentes Konstrukt zu sehen, das eine neue Dimension für das Information Retrieval eröffnet. Wichtig ist dabei, dass die Verfahren nicht exklusiv eingesetzt werden, sondern mit weiteren Gewichtungsverfahren kombiniert werden (Glöggler, 2003, S. 81).

4.3.1 Link Popularity-Verfahren

Das von den Google-Gründern Sergey Brin und Larry Page entwickelte PageRank-Verfahren (vgl. Kapitel 5) kommt inzwischen in ähnlicher Form bei vielen Suchmaschinen (z.B. Altavista, Alltheweb) in Kombination mit anderen Gewichtungsverfahren zum Einsatz. Es wird allgemein als Link Popularity-Verfahren bezeichnet. Link Popularity ist ein Verfahren, das „Hyperlink-Verweise von Dokumenten zueinander analysiert und die Anzahl und Qualität der Hyperlink-Verweise als relevantes Gewichtungskriterium einsetzt“ (Glöggler, 2003, S. 81). Jeder eingesetzte Link Popularity-Algorithmus arbeitet etwas anders und bewirkt in Verbindung mit weiteren Gewichtungsverfahren unterschiedliche Auswirkungen auf das Ranking (Glöggler, 2003, S. 81).

4.3.2 Systematik der Click Popularity

Die Systematik der Click Popularity wurde erstmals mit der 1998 entwickelten Suchmaschine DirectHit.com eingesetzt. Grundüberlegung ist, dass diejenigen Seiten die von Nutzern entsprechend einer bestimmten Suche aus der Suchergebnisliste heraus häufiger angeklickt werden, relevanter sein müssen, als solche Verweise der Ergebnisliste, die von den Anwendern seltener aufgerufen werden. Das Click Popularity-Verfahren wurde in den letzten Jahren beispielsweise von MSN, Lycos, Fireball als auch von Webkatalogen wie Yahoo eingesetzt. Es konnte sich aber im Gegensatz zur Link Popularity nie wirklich durchsetzen. Da es von der Suchmaschine Google nicht eingesetzt wird, soll in dieser Arbeit nicht näher darauf eingegangen werden. Eine ausführliche Abhandlung findet sich beispielsweise in Glöggler (2003, S. 87-90).

4.4 Cluster-Verfahren

Das Cluster-Verfahren (Cluster = Block) ist eine, von den bisher dargestellten Gewichtungsmodellen unterschiedliche, Methode zur Bewertung eines Dokuments, welche es zum Ziel hat, aus einer Gesamtheit von Dokumenten Gruppen von Dokumenten zu bilden, die zueinander ähnlich sind. Die Ähnlichkeitsberechnung beruht zunächst nicht auf einer Suchanfrage, sondern auf den Inhalten und bestimmten Parametern der einzelnen Dokumente zueinander (Glöggler, 2003, S. 90).
Das Prinzip wird von Glöggler wie folgt beschrieben:
„Über verschiedene Verfahren der Cluster-Bildung wird, ausgehend von vordefinierten oder sich automatisch selbst generierenden Vorgaben der einzelnen Gruppen, alle Dokumente überprüft, inwieweit sie mit den Definitionen eines bestimmten Clusters übereinstimmen. Die Zuordnung eines Dokuments zu einem Cluster erfolgt u.a. über Berechnungsmethoden die auf statistischen Gewichtungsverfahren beruhen. Die Ergebnisse der Berechnungen von Ähnlichkeiten der einzelnen Dokumente zueinander, bzw. ihre Zugehörigkeit zu bestimmten Clustern, wird im Zuge der Indexierung vorgenommen und im invertierten Dateisystem mit einem numerischen Vermerk auf den jeweiligen Cluster berücksichtigt. Die Klassifikation kann dazu dienen, nicht nur Dokumente bei einer Suche zu berücksichtigen die einer konkreten Suchanfrage optimal entsprechen, sondern auch solche Dokumente Element eines Suchergebnisses werden zu lassen, die eine hohe Ähnlichkeit zu den Dokumenten aufweisen, die als relevant zur Suchanfrage bestimmt wurden“ (Glöggler, 2003, S. 90).
Bei Google kommt das Cluster-Verfahren ebenfalls zum Einsatz. Auf der Suchergebnisliste ist die Funktion „Similar Pages“ (vgl. Abb. 10) verfügbar, die Dokumente auswählt, die eine Ähnlichkeit zu einem bestimmten Dokument aus der Suchergebnisliste besitzen.

Wird das Link „Similar Pages“ angeklickt, erscheinen alle Dokumente, die aufgrund des eingesetzten Cluster-Verfahrens zu dem betreffenden Verweis als ähnlich definiert wurden. Das Objekt bezogene Cluster-Verfahren basiert auf verweisende Hyperlinks. Das verweisende Dokument ist dabei ebenso ein Element des gleichen Clusters wie auch die ausgewählten Dokumente. Dokumente können gleichzeitig unterschiedlichen Gruppen zugeordnet werden und gehören nicht exklusiv einem einzigen Cluster an (Glöggler, 2003, S. 91).
Cluster-Modelle können in Word Cluster zur Erzeugung von automatisierten Thesauri
(geordnete Zusammenstellungen von Begriffen mit ihren natürlichsprachigen Beziehungen) und in Objekt-Cluster zur Erzeugung von Dokumenten-Clustern unterschieden werden. Der Word Cluster in Form eines Thesaurus kommt bei der Indexierung der Information Retrieval Systeme nicht zum Einsatz und findet gelegentlich bei der automatisierten Bildung von Webkatalogen Verwendung. Der von Google eingesetzte Dokumenten-Cluster soll hingegen eine Struktur von ähnlichen Dokumenten aufbauen, mit der Zielsetzung auch Dokumente zu finden, die ähnlich zueinander aber nicht direkt ähnlich zur Suchanfrage sind. Durch die Auswahl eines bestimmten Dokuments aus der Suchergebnisliste werden Dokumente zurückgegeben, die ähnlicher zu dem betreffenden Dokument als zu der initialen Suchanfrage sind (Glöggler, 2003, S. 92f).
Bei Dokumenten-Clustern kann ein einzelnes Dokument als kleinste Einheit eingesetzt werden und stellt den Ausgangspunkt des Clusters dar. Falls keine Struktur als Startpunkt eines Verfahrens vorhanden ist, werden verschiedene Objekteigenschaften benutzt um eine Startkonfiguration bestimmen zu können. Besondere Beachtung finden nach Glöggler (2003, S. 93) u.a. nachfolgende Parameter:
· Begriffe innerhalb des Title-Tags
· Begriffe innerhalb des URL
· Top-Level-Domainsuffix innerhalb des URL
· Anzahl der Begriffe im Dokument
· Hyperlink-Verweise von / auf Dokumente
Aus einer kleinen Teilmenge von Dokumenten werden dann sog. Kern-Cluster gebildet, die dazu dienen, eine Ähnlichkeitsberechnung mit anderen Dokumenten auszuführen. Bei der Bildung von Kern-Clustern nicht berücksichtigte Dokumente werden dann schrittweise in diese Cluster-Struktur überführt. Wenn eine Ausgangskonfiguration vorliegt, werden in einem zweiten Schritt Cluster-Repräsentanten für die bestehenden Cluster berechnet. Die Gruppierung der einzelnen Objekte wird mit Hilfe von Ähnlichkeitskoeffizienten zwischen den einzelnen Objekten und Cluster-Zentroiden (Mittelpunkte) durchgeführt (Glöggler, 2003, S. 93).

4.5 Payed Placement bei Google

Payed Placement wird das Ranking gegen Bezahlung genannt. Bezahlte Werbung ist den regulären, auf Relevanzkriterien basierten Suchergebnissen vorangestellt bzw. wird wie bei Google AdWords in einem separaten Bereich angezeigt. Wichtig ist zu wissen dass Payed Placement nicht von, in dieser Arbeit vorgestellten, Ranking-Verfahren beeinflusst wird. Da es aber für Webseiten-Betreiber die Möglichkeit bietet ohne große Zeitverzögerung sicher auf prominenten Positionen zu erscheinen, soll es hier im Rahmen des Rankings vorgestellt werden (Glöggler, 2003, S. 235).

4.5.1 AdWords

Die AdWords Werbung erscheint auf der rechten Seite der Suchergebnisliste (vgl. Abb. 8) und ist durch den Vermerk Sponsored Links als solche deutlich gekennzeichnet. Die Werbung ist Keyword orientiert, d.h. dass die Werbeeinblendung nur dann erscheint, wenn die vom Webseiten-Betreiber bestimmten Keywords gesucht werden. Sie wird auf einer Cost-Per-Click (CPC) Basis abgerechnet. CPC bedeutet, dass erst bei einem Klick auf einen Link der Werbung der vereinbarte CPC-Betrag anfällt. Für jedes neue Konto wird eine anfängliche Limitierung des Budget von 50.- Euro für 30 Tage festgelegt. Das Budget wird stufenweise erhöht, wenn das Limit durch die Anzahl der erfolgten Klicks erreicht wird, bevor der Zeitraum von 30 Tagen verstrichen ist. Google setzt das Limit bei Bedarf auf 200.- Euro, dann 350.- Euro und letztendlich auf 500.- Euro.
Webseiten-Betreiber haben jederzeit die Möglichkeit eine Kampagne abzubrechen. Durch die Zuweisung des Limits stellt Google sicher, dass eine erfolgreiche Kampagne nicht an einem begrenzten Budget scheitert. Des Weiteren ist eine Kostenlimitierung, die das täglich maximale Budget bestimmt, möglich. Die Werbeanzeigen werden solange eingeblendet bis ein definiertes Tagesbudget durch die Häufigkeit von Klicks aufgebraucht ist (Glöggler, 2003, S. 237).
Die Rangposition der Anzeigen wird aus einer Kombination der Höhe, die ein Anbieter bereit ist für einen Klick zu bezahlen, und der Anzahl der erfolgten Klicks auf eine Werbung bestimmt. Zur Erstellung einer Kampagne bietet Google ein Berechnungstool an, das den maximal erforderlichen CPC berechnet, um vor den anderen Werbeanbietern zu erscheinen (Glöggler, 2003, S. 237).
Da Google mit verschiedenen Portalen und Webkatalogen kooperiert, besteht die Möglichkeit, AdWords-Kampagnen nicht nur bei Google, sondern auch bei den Partnern von Google erscheinen zu lassen. Dadurch kann die Reichweite einer Werbekampagne über die Nutzergruppen von Google hinaus ausgeweitet werden (Glöggler, 2003, S. 237f).

4.5.2 Premium Sponsorship

Premium Sponsorship Werbung ist ebenfalls Keyword orientiert (vgl. Kapitel 4.5.1) und zeigt maximal zwei Text basierte Verweise von unterschiedlichen Anbietern an (vgl. Suchergebnisliste in Abb. 8). Wie in Abbildung 8 ersichtlich ist, heben sich die Werbeeinblendungen farblich von den anderen Suchergebnissen ab und erscheinen in der Suchergebnisliste ganz oben (Glöggler, 2003, S. 235).
Allerdings nimmt Google seit geraumer Zeit keine Premium Sponsorship Werbekunden mehr an und lässt bestehende Verträge auslaufen. Auf der Seite für Googles Werbeangebote (Google, 2004e) wird das Programm seit Jahresbeginn nicht mehr aufgeführt. Der Platz der Premium Sponsorship Anzeigen wird jetzt von den relevantesten AdWords eingenommen, die vom rechten Rand über die Suchergebnisse rücken (vgl. Kapitel 4.1.3).

Dieser Artikel ist ein kleiner Auszug meiner Studienarbeit “Relevanzoptimierung und Ranking-Verfahren der Suchmaschine Google”

Download der kompletten Studienarbeit (mit Abbildungen):
http://www.wissen24.de/vorschau/25665.html

Relevanzoptimierung

14. August 2004 02:30 - Digital-Nirvana

In den folgenden Kapiteln wird ein Überblick über gängige Methoden der Relevanzoptimierung von Webdokumenten gegeben. Die Methoden beziehen sich auf die in dieser Arbeit vorgestellten Ranking-Verfahren und lassen sich in On the Page Methoden und Off the Page Methoden der Optimierung einteilen. Mit den vorgestellten Methoden soll deutlich werden, welche konkreten Maßnahmen Webseiten-Betreiber durchführen müssen, um die Relevanz ihrer Webdokumente zu optimieren und dadurch ein besseres Ranking bei Google und auch bei anderen bedeutenden Suchmaschinen zu erzielen.

6.1 Grundlegende Aspekte der Optimierung

Um ein Dokument bei Suchmaschinen möglichst hoch zu positionieren, ist es erforderlich einige grundlegende Aspekte zu berücksichtigen. Grundsätzlich kann mit einem Dokument immer nur zu wenigen Suchbegriffen eine gute Rangposition erzielt werden. Von den hier vorgestellten Methoden sollten möglichst alle konsequent angewendet werden. Es reicht nicht aus nur eine oder zwei Methoden anzuwenden (Glöggler, 2003, S. 115).
Die Optimierung von Dokumenten ist eine langfristige Maßnahme, die ständig angewendet werden muss. Nur langfristig angelegte Strategien sichern eine gute Position. Eine einmal erreichte Rangposition unterliegt der permanenten Neubewertung durch die Ranking-Verfahren. Die eingesetzten Maßnahmen und Parameter sind an die sich ändernden Ranking-Verfahren und Algorithmen entsprechend anzupassen (Glöggler, 2003, S. 115).
Google gibt Richtlinien für Gestaltung und Inhalt als auch technische Richtlinien vor, die von Webseiten-Betreibern unbedingt eingehalten werden sollten. Darüber hinaus werden in den Qualitätsrichtlinien Hinweise gegeben, welche gängigen irreführenden oder manipulativen Praktiken vermieden werden sollten (Google, 2002b).

6.2 On the Page Methoden der Optimierung

On the Page Methoden werden zur Relevanzoptimierung auf die einzelnen Dokumente angewendet. Ziel ist es, Dokumente auf bestimmte Keywords so zu optimieren, dass sie bei Suchanfragen eine möglichst hohe Relevanzbewertung im Hinblick auf bestimmte Suchworte erhalten (Glöggler, 2003, S. 115).

6.2.1 Keyword-Strategie

Die wichtigste Aufgabe die ein Webseiten-Betreiber zu lösen hat, ist die Wahl von geeigneten Keywords. Der Inhalt eines Dokuments soll durch die Keywords optimal repräsentiert und gleichzeitig in entsprechender Wortwahl von Benutzern auch so gesucht werden. Von großer Bedeutung bei der Bestimmung von geeigneten Keywords ist eine genaue Kenntnis der angebotenen Produkte und Dienstleistungen, der fokussierten Zielgruppe sowie spezifischer Fachausdrücke, ihrer Synonyme als auch ihrer umgangssprachlichen Bezeichnungen. Die entscheidende Frage die gestellt werden muss, lautet:
„welche Begriffe verwenden potentielle Kunden, wenn sie mein Produkt oder meine Dienstleistung suchen?“(Glöggler, 2003, S. 126).
Empfehlenswert ist es, eine Liste aller möglichen Keywords zu erstellen, in die Fachbegriffe, Synonyme und umgangssprachlich verwendete Begriffe aufgenommen werden. Firmennamen eignen sich in den seltensten Fällen als Keywords. Geeigneter sind Gattungsbegriffe bzw. Begriffe die Produktkategorien beschreiben. Konkrete Artikelbezeichnungen sind nur dann als Keyword geeignet, wenn sie bei der Zielgruppe einen entsprechenden Bekanntheitsgrad besitzen (Glöggler, 2003, S. 126).
Für die endgültige Bestimmung von geeigneten Keywords sollten alle gefundenen Worte abschließend unter dem Aspekt betrachtet und ausgewählt werden, welches die häufigste Wortwahl der entsprechenden Zielgruppe ist, um das jeweilige Produkt oder die Dienstleistung über die Suchmaschine zu suchen. Ein einmal festgelegtes Keyword-Spektrum sollte einer permanenten kritischen Überprüfung unterliegen. Dies kann z.B. über die Analyse der Webserver Log Files geschehen, die Auskunft darüber geben ob die Besucher auch tatsächlich mit den gewählten Keywords auf die Webseite gelangt sind (Glöggler, 2003, S. 126f).
Oft versuchen Benutzer ihre Suchanfragen mittels Kombinationen von Suchwörtern genauer einzugrenzen. Wird beispielsweise ein „Hotel“ in „Stuttgart“ gesucht, so wird die Suchanfrage ziemlich sicher mit den Begriffen
Hotel + Stuttgart bzw. Stuttgart + Hotel
formuliert. Wenn das Hotel für den Benutzer noch weitere Voraussetzungen wie z.B. einen Wellness-Bereich oder die Angliederung an einen Golfplatz erfüllen soll, wird die Suchanfrage ziemlich wahrscheinlich
Hotel + Stuttgart + Wellness bzw. Hotel + Stuttgart + Golfplatz
lauten. Aufgabe bei der Bestimmung geeigneter Suchworte ist es also, Wortkombinationen so zu bestimmen, dass das Produkt- und Dienstleistungsspektrum aus dem Blickwinkel von Benutzern beschrieben wird (Glöggler, 2003, S. 127).
Die Anzahl von verschiedenen Keywords gilt als weiteres wichtiges Erfolgskriterium. Sehr viele Webseiten-Betreiber begehen den Fehler, ein Dokument für möglichst viele Suchbegriffe zu optimieren. Dokumente werden zwar aufgrund der Vorkommnis von Begriffen im Dokument Teil einer Suchanfrage, aber Kern aller TF-Rankingmethoden ist, dass ein Dokument immer dann im Ranking weit vorne liegt, wenn es ein Thema oder nur einige wenige Themen zum Schwerpunkt hat und diese durch wenige Keywords abgebildet werden. Glöggler empfiehlt „circa drei bis fünf Keywords verstärkt je Dokument einzusetzen, um eine Steigerung der Gewichtung für diese Begriffe zu erreichen“ (Glöggler, 2003, S. 128).
Ein Dokument wird bei der Optimierung auf einige wenige Keywords zwar nur Teil einiger weniger Variationen von Suchanfragen, aber dafür erreicht es eine wesentlich höhere Rangposition und erzielt dadurch eine höhere Anzahl an Besuchern (Glöggler, 2003, S. 128).
Im Hinblick auf eine optimale Keyword-Strategie gibt es noch weit mehr als die hier aufgeführten Aspekte zu berücksichtigen. So wird von Google auch die Keyword-Dichte, die Lage von Keywords sowie das Vorhandensein von Keywords in ALT-Tags (Alternativtext von Bildern) und Kommentaren berücksichtigt. Diese weiteren On the Page Methoden werden beispielsweise in Glöggler (2003, S. 144-151) beschrieben.

6.2.2 Auswahl des Dokumententyps

Suchmaschinen ermöglichen nur eine sehr eingeschränkte Auswahl an Textdateien zu indexieren. Wenn ein Dokument nicht einem definierten Dokumententyp entspricht, wird es auch nicht indexiert. Google unterstützt derzeit neben HTML, dem Standarddokumententyp im WWW, noch folgende weitere Dokumenttypen (Google, 2003j):
· Adobe Portable Document Format (pdf)
· Adobe PostScript (ps)
· Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
· Lotus WordPro (lwp)
· MacWrite (mw)
· Microsoft Excel (xls)
· Microsoft PowerPoint (ppt)
· Microsoft Word (doc)
· Microsoft Works (wks, wps, wdb)
· Microsoft Write (wri)
· Rich Text Format (rtf)
· Text (ans, txt)

6.2.3 Dynamisch generierte HTML-Dokumente

Im Gegensatz zu statischen HTML-Dokumenten ist bei dynamisch generierten HTML-Dokumenten der Inhalt nicht fest in HTML-Tags eingebunden, sondern wird aus einer Datenbank ausgelesen und innerhalb einer vordefinierten Ausgabeseite dargestellt. Der Text wird über die Ausgabeseite in HTML eingebettet, damit ein HTML-Client das dynamisch erzeugte Dokument unproblematisch interpretieren kann (Glöggler, 2003,
S. 119).
Datenbankbasierte Webseiten beinhalten im URL oft Sonderzeichen wie „?“, „&“ oder „%“, gefolgt von Parametern. Ein Beispiel für eine dynamische URL ist:

http://www.philipp-wiedmaier.de/modules.php?name=Search

Suchmaschinen indexieren dynamisch erzeugte Dokumente nicht oder nur unter bestimmten Voraussetzungen (Glöggler, 2003, S. 119).
Google nimmt inzwischen teilweise auch dynamische Dokumente mit Parametern auf. Es ist allerdings nicht immer nachvollziehbar, nach welcher Logik Google vorgeht (Fischerländer, 2003, S. 84).
Google selbst weist in seinen Richtlinien für Gestaltung und Inhalt darauf hin, dass einige dynamisch erzeugte Dokumente im Unterschied zu statischen Seiten nicht indexiert werden. Es wird empfohlen wenige und kurze Parameter zu verwenden (Google, 2002b).
Es existieren verschiedene Lösungen um die Sonderzeichen umzuwandeln oder zu unterdrücken. Für den weit verbreiteten Apache Webserver kann dies beispielsweise mit dem Zusatzmodul mod_rewrite geschehen. Das Modul schreibt die vom Client aufgerufene URL nach vorgegebenen Regeln um und reicht diese dann an den Webserver weiter. Dadurch können auch dynamisch generierte Inhalte von Suchmaschinen indexiert werden. Eine ausführliche Abhandlung dieser Methode findet sich beispielsweise in Fischerländer (2003, S. 84).

6.2.4 Der Dokumententitel

Der Dokumententitel, der Text der im Head-Bereich eines Dokuments zwischen den title-Tags steht, ist für eine Dokument in vielfältiger Weise von außerordentlicher Bedeutung. Der Titel ist für den Benutzer im Kopf des Browsers immer sichtbar und stellt die einzigste Meta-Information innerhalb des Head-Bereichs dar, die im sichtbaren Bereich des Browsers erscheint. Nimmt ein Benutzer einen URL in die Favoritenliste seines Browsers auf, erscheint der Dokumententitel als Kurzinformation. Der Dokumententitel wird in der Suchergebnisliste als Verweis und Kurzreferenz für ein Dokument verwendet. Es ist deshalb wichtig, dass der Titel aussagekräftig ist, denn ein Benutzer wird einen Verweis nur verfolgen, wenn er ausreichend motiviert ist (Glöggler, 2003, S. 131f).
Für die statistischen Gewichtungsmodelle (vgl. Kapitel 4.2) stellt der Dokumententitel einen wichtigen Parameter dar. Google und alle anderen Suchmaschinen ordnen den Keywords, die sich im Dokumententitel befinden, eine hohe Bedeutung zu. Der Dokumententitel muss deshalb sehr sorgfältig bestimmt werden. Es müssen die Keywords im Titel aufgeführt werden, die den Inhalt des Dokuments am besten repräsentieren. Suchmaschinen indexieren Substantive und eliminieren Bindewörter, weshalb der Dokumententitel am besten ausschließlich aus Substantiven zusammengesetzt wird. Glöggler führt einige Beispiele von Dokumententiteln auf, die vermieden werden sollten:
· „Herzlich willkommen auf unserer Homepage“
· „Firma Maier, Engelbertstrasse 3, 80732 München“
· „Wir verkaufen schöne und aktuelle Mode“
Keines der aufgeführten Beispiele lässt eine automatisierte inhaltliche Bewertung des Dokuments zu. Die Titel sind gegebenenfalls für einen Webseiten-Betreiber sinnvoll, aber in keinem Fall geeignet eine gute Rangposition bei Suchmaschinen zu erreichen. Die Berücksichtigung des Firmennamens im Titel ist im Hinblick auf den Erfolg einer intuitiven Suche nur dann von Relevanz, wenn der Firmenname über einen entsprechend hohen Bekanntheitsgrad verfügt. Ist ein Markenname jedoch sehr bekannt, werden die Benutzer eher die direkte URL der Domain eingeben (Glöggler, 2003,
S. 133f).
Suchmaschinen erfassen nur eine sehr begrenzte Anzahl an Zeichen bzw. Worten des Titels, weshalb die zur Verfügung stehenden Zeichen (ca. 80 bis 200), ausschließlich dazu verwendet werden sollten, um Begriffe aufzuführen, die als Suchworte Relevanz besitzen. Straßennamen o.ä. sind im allgemeinen Verschwendung wertvollen Platzes (Glöggler, 2003, S. 134).
Wichtig ist, dass ein Dokumententitel über einen Bezug zum Text im Dokument verfügt. Wenn ein Begriff nur im Titel und nicht mehr im Text erscheint, hat er für Information Retrieval Systeme keinen Bezug zum Inhalt eines Dokuments. Ein Wort aus dem Dokumententitel muss also im Text selbst noch einmal vorkommen, um eine höhere Relevanz für das Dokument zu besitzen. Grundlage dieses Beurteilungsverfahren ist die Beobachtung, dass ein Autor für einen Text eine Überschrift so wählt, dass sie das Thema eines Textes wiedergibt. Wenn keines der verwendeten Wörter des Titels im Text noch einmal vorkommt, kann dies zu einer geringeren Gewichtung der Begriffe führen oder im Extremfall dazu, dass ein Begriff oder das gesamte Dokument nicht indexiert wird (Glöggler, 2003, S. 135).

6.2.5 Bedeutung der Meta-Tags

„Meta-Tags bieten komprimierte Informationen über Informationen“ (Glöggler, 2003, S. 137). Grundsätzlich dienen sie dazu, Textdokumente an Hand von bestimmten Angaben besser verwalten und verwerten zu können. Die Kommerzialisierung des WWW und damit verbunden, der Versuch von Webseiten-Betreiber möglichst viele Besucher auf eine Webseite zu bringen, führte schnell zu einem Missbrauch der Meta-Tags. In vielen Fällen wurden und werden auch heute noch in den Meta-Tags Angaben gemacht, die wenig mit dem Inhalt eines Dokuments zu tun haben und überwiegend nur dazu dienen, mehr Besucher auf eine Webseite zu bringen (Glöggler, 2003, S. 137).
Die Suchmaschinen reagierten auf diesen Missbrauch der Meta-Tags und berücksichtigten teilweise das Meta-Tag Keywords nicht mehr zur Bewertung des Inhalts. Google berücksichtigte es überhaupt noch nie (Glöggler, 2003, S. 137).
Da nur noch wenige Suchmaschinen Meta-Tags umfassend beachten und bei Google die Meta-Tags keinen Einfluss auf die Relevanz eines Dokuments haben, soll hier nicht weiter auf die einzelnen Meta-Tags eingegangen werden. Eine umfassende Abhandlung der Meta-Tags findet sich beispielsweise in Glöggler (2003, S. 137-144).

6.2.6 Textauszeichnung, Textgröße und Überschriften

Google differenziert die Wichtigkeit von Keywords innerhalb eines Textes in Abhängigkeit der verwendeten Schriftgröße, der eingesetzten Textauszeichnung sowie ihrer Verwendung als Überschrift. Im HTML-Code werden Überschriften über die Tags h1 bis h6 definiert. Die Bedeutung einer Überschrift richtet sich also nach dem verwendeten Tag, wobei h1 die höchste und h6 die niedrigste Bedeutung hat.
Im Hinblick auf die Textanalyse durch Retrievalsysteme sieht Glöggler (2003, S. 152) nachfolgende Tags als relevant an:
· bewirkt fett formatierten Text.
· bewirkt kursiv formatierten Text.
· bewirkt unterstrichenen Text.
· bewirkt größer formatierten Text.
· bewirkt hochgestellten Text.
· bewirkt fetten, hervorgehobenen Text.

Keywords die innerhalb dieser Tags stehen, werden von verschiedenen Information Retrieval Systemen stärker gewichtet, als ein Keyword ohne Textauszeichnung.
Google hat als eine der ersten Suchmaschinen Angaben zu einer unterschiedlichen Gewichtung von Text in Abhängigkeit ihrer Buchstabengröße gemacht. Es wird hierzu die im Text überwiegend verwendete Zeichengröße bestimmt und Begriffe die kleiner, oder größer dargestellt werden, schwächer bzw. stärker bewertet. Diesem Verfahren liegt die Überlegung zu Grunde, dass ein Autor eher wichtige Wörter größer und unwichtigere Angaben eher kleiner darstellt (Glöggler, 2003, S. 152).

6.2.7 Link-Strukturen und Verzeichnistiefe

Suchmaschinen haben ein berechtigtes Interesse möglichst alle Dokumente eines Webauftritts zu erfassen, sie zu bewerten und zu indexieren. Damit dies unproblematisch durchgeführt werden kann, ist es erforderlich eine Verweisstruktur zu erstellen, die es möglich macht alle Dokumente effizient zu erfassen. In diesem Zusammenhang werden oft zwei wesentliche Fehler gemacht. Einzelne Dokumente werden untereinander nicht immer so verlinkt, dass durch die Verfolgung der Verweise alle Dokumente erreichbar sind. Häufig werden bei großen Webauftritten von Zeit zu Zeit neue Dokumente hinzugefügt, die keinen Verweis von einem anderen Dokument erhalten. Das betreffende Dokument kann dann nicht indexiert werden (Glöggler, 2003, S. 153).
Ein weiteres Problem ist, dass Verweise ausschließlich über JavaScript oder über referenzierte Bilddateien erfolgen und damit die Erfassung von Dokumenten erschweren. Die Webrobot-Clients der Suchmaschinen haben grundsätzlich Schwierigkeiten JavaScript auszuwerten und damit auch die betreffenden Dokumente zu indexieren. Einfache Textverweise werden von Suchmaschinen vorgezogen (Glöggler, 2003, S. 153f).
Es empfiehlt sich eine zentrale Navigationsseite zu erstellen, die auf alle Dokumente einen Verweis richtet und die Text in den Hyperlinks beinhaltet, der den Inhalt des betreffenden Dokuments wiedergibt. Es ist meist ausreichend nur diese zentrale Navigationsseite bei den Suchmaschinen anzumelden, da über diese alle anderen Dokumente vollständig erfasst werden können. Diese Seite gilt es konsequent aktuell zu halten, da sie von den Suchmaschinen nach der Indexierung bevorzugt aufgesucht wird (Glöggler, 2003, S. 154).

6.2.8 Valides HTML

Bei fehlerhaftem oder unsauber programmierten HTML-Code besteht die Gefahr, dass die Suchmaschinen Texte und Keywords nicht in der gewünschten Form interpretieren und entsprechend erfassen. Die Suchmaschinen halten sich mit Informationen über Fehler die toleriert bzw. Fehler die nicht toleriert werden, sehr zurück. Das folgende Beispiel soll das Problem anhand von fehlerhaften Hyperlinks verdeutlichen:

http://www.hdm-stuttgart.de

Die Vielfalt an möglichen Fehlern ist speziell bei Hyperlinks enorm. Die Fehler erfolgen meist nicht aus Unkenntnis sondern aus Unachtsamkeit. Die Folgen sind oft gravierend. Im obigen Beispiel würde der Hyperlink nicht als solcher erkannt und das zugehörige Dokument könnte nicht indexiert werden (Glöggler, 2003, S. 161).
Schwierigkeiten bereiten oftmals auch WYSIWYG-Editoren (What you see is what you get), deren Trend zu properitären HTML-Tags vor allem vom US-Unternehmen Microsoft gepflegt wird. Die HTML-Tags ermöglichen zwar eine Erweiterung der Darstellungsmöglichkeiten, die Mehrzahl der Suchmaschinen orientiert sich aber ausschließlich an den offiziellen W3C.org HTML- und XML-Standards, was zu Problemen bei der Interpretation von nicht offiziellen Tags führen kann (Glöggler, 2003, S. 161f).
Die Erstellung von sauberem und fehlerfreiem HTML-Code muss bei der Programmierung berücksichtigt werden. Insbesondere sind die Vorgaben des World Wide Web Consortiums (W3C) zu beachten. Die Validierung dieser Vorgaben kann z.B. mit dem vom W3C zur Verfügung gestellten HTML-Validator vorgenommen werden (Glöggler, 2003, S. 162).

6.2.9 Cookies und Log In

Cookies (Textdateien, die vom Server an den Client übertragen werden) dienen dazu einen Client beim nochmaligen Besuch einer Webseite zu identifizieren. Beim Einsatz von Cookies muss beachtet werden, dass Suchmaschinen Cookies nicht akzeptieren und deshalb Webseiten, die für die Übertragung eines Dokuments Cookies benötigen, nicht indexieren (Glöggler, 2003, S. 165).
Bei einem Log In-Verfahren werden bestimmte Dokumente nur übertragen wenn sich ein Client mittels korrekter Log In-Daten (Benutzername und Passwort) authentifiziert. Da Suchmaschinen aber nicht über diese Log In-Daten verfügen, können folglich diese Dokumente nicht indexiert werden (Glöggler, 2003, S. 165).

6.3 Off the Page Methoden der Optimierung

Im Gegensatz zu den On the Page Methoden (vgl. Kapitel 6.2), beziehen sich Off the Page Methoden nicht direkt auf den Inhalt oder Aufbau eines Dokuments, sondern auf die Systematiken des Hypermedia. Darunter fallen alle Möglichkeiten zur Beeinflussung der Gewichtung, die sich durch die gegenseitige Vernetzung der HTML-Dokumente im Internet und durch die Parameter und Protokollinformationen des Anwendungsprotokolls HTTP ergeben (Glöggler, 2003, S. 169).

6.3.1 Domain-Name und Bezeichnung der Verzeichnisse

Keywords, die sich im URL befinden, werden von einigen Suchmaschinen besonders hoch bewertet. Auch Google berücksichtigt Keywords im URL. Wird der Aufbau eines URL im Hinblick auf Keywords betrachtet, so kann dieser in einen Domain-Namen, der Bezeichnung der Verzeichnisse und einen Dokumentennamen eingeteilt werden. Der gesamte URL kann somit verwendet werden, um Keywords, die zum Dokumententitel und Dokumenteninhalt konsistent sind, zu positionieren und dadurch eine verbesserte Gewichtung der Keywords zu erreichen (Glöggler, 2003, S. 169).
Der wichtigste Teil der URL ist der Domain-Name. Ein Webseiten-Betreiber will verständlicherweise seinen Firmennamen als Domain-Name abbilden. Der Firmenname weist aber oft nicht die gewünschten Keywords auf. Um dieses Problem zu umgehen könnten mehrere Domain-Namen verwendet werden, die auf ein und dieselbe Webpräsenz verweisen. Während der Domain-Name mit dem Firmennamen die Domain an Kunden kommuniziert, wird der Domain-Name mit den Keywords für die Indexierung eingesetzt. Nachfolgendes Beispiel soll dies verdeutlichen:
· Firmen-Domain:
(1) www.firma.de
· Domain für die Suchmaschinen:
(2) www.netzwerkschrank.de
(3) www.netzwerkschrank.com
(4) www.firma-netzwerkschrank.de
Domain (1) ist für Kunden ausgelegt, die das Unternehmen über den Firmennamen suchen. Die Domains (2) bis (4) sind für die Indexierung durch die Suchmaschinen gedacht (Glöggler, 2003, S. 170).
Keywords im Verzeichnisnamen oder im Dokumentnamen werden schwächer bewertet als Keywords im Domain-Namen, sollten aber dennoch berücksichtigt werden. Für obiges Beispiel würden sich folgende URLs ergeben (Glöggler, 2003, S. 170):
(2) www.netzwerkschrank.de/netzwerkschrank/netzwerkschrank.html
(3) www.netzwerkschrank.com/netzwerkschrank/netzwerkschrank.html
(4) www.firma-netzwerkschrank.de/netzwerkschrank/netzwerkschrank.html

6.3.2 Aktualität und Änderungsfrequenz

Dokumente, die einer häufigen Änderung unterliegen und aktuelle Inhalte bieten, werden von Suchmaschinen bevorzugt und höher bewertet als Dokumente die nur selten aktualisiert werden. Hintergrund ist, dass die Aktualität von Informationen wesentlichen Einfluss auf die Qualität der Suchergebnisse hat. Das Erstellungs- bzw. Änderungsdatum (Last-Modified-Date) eines Dokuments kann von Suchmaschinen sehr einfach festgestellt werden. Mithilfe eines speziellen HTTP-Befehls (if-modified-since) können Suchmaschinen bestimmen, dass nur Dokumente übertragen werden, die nach einem bestimmten Datum verändert wurden (Glöggler, 2003, S. 171ff).
Webseiten-Betreiber müssen berücksichtigen, dass ein Dokument nicht unendlich lange unverändert bleiben darf. Eine Veränderung des Änderungsdatums durch einen simplen Öffnen und Sichern Vorgang ist dabei wenig wirkungsvoll. Vielmehr müssen auch inhaltliche Änderungen vorgenommen werden, da bei der Erfassung für jedes Dokument u.a. auf Basis des Inhalts eine Check-Summe errechnet wird, die es ermöglicht inhaltliche Änderungen festzustellen. Die Checksumme muss verändert sein, damit ein Dokument als inhaltlich aktualisiert gilt. Dynamisch erzeugte HTML-Seiten weisen kein Änderungsdatum aus, weshalb für sie keine Änderungsfrequenz berechnet werden kann (Glöggler, 2003, S. 174).

6.3.3 Optimierung des PageRanks

Das für das Ranking bei Google dominierende PageRank-Verfahren (vgl. Kapitel 5) stellt das vermutlich am schwersten zu beeinflussende Gewichtungsverfahren dar. Die einzige Möglichkeit den PageRank der eigenen Webdokumente zu optimieren sind ausreichend viele und qualitativ hochwertige Verweise von anderen Webdokumenten. Dies kann nur durch Mithilfe von anderen Webseiten-Betreibern geschehen (Glöggler, 2003, S. 178f).
Um herauszufinden welche und wieviele Webdokumente auf eine Webpräsenz verweisen, kann bei Google das Schlüsselwort link: verwendet werden. Nach dem Schlüsselwort muss die entsprechende URL eingegeben werden. In Abb. 17 wird ersichtlich, dass 979 Webdokumente auf www.hdm-stuttgart.de verweisen.

Verschiedene Webseiten-Betreiber versuchen über zahlreiche Webseiten unter verschiedenen Domain-Namen und IP-Adressen die Anzahl der eingehenden Verweise für die zu promotende Webpräsenz zu erhöhen. Es wird dabei aber nicht berücksichtigt, dass diese selbst erstellten Webseiten nur eine sehr geringe Wirkung erzielen können, da ihnen i.d.R. selbst Verweise aus dem Web fehlen, die entsprechend weitergegeben werden können. Glöggler verdeutlich dies:
„Ein Dokument, das selbst einen hohen PageRank Wert hat, gibt auch einen entsprechend höheren Wert weiter. Aus diesem Grund ist es hilfreicher, einige wenige Verweise von hoch bewerteten Webseiten zu erwirken, als viele Verweise von unbedeutenden Dokumenten“ (Glöggler, 2003, S. 181)
Es gilt auch zu beachten, dass gegenseitig verlinkte Dokumente von Google als Zirkelbezug interpretiert und nicht gewertet werden. Ein Zirkelbezug entsteht, wenn ein Dokument, das einen Verweis von einem anderen Dokument erhalten hat, wieder direkt oder indirekt auf das verweisende Dokument verweist. In nachfolgendem Beispiel ist ein Zirkelbezug dargestellt:

Da Dokument D wieder auf A verweist, entsteht ein Zirkelbezug, der dazu führt, dass letztendlich keines der vier Dokumente einen PageRank-Wert erhält. Google erkennt Zirkelbezüge also auch über mehrere Dokumente hinweg und wertet keine Weitergabe von PageRank-Werten (Glöggler, 2003, S. 180).
Von besonderer Bedeutung für Google sind auch die Begriffe, die den klickbaren Text eines Hyperlinks bilden. Enthält dieser klickbare Text ein Keyword, das einen Bezug zum Inhalt des Dokuments hat, wird dem Verweis ein höherer Wert zugewiesen (Glöggler, 2003, S. 182).
Ein Optimaler Hyperlink für ein einzelnes Keyword ist also beispielsweise
Keyword
Nicht geeignet ist beispielsweise folgender Hyperlink:
hier klicken
Bei einigen Webseiten kann es vorkommen, dass diese keinen PageRank-Wert aufweisen. Dieser PageRank 0 (PR0) kann auf zwei Ursachen zurückzuführen sein (Wimmeroth & Brochhagen, 2003, S. 21):
· Es handelt sich um ein Webdokument, dass zwar von Google indexiert wurde, aber keinen eingehenden Verweis besitzt.
· Es handelt sich um eine „Bestrafung“ durch Google.
Im zweiten Fall reagiert Google auf unzulässige Maßnahmen (Spam) wie beispielsweise Keyword-Stuffing (übermäßige Wiederholung von Schlüsselwörtern im Dokument) oder Cloaking (Server basierte Systematik, die unterschiedliche Dokumente in Abhängigkeit des anfragenden Clients auf einen HTTP-Request liefert) (Glöggler, 2003, S. 187-197).
Es ist also neben den Optimierungsmöglichkeiten auch wichtig bestimmte unzulässige Maßnahmen zu unterlassen, da Google diese Maßnahmen erkennt und im Hinblick auf das Ranking entsprechend reagiert.

Dieser Artikel ist ein kleiner Auszug meiner Studienarbeit “Relevanzoptimierung und Ranking-Verfahren der Suchmaschine Google”

Download der kompletten Studienarbeit (mit Abbildungen):
http://www.wissen24.de/vorschau/25665.html

PageRank – Das Herzstück der Google-Technologie

14. August 2004 02:30 - Digital-Nirvana

In den folgenden Kapiteln wird das dominierende Verfahren zur Relevanzbewertung von Dokumenten, Googles PageRank, vorgestellt. Es soll ein möglichst breiter Überblick über alle Aspekte des Verfahrens gegeben werden. Neben dem theoretischen Ansatz von PageRank wird der zugrundeliegende Algorithmus behandelt. Für die Relevanzoptimierung von Webdokumenten ist eine detaillierte Kenntnis dieses Verfahrens hilfreich.

5.1 Theoretischer Ansatz von PageRank

PageRank (PR – zur Entstehung und Begriffsklärung vgl. Kapitel 3.1.1)
„[...] basiert auf der in der akademischen Welt geltenden Prämisse, dass die Wichtigkeit einer Forschungsarbeit daran gemessen werden kann, wie oft sie in anderen Arbeiten zitiert wird“ (Calishain & Dornfest, 2003, S. 330).
Diese Prämisse wurde von den beiden Google-Gründern Brin und Page einfach auf das WWW übertragen. Die Wichtigkeit eines Webdokuments lässt sich also an der Anzahl der Hyperlinks messen, die von anderen Webdokumenten darauf verweisen (Calishain & Dornfest, 2003, S. 330).
Google stellt das Kernprinzip von PageRank selbst wie folgt dar:
„Im Wesentlichen interpretiert Google ein Link von Seite A auf Seite B als ’Votum’ von Seite A für Seite B. Google bewertet die Wichtigkeit einer Seite nach den erzielten Voten. Außerdem analysiert Google die Wichtigkeit der Seite, die das Votum abgegeben hat. Dabei hat ein Votum von einer Seite, die selbst als ’wichtig’ gewertet wird, ein größeres Gewicht und somit größeren Einfluss auf die Bewertung anderer Seiten. Wichtige, qualitativ hochwertige Seiten werden von PageRank höher eingestuft und demnach auch in den Ergebnissen an einer vorderen Position aufgeführt“ (Google, 2003d).
Die Gewichtung eines Votums ist bei Google also davon abhängig, welchen PageRank und damit wie viele eigene Votes das verweisende Webdokument erhalten hat. Der PageRank selbst drückt sich als Ergebnis in einem numerischen Wert aus (Glöggler, 2003, S. 82) und wird durch einen Algorithmus berechnet (vgl. Kapitel 5.2).

5.2 Der PageRank-Algorithmus

Das PageRank-Verfahren kann an Hand des 1997 veröffentlichten Algorithmus erläutert werden. Es ist verständlich, dass der ursprünglich veröffentlichte Algorithmus an die fortschreitende Entwicklung im WWW angepasst wurde und ständig modifiziert wird (Glöggler, 2003, S. 83).

5.2.1 Definition des PageRank-Algorithmus

Der ursprüngliche PageRank-Algorithmus wurde von den Google-Gründern Larry Page und Sergey Brin wie folgt definiert (Glöggler, 2003, S. 83):

PR(A) = (1 – d) + d(PR(T1)/C(T1) + ….PR(Tn)/C(Tn))

Hierbei ist:
PR(A) = der PageRank Wert von A berechnet aus allen eingehenden Verweisen.
A = das Dokument für den der PageRank Wert ermittelt wird.
d = ein Dämpfungsfaktor zwischen 0 und 1 (oftmals ~ 0,85).
PR(T1) = der PageRank Wert des Dokuments T1 das auf A verweist.
C(T1) = die Gesamtanzahl aller ausgehenden Verweise von T1.

„PR(TN)/C(Tn) bedeutet, dass der Verweiswert für jede Seite die auf A zeigt, aus dem PageRank der Seite n, unter Berücksichtigung der Anzahl aller ausgehenden Verweise von Tn berechnet wird“ (Glöggler, 2003, S.83).

Aus der Formel wird ersichtlich, dass es sich bei PageRank um eine iterative Berechnung des Wertes PR(A) handelt, da zur Berechnung zunächst alle PageRank-Werte PR(n) derjenigen Dokumente erforderlich sind, die auf A verweisen (Glöggler, 2003, S. 83).
Ein neu indexiertes Dokument besitzt also zunächst keinen PageRank. Diesem Problem wird mit der Zuordnung eines initialen Wertes begegnet, welcher durch Statistische Gewichtungsmodelle wie TF (vgl. Kapitel 4.2.2) oder einer differenzierten Bewertung der Position von Schlüsselwörtern (vgl. Kapitel 4.2.4) bestimmt werden kann. Der Dämpfungsfaktor d stellt innerhalb des Algorithmus eine Individualisierungsvariable dar und reflektiert den Faktor, den ein Dokument einem anderen Dokument von dem eigenen Wert zuweisen kann. Die Individualisierungsvariable dient zur Feineinstellung der Berechnungsmethode und bedeutet, dass ein Dokument einem anderen Dokument durch einen ausgehenden Verweis nicht seinen vollen Wert zuweisen kann. (Glöggler, 2003, S. 84).

5.2.2 Iterative Berechnung des PageRanks

Das iterative Verfahren der PageRank-Berechnung soll an Hand eines Beispiels mit den vier Dokumenten A, B, C, D verdeutlicht werden:

In der Ausgangssituation erhält jedes Dokument zur Vereinfachung den PageRank-Wert 1. Die unterschiedlichen, ausgehenden Verweise werden durch die Pfeile dargestellt. Zunächst wird der Dämpfungsfaktor d mit einem Wert von 0,85 angewendet.
Der PageRank-Wert für die Dokumente wird dann wie folgt berechnet (Glöggler, 2003, S. 84f):
· Dokument A: Der um d bereinigte Wert für Verweise von A ist
d * PR(TA) = 1 * 0,85 = 0,85. Da A auf zwei Dokumente verweist, ist
d (PR(TA)/C(TA)) = 0,85 / 2 = 0,425. Als Ergebnis des iterativen Prozesses wird also den Dokumenten B und C jeweils der Wert 0,425 zu ihren bisherigen Werten zugewiesen.
· Dokument B: Dokument B besitzt nur einen ausgehenden Verweis. B weist also dem Dokument C am Ende des iterativen Prozesses den Wert 1 x 0,85 = 0,85 zu.
· Dokumente C und D: Dokument C besitzt einen ausgehenden Verweis auf A, weshalb der Wert des Verweises auf A gleichfalls 0,85 ist. Analog ergibt sich der Wert für den Verweis von D auf C.

In Abbildung 13 wird ersichtlich wie sich die einzelnen PageRank-Werte der Dokumente nach der ersten Iteration entwickeln. Da der Kern des PageRank-Verfahrens darauf beruht, dass besser verlinkte Dokumente auch einen höheren Wert zugewiesen bekommen, wird der iterative Prozess mindestens ein zweites Mal durchgeführt. Bei erneuter Anwendung des Verfahrens ergeben sich folgende PageRank-Werte:

Abbildung 14: PageRank – zweite Iteration (Glöggler, 2003, S. 86)
Das Ergebnis zeigt auf, dass die Dokumente auf die am häufigsten verwiesen wird, den höchsten PageRank-Wert erhalten. Dokument D erhält keinen Verweis von einem anderen Dokument und weist deshalb auch bei mehrmaligen Iterationen immer nur den initialen Wert aus (Glöggler, 2003, S. 86).
Bereits nach wenigen Iterationen ergibt sich eine sehr gute Näherung an die tatsächlichen Werte. Um den PageRank für das komplette WWW zu berechnen werden von Larry Page und Sergey Brin ca. 100 Iterationen als hinreichend genannt (Sobek, 2002).

5.2.3 Das Random Surfer Modell

Die Google-Gründer rechtfertigen in ihren Veröffentlichungen den PageRank-Algorithmus mit einem Modell zur Abbildung des Benutzer-Verhaltens, dem sog. Random Surfer Modell. Dabei führen sie einen Zufalls-Surfer an, der von einer Webseite zur nächsten jeweils beliebige Verweise verfolgt, ohne dabei auf die Inhalte zu achten (Sobek, 2002).
Die Wahrscheinlichkeit mit der sich der Zufalls-Surfer auf einer Webseite befindet, lässt sich aus dem PageRank der Webseite herleiten. Ein bestimmter Verweis wird von dem Zufalls-Surfer nun verfolgt, wobei sich die Wahrscheinlichkeit, welcher Verweis verfolgt wird, einzig und allein aus der Anzahl der Verweise ergibt, aus denen der Benutzer auswählen kann. Aufgrund dessen fließt der PageRank einer verweisenden Webseite stets nach der Anzahl der ausgehenden Verweise gewichtet in die Berechnung des PageRanks einer Webseite, auf die verwiesen wird, ein (Sobek, 2002).

Die Wahrscheinlichkeit, dass der Zufalls-Surfer auf eine Webseite gelangt, ist also die Summe der Wahrscheinlichkeiten, mit der er von einer verweisenden Webseite den entsprechenden Verweis verfolgt. Die Wahrscheinlichkeit mit der ein Zufalls-Surfer auf eine Webseite gelangt wird um den Faktor d gedämpft. Die Dämpfung erfolgt aufgrund der Tatsache, dass ein Zufalls-Surfer nicht unbegrenzt viele Verweise verfolgt, sondern nach einer bestimmten Zeit eine beliebige andere Webseite aufruft. Je höher d ist, um so wahrscheinlicher ist es, dass der Zufalls-Surfer Verweise verfolgt. Da nach dem Abbruch der Verweis-Verfolgung eine beliebige Webseite aufgerufen wird, geht die Wahrscheinlichkeit mit der ein Benutzer dies durchführt, mit dem Wert (1-d) als Konstante in die Berechnung des PageRanks jeder Webseite mit ein (Sobek, 2002).

5.2.4 Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens

Für die Berechnung des PageRanks sind noch weitere Einflussfaktoren als nur die einfache Verweis-Struktur des WWW zu berücksichtigen. Larry Page selbst skizziert in der Patentschrift (Page, 1998) zum PageRank-Verfahren die folgenden potentiellen Einflussfaktoren (Sobek, 2002):
· Die Stärke der Hervorhebung eines Verweises
· Die Position eines Verweises innerhalb des Dokuments
· Die Distanz zwischen Webseiten
· Die Bedeutung eines verweisenden Dokuments
· Die Aktualität eines verweisenden Dokuments

Welche dieser Faktoren tatsächlich in das PageRank-Verfahren implementiert sind, ist empirisch kaum zu belegen. Die Implementierung würde zunächst auf bessere Annäherung des Random Surfer Modells (vgl. Kapitel 5.2.3) an tatsächliches Nutzerverhalten abzielen. Durch die Einbeziehung von Hervorhebung und Position eines Verweises wird berücksichtigt, dass ein Benutzer nicht völlig unüberlegt einen Verweis anklickt, sondern unabhängig vom Ankertext eher deutlich erkennbare und unmittelbar sichtbare Verweise verfolgt. Durch die anderen Faktoren könnte Google eine weit größere Flexibilität in der Bestimmung der Bedeutung eines eingehenden Verweises für eine Webseite erreichen (Sobek, 2002).

Glöggler sieht neben der Anzahl der eingehenden Verweise insbesondere die Qualität der verweisenden Seite als weiteren Einflussfaktor an:
„Die Qualität einer Seite kann sich z.B. durch ihre besondere Bedeutung im Web oder durch eine thematische Ähnlichkeit zum Verweis ausdrücken. Besondere qualitative Bedeutung für Google haben in diesem Zusammenhang intellektuell bewertete Webkataloge wie z.B. Yahoo oder der Katalog des Open Directory Project, die manuell einen besonders hohen Page-Rank-Wert zugeordnet bekommen haben“ (Glöggler, 2003, S. 86).

5.2.5 Problematik des Konzepts

Google erzielt durch das PageRank-Verfahren hervorragende Suchergebnisse. Allerdings bringt das Konzept auch eine Reihe von Problemen mit sich. Neue Webseiten können zu Beginn nur durch den kombinierten Einsatz weiterer Gewichtungsmethoden, wie beispielsweise dem Term Frequency Algorithmus (vgl. Kapitel 4.2.2) oder einer differenzierten Gewichtung von Keywords in Abhängigkeit ihrer Lage (vgl. Kapitel 4.2.4), eine relativ gute Platzierung bei Google erhalten (Glöggler, 2003, S. 182).
Mittelfristig werden bei einem dominierenden Einsatz des Verfahrens bereits bekannte Webseiten bevorzugt. Hochwertige, aber weniger bekannte Webauftritte werden dementsprechend benachteiligt. Google und andere Suchmaschinen, die Link Popularity einsetzen, begegnen dem Problem mit einer mittlerweile reduzierten Dominanz des Verfahrens und setzen weiterhin auch auf Statistische Gewichtungsmodelle (vgl. Kapitel 4.2). Im Hinblick auf die Relevanzoptimierung stellt PageRank aber nach wie vor das entscheidende Verfahren zur Relevanzbewertung von Dokumenten dar (Glöggler, S. 178-182).

5.3 Möglichkeiten den PageRank einzusehen

Für Webseiten-Betreiber ist es wichtig den aktuellen PageRank der eigenen Webdokumente zu kennen, um dadurch auch die Wirksamkeit von Relevanzoptimierungen kontinuierlich überprüfen zu können. In der Suchergebnisliste von Google (vgl. Kapitel 4.1.3) wird der numerische PageRank-Wert allerdings nicht angezeigt. Um diesen in Erfahrung zu bringen ist entweder eine Suche im Google-Verzeichnis oder die Nutzung der Google Toolbar erforderlich.

5.3.1 PageRank-Wert über das Google-Verzeichnis

Das Google-Verzeichnis ermöglicht eine katalogbasierte Suche, wobei Webseiten bestimmten Kategorien zugeordnet sind. Die Kategorien enthalten wiederum Unterkategorien. Der Aufbau ist dem Verzeichnis von Yahoo ähnlich. In der tiefsten Ebene wird eine Trefferliste mit direkten Links angezeigt, wobei der PageRank als kleiner, grüner Farbbalken links neben dem Link [1] dargestellt wird (Wimmeroth & Brochhagen, 2003, S. 19). Die Links werden nach absteigendem PageRank [2] aufgelistet (Google, 2003i):

Die Anzeige erfolgt auf einer Skala von 1 bis 7 (höchster Wert = 7), wobei der genaue numerische Wert nicht angezeigt wird. Er kann aber über die zweigeteilte Balkengrafik bzw. die Breite von deren Einzelgrafiken bestimmt werden (Sobek, 2002).

5.3.2 PageRank-Wert über die Google-Toolbar

Die Google Toolbar ist ein Browser-Plugin für den Microsoft Internet Explorer, welches komfortable Suchfunktionen bereitstellt. Zum Funktionsumfang zählt die Darstellung des PageRanks der aktuell besuchten Webseite (vgl. Abb. 16). Im Gegensatz zum Google Directory werden bei der Toolbar Abstufungen zwischen den numerischen Werten 0 bis 10 vorgenommen (höchster Wert = 10). Die Toolbar kann kostenlos von Google bezogen werden (Google, 2004f).

Dieser Artikel ist ein kleiner Auszug meiner Studienarbeit “Relevanzoptimierung und Ranking-Verfahren der Suchmaschine Google”

Download der kompletten Studienarbeit (mit Abbildungen):
http://www.wissen24.de/vorschau/25665.html