So arbeitet der Google Pagerank

Eine Formel bestimmt das Internet: Der Pagerank. Wer sie kennt, versteht und nutzt, bringt seine Website nach vorne in den Suchergebnissen. In diesem 2008 geschriebenen Artikel erkläre ich den Pagerank und beschäftige mich mit ein paar anderen Besonderheiten der Suchmaschinenoptimierung.

Beim Pagerank handelt es sich um einen ebenso simplen wie genialen Denkansatz:

  1. Jede Webseite hat eine bestimmte Anzahl anderer Webseiten, die auf sie einen Link setzen.
  2. Jede dieser Webseiten hat selbst wiederum einen Pagerank.
  3. Der Link von einer Seite B zu Seite A wird wie in einer Abstimmung als eine Stimme von B für A gezählt.
  4. Zusätzlich verleiht aber der Pagerank der Seite B der Stimme für A Gewicht. Je höher der Pagerank der Seite B ist, desto besser.
  5. Als weiterer Faktor fließt ein, wie viele Links sich auf Seite B insgesamt befinden. Je weniger Links insgesamt auf B sind, desto besser ist das für den Pagerank von Seite A.
  6. Die Summe aller Pageranks ist gleich der Summe aller Dokumente im Web. Beim Pagerank handelt es sich also um eine Gewichtung eines Dokuments innerhalb des gesamten, erfassten Web.

Wichtig: Der Pagreank wird für jede einzelne Seite berechnet, nicht für das komplette Web-Angebot. Deshalb kann es sein, dass ein bestimmter Beitrag auf dem Webserver einen höheren Pagerank hat als die Homepage selbst.

Der Pagerank als Formel

Als Formel ausgedrückt sieht das so aus:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Der Pagerank der Seite A setzt sich zusammen aus dem Pagerank der Seiten T1 bis Tn, jeweils geteilt durch die Anzahl der Links auf diesen Seiten. Hinzu kommt ein Dämpfungsfaktor, auf den später noch eingegangen wird.

Ein paar Beispiele zur Erklärung: Angenommen, das gesamte WWW besteht nur aus vier Seiten, kann man das Prinzip des Pagerank gut verdeutlichen.

Es sind also gegeben:

Seite A

Seite B

Seite C

Seite D

A, B, C  und D haben im Beispiel jeweils einen Ausgangswert von 1 als Pagerank. Zusammengezählt entspricht das also dem gesamten hier angenommenen Web mit vier Seiten.

Für das erste Beispiel sei angenommen, B, C und D würden jeweils mit einem einzigen Link auf Seite A zeigen. Weitere Links gibt es jeweils nicht.

Lassen wir den Dämpfungsfaktor vorerst weg, ergibt sich folgende Formel:

PR(A) = 1/1 + 1/1 + 1/1

Heraus kommt ein Pagerank von 3 für A.

Sehen Sie sich folgende, etwas komplexere Konstellation an. Das => steht für “hat einen Link zu”:

A => B

A => C

B => A

C => A

C => B

C => D

D => B

Seite A hat also Links auf B und C, B nur einen Link auf A. C zeigt auf A, B und D, D nur auf B.

Die Formel für A sieht so aus:

PR(A) = 1/1 + 1/3

Der von B kommende Link zählt als 1, von C kommt nur 1/3, da hier insgesamt drei Links vorhanden sind. Macht im Ergebnis 1 1/3, hier auf zwei Nachkommastellen gerundet 1,33.

Für B steht folglich

PR (B) = 1/2 + 1/3 + 1/1

und ergibt gerundet 1,83.

C errechnet sich so:

PR (C) = 1/2

also 0,5

D schließlich hat

PR (D) = 1/3

also gerundete 0,33

In der Summe müssten wir jetzt wieder auf die Gesamtzahl aller Seiten kommen:

1,33 + 1,83 + 0,5 + 0,33 = 3,99

Die fehlenden 0,01 resultieren aus der Rundung.

In der Rechnung allerdings fehlt noch etwas: Der Pagerank der jeweiligen Seiten ist nicht in das Ergebnis einbezogen. Nehmen wir noch einmal das Beispiel für Seite B. Passt man die Berechnung auf die zuvor im ersten Schritt ermittelten Pageranks an, wird aus

PR (B) = 1/2 + 1/3 + 1/1

folgender Term:

PR (B) = 1,33/2 + 0,5/3 + 0,33/1

Das Ergebnis wäre also ein Pagerank von gerundet 1,62.

Natürlich ändert auch die Neuberechnung des Pagerank von B wieder die anderen Pageranks von A, C und D. Und der neue Wert von D ändert wiederum B.

Deshalb nähert sich Google dem Pagerank iterativ: Es nimmt die Ergebnisse eines Durchlaufs wiederum zum Errechnen im nächsten Iterationsschritt. Nach Angaben von Page und Brin reichen rund 100 Iterationsdurchläufe, um näherungsweise den Pagerank der Milliarden von gespeicherten Seiten zu erreichen.

Der Dämpfungsfaktor und die wahren Werte

Nach Annahme von Google repräsentiert der Pagerank die Wahrscheinlichkeit, mit der ein Surfer im Internet zufällig beim Klicken von Links auf einer Seite landet. Da allerdings davon auszugehen ist, dass der Surfer nicht unendlich oft klickt, wurde in die Formel noch ein Dämpfungsfaktor einbezogen. In der Beschreibung ihres Algorithmus gehen  Sergey Brin and Lawrence Page vom Dämpfungsfaktor 0,85 aus. Man darf also annehmen, dass der in der Google-Realität auch in der Nähe dieses Wertes liegt.

Der wirkliche Pagerank einer Seite wird übrigens im Gegensatz zu obigem Beispiel als Wahrscheinlichkeitswert zwischen 0 und 1 ermittelt. Heraus kommen kleine Dezimalbrüche, die den Pagerank einer Seite ergeben. Eine Seite mit dem Wert 0,01 hätte also die Wahrscheinlichkeit von einem Prozent, dass ein Benutzer dort landet, wenn er einen zufälligen Link anklickt.

Die Toolbar-PR

Bleibt ein weiteres Rätsel: wenn der Pagerank als Zahl zwischen 0 und 1 ausgedrückt wird, warum sieht man dann den PR in der Google Toolbar als Wert zwischen 1 und 10? Die Lösung: Google rechnet den Wert um. Wie genau das geschieht, ist nicht klar. Allerdings gehen viele Experten davon aus, dass die Umrechnung nicht linear geschieht, sonder logarithmisch. Sprich: Der Sprung von einem Toolbar-PR von 1 auf PR 2 ist wesentlich leichter zu schaffen, als der von 9 auf 10.

Der Pagerank ist nicht mehr so wichtig

Anhand der Pagerank-Formel hat Google das Netz durchforstet und auch Erfolg damit. Doch mit dem Erfolg kamen auch die Schmarotzer. Webseiten-Betreiber haben schnell den Mechanismus durchschaut und angefangen, ihre eigenen Angebote künstlich in den Suchmaschinen nach oben zu schieben. Google musste anfangen, sich mit immer neuen Verfahren gegen die Spammer zu wehren.

Der Pagerank ist inzwischen nur einer von vielen Faktoren, die beeinflussen, wo eine Webseite auf den Suchergebnisseiten von Google auftaucht.

Dennoch: Häufig wird er gehandhabt wie eine Währung: „Gibst Du mir zwei Links von Seiten mit PR 4, geb ich Dir einen Link von einer Seite mit PR 5“. Das ist naiv und überholt. Denn ein einfacher Linktausch wird nichts bringen. Der Link von einer Hundeseite zu einem Preisvergleich für Automobile bringt dem Leser nichts und wird auch bei Google keinen besonderen Anklang finden. Der Grund: Google bewertet relevante Links höher als solche, bei denen Herkunft und Ziel eines Querverweises nichts miteinander zu tun haben.

Bekommen Sie also eine Mail mit einem Linktausch-Angebot, sehen Sie sich die Seite an, ob sie zu Ihrer passt. Und nur wenn das der Fall ist, lohnt sich ein Tausch.

Doch zurück zu den Google-Suchalgorithmen. Der Pagerank ist nur die Spitze eines Eisbergs. Unter der Oberfläche verbergen sich zig Filter und Bewertungsverfahren für Webseiten und Sucheregbnisse.

Faktoren für ein gutes Ranking

Gute Suchmaschinenoptimierung kann man in einer These zusammenfassen: “Liefere korrekten Code und guten, möglichst einzigartigen Inhalt.” Wer das beherzigt, hat  Chancen, auf den vorderen Plätzen in der Suche zu landen.

Der „korrekte Code“ bezieht sich auf zwei Eigenschaften des HTML-Codes einer Seite. Einmal sollte der syntaktisch korrekt sein, zum anderen sollte man die vorhandenen HTML-Elemente nutzen. Wichtig für Google sind vor allem die Tags <title>, <p>, sowie die Überschriften-Tags <h1> bis <h6>. In <title> gehört eine kurze Beschreibung des Dokuments. Mit <p> werden Absätze sauber gegliedert und die h-Überschriften strukturieren den Artikel.

Offenbar scheint auch wichtig, dass man die Überschrift <h1> nur einmal, die anderen wie <h2> oder <h3> aber ruhig öfters einsetzt.

Linkbuilding

Eine weitere Voraussetzung für bessere Suchergebnisse ist Geduld. Nach und nach werden andere Webseiten-Betreiber auf Ihr Angebot verlinken und so Ihren Pagerank und die Popularität der Seite steigern.

Falls Sie die Geduld nicht haben, können Sie den Linkaufbau selbst ein wenig vorantreiben. Eine Möglichkeit ist, in Foren oder Blogs Links auf die eigene Seite zu hinterlassen. Allerdings reagieren die Betreiber solcher Seiten oft nicht sehr erfreut auf die Eigenwerbung. Sinnvoll sind solche Links nur dann, wenn Sie dem Leser des Forums auch wirklich etwas bringen, Sie also nützliche Information über diesen Link liefern können.

Ein weiterer Weg zu besseren Suchergebnissen ist  inzwischen nahezu verbaut: Kommentare in Blogs versehen Links in der Regel automatisch mit dem Parameter “rel=nofollow”. Das bedeutet: Google folgt diesem Link nicht und wertet ihn auch nicht als Votum für den Pagerank.

Schuld daran sind Spammer, deren Bot-Programme Blogs und Foren mit unsinnigen Texten und vielen Links füllen, um so ihre Webangebote in Suchmaschinen nach vorne zu bringen.

Popularität bei den Nutzern

Google wäre dumm, würde das Unternehmen nicht das Nutzerverhalten auswerten. Denn anhand einer Klickverfolgung kann Google nachvollziehen, welche Suchergebnisse beim Benutzer besser ankommen und das Ranking entsprechend anpassen. In der Google-Datenschutzerklärung liest sich die entsprechende Passage so:

“Google kann Links in einem Format einrichten, das uns die Möglichkeit gibt, zu verfolgen, ob diese Links genutzt wurden.” (http://www.google.de/privacypolicy.html)

Der Vorteil für Google dieser Messungen ist: Kaum jemand kann sie beeinflussen. Der einzige Weg, sich selbst im hart umkämpften Spitzenfeld zu vielen Klicks zu verhelfen ist: Gute Titel und gute Seitenbeschreibungen.

Als Titel wählt Google in der Regel den Inhalt des <title>-Tags. Der sollte als möglichst aus einer griffigen Überschrift bestehen, die den Google-Sucher zum Klick reizt.

Bei dem von Google unterhalb des Links angezeigten Text spielt das lange Zeit vernachlässigte Meta-Tag seine Vorzüge aus. in

<meta name="description" content="xyz" />

geben Sie an Stelle von xyz eine kurze Beschreibung des Seiteninhalts ein. Die Beschreibung sollte, wie der Vorspann eines Zeitungsberichts, bereits alle wichtigen Fakten einer Seite enthalten und so den Leser zum Klick reizen.

Falls Ihre Seite keine Description liefert, wählt Google eine seiner Ansicht nach passende Textstelle, um sie in der Beschreibung zu platzieren.

Die Tricks der Spammer

Jedes System und Programm hat seine Schwachstellen – und es gibt Menschen, die das ausnutzen. Seit Suchmaschinen Besucher zu Websites schicken, versuchen Schwarze Schafe, die Suchergebnisse zu beeinflussen. So entsteht ein ständige Wettlauf zwischen Spammern und Suchmaschinen-Betreibern um saubere, Spam-freie Ergebnisse.

Prominente Spam-Verfahren sind Content-Spam und Link-Spam. Content-Spam gibt es in vielen Varianten. Die einfachste ist, einen Text mit den Begriffen zu füllen, unter denen eine Seite in der Suchmaschine gefunden werden soll. Allerdings ist dieses Verfahren nicht mehr so wirksam wie früher, als Suchmaschinen einfach durchgezählt hat, wie oft ein Stichwort vorkommt. Mittlerweile gehen Google & Co.  gegen “Keyword Stuffing” vor (http://www.google.com/support/webmasters/bin/answer.py?answer=66358). Ein Mittel ist, die Anzahl der Begriffe im Text in ein Verhältnis zu einander zu setzen (Keyword-Density). Ab einer bestimmten Prozentschwelle von Begriffen könnte ein Text dann als Spam erkannt werden.

Eine weitere Methode, mit der Google mittlerweile gut zurecht kommt, ist versteckter Text. Dabei schreiben die Spammer beispielsweise weißen Text auf weißem Hintergrund – mit HTML oder CSS ist das kein Problem. Der Leser einer Seite bekommt davon nichts mit – den Suchmaschinen werden damit aber hunderte oder tausende Begriffe untergejubelt. Doch auch damit beschäftigt sich Google – versteckter Text kommt bei der Suchmaschine nicht mehr so gut an. Matt Cutts weist übrigens in seinem Blog darauf hin, dass es auch nichts bringt, beispielsweise hellgrauen Text auf weißem Hintergrund zu schreiben ( http://www.mattcutts.com/blog/seo-mistakes-nearly-hidden-text/).

Immer noch gerne wird das “Scraping” betrieben. Das “Absahnen” anderer Seiteninhalte, um so die eigene Seite zu füllen. Dieses Verfahren wird häufig auch im Zusammenhang mit Adsense genutzt, um über die Anzeigen Geld zu verdienen. Doch auch hinter diesen Seiten ist das Google-Antispam-Team schon seit geraumer Zeit her (http://www.mattcutts.com/blog/step-into-my-shoes/). Ärgerlich ist Scraping vor allem für die Seiten, die die Originaltexte enthalten. Unter Umständen nämlich rangieren die Scraper vor der Originalseite.

Linkspam

Besitzer von Blogs und Foren müssen sich mit üblem Link-Spamming auseinandersetzen. Da eigens aufgebaute Linkfarmen nicht mehr so gut funktionieren, nutzen die Spammer andere Wege: Sie überschütten Blogs, Foren und Websites mit Spam. Der Vorteil für die Spammer: Die von ihnen missbrauchten Seiten sind an sich nicht verdächtig. Und sollte Google dennoch etwas gegen eine zugespammte Seite unternehmen, stört das die Spammer nicht. Schließlich haben die noch zig andere Seiten, auf denen sie ihren Spam unterbringen.

Einziges Gegenmittel ist das von Google interpretierte “nofollow”-Attribut für Anchor-Tags. So gekennzeichnete Links werden von Google nicht verfolgt und indexiert. Im Blogprogramm “Wordpress” ist das “nofollow”-Attribut von vornherein eingeschaltet. Allerdings verhindert es keinen Spam, sondern macht ihn nur unwirksam. Den Spammern ist das egal – sie füllen die Blog-Kommentare auch weiterhin. Einzig mit selbst geschriebenen Antispam-Routinen oder Antispam-Services wie Akismet bekommen Seitenbetreiber den Linkspam in den Griff.

Andere Spammer setzen gleich eigene Blogs auf, mit denen sie versuchen, ihre Angebote bei Google nach vorne zu bringen. Im Prinzip ist das nichts anderes als das klassische Link Farming: Webseiten aufbauen, die nur aus unsinnigem Text und Hyperlinks bestehen.

Cloaking

“Cloak”, zu Deutsch der Deckmantel steht für eine weitere Technik der Suchmaschinenspammer. Das wahre gesicht der Website wird dabei verborgen. Der Suchmaschine gegenüber präsentiert sie ganz andere Inhalte als gegenüber dem Leser. Möglich wird diese Technik, da sich der für das Durchsuchen von Websites zuständige Googlebot stets zu erkennen gibt. Und zur Sicherheit kann der Cloaker auch noch die IP-Adresse abgleichen.

Erkennt die Cloaking-Seite nun den Googlebot, liefert sie spezielle Inhalte, um die Suchmaschine zu füttern. Das können zum Beispiel Hunderte von Sätzen sein, die in Variationen immer wieder einen oder mehrere Begriffe hervorheben.

Geht ein Leser dann auf die Seite, findet er ganz anderen, für das Publikum gestalteten Inhalt vor.

Eine ähnliche Technik ist der Seiten-Redirect. Über ein Meta-Tag oder Javascript wird nach dem Laden der Seite auf eine andere umgeleitet. Da Google Javascript nicht interpretiert, bleibt der Googlebot auf der Anfangsseite hängen und bekommt dort Spam-Inhalte vorgesetzt, während normale Leser zur eigentlichen Site weitergeleitet werden.

Dem breiten Publikum bekannt wurde diese Technik, als im Februar 2005 BMW aus dem Google-Index flog. Dort hatte man die Technik mit dem Javascript-Redirect eingesetzt.

(http://www.mattcutts.com/blog/ramping-up-on-international-webspam/)

Spam unabsichtlich: Doppelter Content

Der Webmaster kann noch so viel Gutes im Sinn haben, und dennoch auf der Abschussliste von Google landen. Einer der Gründe hierfür kann Doppelter Content sein, der sich vor allem auf umfangreicheren Seiten bemerkbar macht.

Doppelter Content entsteht auf zwei Wegen: Einmal kann es sich um tatsächliche Dubletten handeln. Etwa dann, wenn eine Seite einmal für den Browser und einmal in einer Druckversion vorhanden ist und von Google indexiert wird. Auf beiden Seiten ist derselbe Text. Allerdings scheint Google das nicht mehr so eng zu sehen. Zwei bis drei Versionen eines Artikels auf einer „Whitehat“-Site seien kein Problem, schreibt Matt Cutts (http://www.mattcutts.com/blog/duplicate-content-question/).

Ein anderer Weg zu doppeltem Content führt über die URL einer Seite. Ist eine Seite unter mehreren Domainnamen erreichbar, kann das zu Problemen führen, ebenso wie unterschiedliche Dateipfade, die letztlich dieselbe Bedeutung haben. Beispiel: Ein Artikel ist sowohl unter

www.meineseite.xy/artikel.php?id=1

als auch unter

www.meineseite.xy/tolle-ueberschrift-1/

erreichbar. Für Google sind das zwei unterschiedliche Adressen, also auch unterschiedliche Dokumente, aber sie haben den gleichen Inhalt.

Domains umleiten

Falls das Webangebot auf Ihrem Server unter mehreren Domainnamen erreichbar ist, sollten Sie die Adressen auf eine einzige umleiten. Gibt der Nutzer dann zum Beipspiel „www.meinetolleseite.xy“ ein, wird er umgeleitet auf „www.meineseite.xy“.

Diese Umleitung erledigen Sie auf Apache-Servern über das Modul mod_rewrite. Den notwendigen Code können Sie zum Beispiel in der Datei .htaccess unterbringen, die sich im Wurzelverzeichnis der Website befinden muss.

Der Umleitungsmechanismus besteht aus drei Zeilen:

RewriteEngine on

RewriteCond %{HTTP_HOST} !^www.meineseite.xy$

RewriteRule ^(.*)$ http://www.meineseite.xy/$1 [R=permanent]

Die erste Zeile schaltet die Funktion zum Umschreiben der URLs ein. Danach überprüft RewriteCond den Namen der aufgerufenen Seite. Falls der NICHT www.meineseite.xy ist, leitet die dritte Zeile alle Anfragen auf www.meineseite.xy um. Als Umleitungstyp wird “permanent” gewählt. Damit erfahren Google und andere Suchmaschinen, dass die neue Adresse auf Dauer gilt.

Mit diesem Eintrag kann Ihr Webangebot beliebige Adressen haben, der Besucher und Google jedoch werden dann immer genau zu „www.meineseite.xy“ geführt.

Vieles ist Spekulation

Informationen über den Google-Suchalgorithmus gibt es wie Sand am Meer – allerdings gibt es nur wenige harte Fakten, dafür aber viel Spekulationen. Das Google-Wissen lässt sich in drei Kategorien einteilen:

Harte Fakten. Dazu zählen Informationen von Google selbst, etwa über den Pagerank-Algorithmus. Weitere Quellen sind das Blog von Googles Spam-Bekämpfer Matt Cutts oder das Google-Webmasterblog oder das Google-Forum auf webmasterworld.com. Hier finden sich Posts des Benutzers „Googleguy“ – ein anonymer Mitarbeiter von Google, der hin und wieder zu Google-Themen Stellung nimmt.

Patente sind eine weitere Quelle für harte Google-Fakten. In den Patentschriften finden sich wichtige Hinweise für Suchmaschinenoptimierer.

– Hörensagen. Vieles spricht sich herum – über Bekannte oder in Foren gibt es jede Menge Informationen aus zweiter Hand. Wie verlässlich dieses Wissen ist, muss aber jeder für sich beurteilen. Je mehr man sich mit der Materie beschäftigt, desto besser wird das Urteilsvermögen.

Eine gute Quelle sind einschlägige Google-Foren, etwa Webmasterworld.com Hier gibt es Hinweise über möglicherweise funktionierende Vorgehensweisen, die den Suchalgorithmus beeinflussen. Oft gibt es dazu auch Feedback anderer Nutzer. Doch allzuhäufig gehen die Informationen hier in den Bereich der Spekulation.

– Spekulation. Blühende Phantasie oder ernstzunehmende Thesen, all das fällt in den Bereich der Spekulation. Viele schreiben auf vielen Seiten, was ihnen zu Google einfällt, persönliche Beobachtungen werden vermischt mit den Thesen anderer Suchmaschinenoptimierer und ergeben ein Konglomerat aus Halbwissen und purer Vermutung. Dennoch lohnt es, sich auch mit diesen Beiträgen auseinanderzusetzen. Allerdings erst dann, wenn Sie selbst fundierte Google-SEO-Kenntnisse haben und die Spreu vom Weizen trennen können. 

Quellen

Google Webmaster Guidelines * www.google.com/support/webmasters/bin/answer.py?answer=35769

Matt Cutts Blog * www.mattcutts.com

Google-Blog zum Thema Meta-Tags * http://googlewebmastercentral.blogspot.com/2007/12/answering-more-popular-picks-meta-tags.html

Google Spam Report * http://www.google.com/contact/spamreport.html

Wikipedia zu Spam in Suchmaschinen * http://en.wikipedia.org/wiki/Spamdexing

Google News bei Webmasterworld * http://www.webmasterworld.com/forum30/

Lesen Sie hier weiter: Spam-Seiten bei Google melden