511 Beiträge rss | 33 Nutzer online

Google: Duplicate Content ist ein Problem

Viele Webmaster hat es beim letzten Google-Update hart erwischt. Ihre Seiten verschwanden nahezu aus dem Index, Zugriffe brachen dramatisch ein.

Mehr zum Google Update lesen Sie unter .

Als Hauptverursacher dieses Einbruchs steht mittleweile Duplicate Content unter Verdacht. Das bedeutet: Inhalte einer Website sind bei Google unter mehreren Adressen erreichbar.

Gründe dafür gibt es eine Menge - und viele Webmaster kommen erst nach einer ganzen Weile drauf. Denn besonders bei alten, inhaltsschweren Websites war Google lange Zeit sehr tolerant mit doppelten Inhalten. Vermutlich deshalb hat es beim vergangenen Allegra-Update besonders solche Sites erwischt, die schon lange online sind und mit viel Inhalt aufwarten können.

Ursachen für Duplicate Content

(1) Die Site ist unter mehreren Domains zu erreichen und indexiert, zum Beispiel unter www.domain.foo und domain.foo. Dazu muss man nicht einmal die Domain explizit unter beiden Namen bei Google gemeldet haben. Es genügt, dass ein anderer freundlicher Webmaster im Netz einen Link auf Ihre Site unter dem zweiten Namen gesetzt hat.

(2) Die Site ist unter dem Domain-Namen und zusätzlich unter der IP-Adresse erreichbar. Das kommt vor, wenn während eines Domain-Umzugs von der ursprünglichen Adresse schon auf den neuen Server verlinkt wird - eben unter Angabe der IP-Adresse. Kommt Google während dieser Umzugszeit vorbei wird die Site auch unter der IP-Adresse erfasst.

(3) Auf der Site sind die Inhalte unter verschiedenen URLs lesbar. Das kommt vor allem auf Sites mit dynamischen Inhalten vor. Die hatten früher ihre Texte unter URIs wie /inhalt.php?id=10 auf dem Server und haben dann umgestellt auf scheinbar statische URLs /das_ist_mein_text_id_10.html. Noch besser: Erst auf statische URLs umstellen und dann noch die Schreibweise ändern, also von /das_ist_mein_text_id_10.html auf /das-ist-mein-text-id_10.html.

Das hilft gegen Duplicate Content

Maßnahme Nummer 1 gegen Duplicate Content: Versuchen Sie die Dubletten so schnell wie möglich los zu werden. Das Problem mit der Erreichbarkeit unter mehreren Domains bekommen Sie mit einem Rewrite in den Griff. Diese Rewrite-Rules landen auf Apache-Servern in der Datei .htaccess im Root-Verzeichnis der Website, zum Beispiel:

 

RewriteEngine on

RewriteCond %{HTTP_HOST} ^xyz\.foo$

RewriteRule ^(.*)$ http://www.xyz.foo/$1 [R=permanent]

 

Besonders wichtig ist dabei das [R=permanent]. Das sorgt dafür, dass ein Client - auch der Googlebot - das richtige Signal mit dem Code 301 erhält: Diese Adresse ist dauerhaft umgezogen. Mit der Zeit wird Google diese Neuerungen aufnehmen und umsetzen. Aber haben Sie Geduld, das kann Monate dauern.

Mehr zu Rewrite-Regeln unter Apache lesen Sie auf:

http://httpd.apache.org/docs/mod/mod_rewrite.html

Um zu prüfen, ob so eine Umleitung funktioniert, verwenden Sie den HeaderChecker (Header Checker für Statuscode unter Windows XP).

Schneller geht's mit den Dubletten innerhalb der Site. Falls Sie schon auf die neue, statische Schreibweise umgestellt haben, müssen Sie dem Googlebot nur noch verbieten, die alten Dateien zu lesen. In obigem Beispiel müssten Sie also die inhalt.php ausschließen. Das geht am besten in der Datei robots.txt. Die sitzt im Root-Verzeichnis der Website:

 

User-agent: *

Disallow: /inhalt.php

 

Mit dieser Anweisung verbieten Sie allen Bots, die Seite index.php zu lesen. Nach kurzer Zeit schon werden die entsprechenden Seiten aus dem Index verschwinden.

Mehr zu robots.txt erfahren Sie unter http://www.robotstxt.org/wc/exclusion.html.

Weitere Information zu Duplicate Content: http://suchmaschinen-web.de/index.php/Duplicate_Content

Beitrag in meinem Blog zu Duplicate Content.

Welche Gründe es noch gibt, aus dem Google-Index zu fliegen, verrät Michael Dunker, Mithinhaber einer SEO-Agentur.

 


blog comments powered by Disqus
Copyright © goldmann.de 1999-2010   | powered by Tippscout 5.0
Zurück Startseite