Rote Karte von Google
Ich wollte nicht schon wieder über Google schreiben. Aber es bleibt mir nichts anderes übrig. Denn am 22. September 2005 gab es mal wieder die rote Karte von der Suchmaschine. Meine Homepage ist aus dem Index praktisch verschwunden. Nach zwei Tagen Frustration folgt die Analyse: Im Google-Index sind rund dreimal so viele Seiten von meiner Homepage zu finden wie üblich. Das ist ein klarer Hinweis auf Duplicate Content. Hier ist Google seit diesem Jahr besonders empfindlich.
(erschienen 2005 in Internet Professionell)
Im Februar gab es schon ein ähnliches Problem. Damals lag die Ursache in mehreren Domain-Namen, unter denen die Seite zu finden war und in unterschiedlichen URLs, unter denen ein und der selbe Eintrag erreichbar war. Nach fleißigem Aufräumen war die Ursache beseitigt und die Homepage kehrte nach drei Monaten in den Index zurück. Beim Aufräumen habe ich mit Hilfe der URL-Removal-Console von Google die doppelten Versionen rausgeschmissen. Mit Einträgen in der robots.txt blieben diese Dubletten auch weiter vom crawlen ausgeschlossen.
Dann aber habe ich einen Fehler gemacht. Bislang galten die Regeln meiner robots.txt für alle Suchmaschinen. Es gab nur Einträge unter "User-agent: *". Dann aber habe ich einen Eintrag hinzugefügt, der speziell nur für Google vorgesehen war. Meine Annahme erwies sich bald als falsch, Google würde zunächst die für alle User Agents gültigen Regeln lesen und dann zusätzlich die für "User-agent: Googlebot". Im Gegenteil Google hat nur die Regeln im "Googlebot"-Eintrag gelesen und alles andere ignoriert. Google fing also an, fleißig die doppelten Versionen zu crawlen. Mit einem Schlag war das Problem wieder da und meine Seite weg. Und alles nur, weil es zu jedem Artikel auf der Seite eine Druckversion gibt.
Seit dieser Erfahrung habe ich die robots.txt überarbeitet, nochmal alle doppelten Seiten mit der URL-Removal-Console rausgeworfen und zusätzlich die Dubletten-Seiten in der .htaccess gegenüber dem Googlebot gesperrt.
Wenn Sie also mit der robots.txt arbeiten und Probleme mit doppeltem Content drohen, denken Sie daran, für jede Suchmaschine komplett alle Einträge zu wiederholen. Halten Sie die Augen offen und sehen Sie sich genau Ihre Logs an. Sobald Google anfängt Dubletten zu crawlen, läuft etwas schief. Ich passe ab jetzt auch besser auf.




