Doppelten Content durch replytocom-URLs verhindern

replytocom

Heute bemerkte ich doppelten Content im Index von Google. Und dieser war bis vor kurzem noch nicht da, da bin ich mir sehr sicher. Was letztlich die Ursache dafür ist, keine Ahnung; ich konnte dazu nichts finden. Aber mit der Hilfe von Sergej kam ich zumindest dem Grund und so einer Lösung auf die Spur.

Der Grund ist der Parameter replytocom der mal an den URLs dran hängt – andere Male nicht. So ergab das für Google mehrfachen Content. Am nachfolgenden Beispiel möchte ich das besser verdeutlichen.

Aus der URL:

  • tekshrek.com/das-iphone-4-jetzt-auch-in-weiss-erhaeltlich/

wurden durch das Anhängen des Parameter replytocom weitere unterschiedliche URLs, die wiederum zu dem mehrfachen Content führten:

  • tekshrek.com/das-iphone-4-jetzt-auch-in-weiss-erhaeltlich/?replytocom=3660
  • tekshrek.com/das-iphone-4-jetzt-auch-in-weiss-erhaeltlich/?replytocom=3662
  • tekshrek.com/das-iphone-4-jetzt-auch-in-weiss-erhaeltlich/?replytocom=3664

Die Lösung zur Beseitigung dieser doppelten Einträge ist äußerst einfach, wenn man denn weiß, wo man diese findet.

Dazu gehst du in den Google Webmaster Tools unter Website-Konfiguration › Einstellungen › Parameterbehandlung und fügst dort – falls nicht schon vorhanden, den Parameter wie nachfolgend dargestellt ein und speicherst es anschließend ab.

replytocom

Schritt für Schritt Anleitung:

  • Öffne das Google Webmaster-Tools Dashboard
  • Erweitere die Website-Konfiguration im Menü auf der linken Seite
  • Klicke auf die Option Einstellungen und gehe zum Tab Parameterbehandlung
  • Falls nicht vorhanden, den Parameter replytocom hinzufügen
  • In der Spalte Aktion findest du ein Dropdown-Menü
  • Dort wählst du die Option Ignorieren und klickst dann die Schaltfläche Speichern

Von nun an wird Google dazu veranlasst, den Parameter replytocom zu ignorieren und doppelter Content wird somit vermieden.

Fragen wie immer gern in den Kommentaren oder per Mail.


Update 07. Mai 2011

Dieser Artikel ist jetzt ebenfalls doppelt im Google-Index vorhanden, obwohl ich, bevor ich diesen schrieb und veröffentlichte, genau wie oben beschrieben vorgegangen bin. Google ignoriert also seine eigenen Parameter.

Dann soll es mir aber jetzt auch egal sein. Es gibt zwar noch eine weitere Möglichkeit, ein WP-Plugin – aber dieses werde ich vorerst nicht installieren.


Veröffentlicht von

Ich bin der Gründer und Hauptschreiber hier auf diesen Seiten. Ich liebe das Internet, Apple sowieso und beides wohl mehr als gut für mich ist. Jede Menge Kaffee den gesamten Tag über und besonders mag ich die Insel Kreta.

Finde mich auch auf · App.net · Twitter · Facebook und auch auf Google+!

13 Kommentare » Schreibe einen Kommentar
  1. Danke für den Hinweis. Vielleicht habe ich deswegen 200 neue Seiten im Index in nur 10 Tagen ;)

  2. Das muß ich bis jetzt immer übersehen haben bei Google Webmaster Tool. Werde ich mir die nächten tag mal genauer anschauen, danke für die sehr gute Erklärung

    @Gerd, man sollte ja eigentlich froh sein wenn man sehr viele Seiten im Index hat, aber wenn es doppelter ist, wird die Sache glaube ich nicht sehr Lustig mit der Tante.

  3. Der Artikel ist zwar schon etwas älter, da mich das Problem aber aktuell auch beschäftigt, hier meine Meinung dazu:

    Das “ignorieren” scheint sich nur auf den googlebot zu beziehen, also die Frage, ob er die Seite crawlen soll oder nicht. Mittlerweile wurde der entsprechende Teil im Webmastertool auch umbenannt.

    Um echt zu verhindern, dass diese doppelte Seite indiziert wird müsste man einen code basteln, der für den Fall, das WordPress Seiten mit diesem Parameter erstellt, in diese Seiten automatisch ein in den head-Bereich geschrieben wird.

  4. Ich hatte heute auch das Problem.
    Leider hat Google die Oberfläche vom Webmaster Tool wieder verändert, das die Anleitung nur bedingt klappt.
    Ich habe aber in meine robots-Txt die Zeile geschrieben:
    Disallow: *?replytocom

    Daran MUSS sich Google halten ;)

  5. Ich hab das gleiche Problem und hab mich stückweise “rangetastet”. Zuerst per ignorieren in den Webmastertools und Ausschluss in der robots.txt. Jetzt steht drin, dass es nicht gewertet werden soll, weil keine URL. Trotzdem werden fleißig weiter neue URLs aufgenommen, allerdings steht dann in den Suchergebnissen, dass der Inhalt aufgrund der robots.txt nicht angezeigt werden kann.
    Heute habe ich mir versuchsweise das Replytocom Redirector-Plugin runtergeladen. Mal schauen ob es was bringt. Habe zwischen 3.500 und 5.000 URLs im Index – alle mit Zusatz Replytocom :(

  6. Hallo zusammen,
    wir hatten das Problem ebenfalls auf unserer Seite.
    Wir haben eine Lösung mit einem SEO erarbeitet:
    1.) Wenn ihr bereits replytocom Seiten im index habt, bringt es nichts per robots.txt oder im Webmastertools die replytocom Seiten für Google zu sperren. Weil dann geht Google nicht mehr rüber und die Seiten bleiben einfach in Index. :(
    Besser:
    Wenn ihr also bereits Seiten im Google Index habt, erst mal daran setzen, diese zu “vernichten”.
    Dazu einfach alle replytocom Seiten per htaccess 410 (GONE) setzen:

    RewriteCond %{QUERY_STRING} replytocom=
    RewriteRule ^(.*)$ page_not_found.html [R=410,L]
    + eine page_not_found.html in den root legen. Hier einfach eine Zeile mit Link zur Startseite reinschreiben
    2.) ERST wenn alle replytocom Seiten aus dem Index sind, die hier schon beschriebenen Verfahren anwenden.
    a.) Im Webmastertools die replytocom Parameter sperren
    b.) In der robots.txt die replytocom Seiten ausschließen
    c.) Den Canonical-Tag einsetzen
    Trotzdem gilt noch: Alle unter 2. beschriebenen Sperrverfahren sind nur “Tipps” für den Google-Bot. Crawlen könnte er diese trotzdem, wenn z.B. von außen 4 Links auf eine eigene replytocom Seite kommen…
    Wir konnten unsere Double-Content Seiten aber so von 3.000 auf 0 senken und nun wird kein replytocom mehr indexiert. Den Eintrag aus der htacccess (1.) haben wir auch wieder entfernt.

  7. ich nutze das SEO Plugin von Yoast. Darin gibt es eine Funktion damit der Parameter bei den Urls entfernt wird. Natürlich sind vor dem Einsatz des Plugins doch solche Urls im Index. Habe in den WMT das gleich mal korrigiert. Danke für die Beschreibung

Hinterlasse eine Antwort

Pflichtfelder sind mit * markiert.


Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>