it-swarm.com.de

Googlebot-Flooding-Server mit Anfragen nach Junk-URLs mit zufälligen Daten

Ich habe Probleme mit GoogleBot. Es fordert immer wieder eine zufällige URL an, die nicht existiert. Es wird versucht, auf Folgendes zuzugreifen: www.example.com/index.php/{TOKEN}

Dieser {TOKEN} ist wirklich zufällig, keine Ahnung, woher er kommt. Ich versuche zu antworten, dass die Seiten nicht existieren, indem ich auf die Homepage umleitung (nicht sicher, ob dies eine gute Idee ist).

Dies führt zu einer Überlastung meines Servers, da hier Unmengen von Anfragen eingehen! Was soll ich tun, um das zu stoppen?

Zugriffsprotokoll:

example.com 66.249.64.28 - - [21/Feb/2018:12:13:48 -0300] "GET /index.php/66t-2nkznwh_91f4690bjij1wbgziq- HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"

  • "Was soll ich machen". Als Sofortmaßnahme würde ich in der Webserverkonfiguration eine Regel festlegen (z. B. .htaccess), um darauf mit 404 zu antworten. 404 steht für den Fall, dass Sie keinen /index.php als gültigen Pfad auf Ihrem Server haben. Dong so wird zumindest Last von Ihrem Interpreter fallen (ich nehme an, es ist PHP).
  • Als nächstes würde ich eine Regel in robots.txt einfügen, um einen solchen Pfad von der Indizierung auszuschließen. Es sollte Google vollständig daran hindern, diese URIs zu crawlen, und verhindern, dass das Crawling-Budget für sie aufgewendet wird.
  • Danach würde ich mithilfe einer dieser URIs nach Links zu Ihrer Website suchen. Wer weiß, vielleicht hilft es Ihnen, den Grund zu finden, von dem diese Links zu Google kommen. Was ist, wenn das deine eigene Seite ist?

Das ist es, denke ich.

PS 301 ist keine gute Idee, denke ich. Aus meiner Erfahrung wird Bot von Zeit zu Zeit zurückkehren, um zu bestätigen, dass die Umleitung noch vorhanden ist. Ich denke, das ist nicht was du willst. Außerdem passt 404 per Definition wirklich besser.

eine zufällige URL, die nicht existiert

1
George

Ich habe festgestellt, dass Googlebot URLs auf meiner Website crawlt, die nicht vorhanden sind, keinen Inhalt haben und von keiner Seite verlinkt sind. Studien haben gezeigt, dass Google anscheinend Wörter in die Suchleisten von Websites eingibt und die Suchergebnisse crawlt.

Sie können die Crawling-Anforderungen, die Googlebot an Ihre Website sendet, in der Webmaster-Konsole begrenzen.

Wenn Sie der Meinung sind, dass das Weiterleiten dieser Seite zur Startseite durch 301 nicht zum Crawlen Ihrer Website durch Google beiträgt, können Sie den Header-Status auf 403 setzen, der auf dieser Seite verboten ist. Dies wird möglicherweise Googlebot daran hindern, dorthin zu gelangen. Wenn es sich in einem bestimmten Verzeichnis befindet, können Sie auch Robots in der Datei robots.txt nicht zulassen.

0
Michael d