it-swarm.com.de

Warum fügt BingBot URLs beim Crawlen meiner Websites "ForceRecrawl: 0" hinzu?

Ich sehe dies in den iis-Protokollen von zwei Websites, die ich pflege:

GET /an/existing/page/on/my/site+ForceRecrawl:+0 - 80 - 207.46.195.105 HTTP/1.1 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm)

Ich erhalte ungefähr ein oder zwei davon pro Tag von diesen IP-Adressen: 207.46.195.105, 65.52.110.190 .. und weitere, die alle zu msnbot-ip.search.msn.com gehören

Wahrscheinlich hat Microsoft einen Fehler in ihrem Crawler? Bei der Suche nach "ForceRecrawl: 0" in großen Suchmaschinen werden auf jeden Fall eine Reihe von zufälligen Websites gefunden. Die Suche auf StackOverflow oder hier ergab keine Ergebnisse (zu meinem Erstaunen). Bin ich der einzige, der das sieht? Ich habe diese am 9. dieses Monats zum ersten Mal bemerkt, und ich sehe sie fast täglich vergehen, seitdem ...

Eine andere Sache, die ich für verrückt halte, ist, dass die URL http://www.bing.com/bingbot.htm zu mail.live.com (hotmail) umleitet.

Derzeit gebe ich 404 zurück, überlege mir aber, diese zu fangen, das nachfolgende "ForceRecrawl: 0" zu entfernen und zu verarbeiten, als wäre es eine legitime URL.

Könnte jemand etwas Licht ins Dunkel bringen? Könnte es mit einer Konfiguration in den Webmaster-Tools von Bing zu tun haben?

2
Louis Somers

Du bist nicht der Einzige. Es scheint von Bing-Webmaster-Tools zu stammen, die die Option enthalten, den Bot zum erneuten Crawlen bestimmter URLs zu zwingen. Dies scheint jedoch ohne Benutzeranforderung für solche erzwungenen Neu-Crawls zu geschehen.

Der Bot scheint die Anweisung %20ForceRecrawl%3A%200 zum Ende der URL hinzuzufügen und zu versuchen, die URL plus das Bit am Ende zu crawlen. Dies führt natürlich zu einem 404-Fehler.

Wir haben einige davon mit der Block-Funktion in BWT entfernt, aber es werden immer noch andere ausgelöst. Wenn dies nicht der Fall ist, wird möglicherweise eine 301-Umleitung benötigt.

2
knooq