it-swarm.com.de

Googlebot ruft viele URLs mit einem "Workaround" -Parameter ab

Auf einer bestimmten Seite unserer Website werden in unseren IIS6-Protokollen weiterhin Einträge wie die folgenden generiert:

2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707368055555 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707277777777 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707347222222 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707291666666 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707263888888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707326388888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707437500000 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707451388888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707340277777 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707270833333 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707381944444 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707284722222 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707201388888 80 - 66.249.85.65 - 200 0 0

Beim Reverse-DNS-Lookup handelt es sich bei diesen IP-Adressen, die diese Anrufe tätigen, anscheinend um einen Googlebot. Was bedeutet "Workaround =" in dieser Zeile?

Es scheint immer so, als würden "workaround =" - Aufrufe nur für eine bestimmte Seite angezeigt, manchmal mehrmals innerhalb weniger Sekunden, wie in diesem Beispiel. Was ist die Ursache dafür und wie kann ich das verhindern?

Auf dieser bestimmten Seite werden AJAX Anrufe über jQuery an einen Drittanbieter gesendet, und es wird ein Anstieg der getätigten Anrufe gemeldet. Ich vermute, dass diese Bot-Anrufe das Problem sind.

1
LordHits

Ich weiß nicht genau, was "Problemumgehung" bedeutet. Es ist wahrscheinlich, dass der Drittanbieter AJAX diese Zeichenfolge in die zurückgegebenen Daten einschließt. Google findet es möglicherweise in HTML- oder JavaScript-Inhalten und entscheidet dann, dass es wie eine URL aussieht, die es crawlen sollte.

Um zu verhindern, dass Googlebot diese URLs auf Ihrer Website crawlt, können Sie dies zu Ihrer robots.txt -Datei hinzufügen:

User-Agent: Googlebot
Disallow: /*workaround=

Es hört sich so an, als ob AJAX auch nicht gecrawlt werden sollte. In diesem Fall muss die Site eines Drittanbieters möglicherweise etwas zu their robots.txt hinzufügen. Sie können auch den JavaScript-Code, der AJAX aufruft, in robots.txt einfügen, damit Googlebot ihn nicht sieht:

User-Agent: Googlebot
Disallow: /js/call-third-party-ajax.js
2