it-swarm.com.de

Behandle ich die wichtigsten Suchmaschinenspinnen in meiner weißen Liste zum Schutz vor Durchforstungen?

Ich habe ein System, das Benutzer, die zu viele Seiten zu schnell anfordern, auf eine schwarze Liste setzt, wenn sie nicht auf meiner weißen Liste stehen. Wir sind nur besorgt über die wichtigsten Suchmaschinen und um ehrlich zu sein, ist Google die einzige, um die sich meine Chefs Sorgen machen.

Die Weiße Liste:

crawler_name - crawler_Host
Googlebot - .googlebot.com
Yahoo! Slurp - crawl.yahoo.net
MSNBot - search.msn.com

Wenn der HTTP_REQUEST_HEADER den Crawler_Name und der Hostname (Reverse-DNS-Lookup der IP) den Crawler_Host einer der oben genannten Adressen enthält, lassen wir sie so viele Seiten anfordern, wie sie möchten.

Ist diese Liste gut genug? Deckt sie die Hauptsuchmaschinenspinnen ab? Oder könnten wir versehentlich einen blockieren?

Bearbeiten:
Ich habe es mit der Funktion "Als GoogleBot abrufen" in den Google Webmaster-Tools getestet und es funktioniert wie erwartet.
Laut Microsoft "Bing betreibt heute drei Crawler: Bingbot, Adidxbot, Msnbot". Das ist in Ordnung, ich kann in Bingbot und Adidxbot hinzufügen, aber werden ihre aufgelösten Hostnamen noch "search.msn.com" enthalten?

5
Adam Lynch

Das ist die falsche Strategie. Auch sind Header trivial zu fälschen.

Ehrlich gesagt, sind Anti-Crawler-Schutzmaßnahmen sehr zerbrechlich und im Allgemeinen unklug. Möglicherweise blockieren Sie legitime Benutzer (die sich darüber ärgern), oder Ihr Code wird vergessen, veraltet und blockiert Crawler, die Sie zulassen möchten.

Sie können jedoch überprüfen, ob ein Bot zu Google gehört - Ratschläge finden Sie hier: http://www.google.com/support/webmasters/bin/answer.py?answer=8055

Ich bin mir nicht sicher, ob das auch mit anderen Crawlern möglich ist. Ehrlich gesagt, ist dies keine Strategie, die ich anwenden würde.

3
Matty