it-swarm.com.de

Welche Bots sind es wirklich wert, auf eine Site gelassen zu werden?

Nachdem ich eine Reihe von Bots geschrieben und gesehen habe, wie viele zufällige Bots eine Website crawlen, frage ich mich als Webmaster, welche Bots es wirklich wert sind, auf eine Website gelassen zu werden.

Mein erster Gedanke ist, dass das Zulassen von Bots auf die Site möglicherweise echten Datenverkehr mit sich bringen kann. Gibt es einen Grund, Bots zuzulassen, von denen nicht bekannt ist, dass sie echten Traffic auf eine Site senden, und wie erkennt man diese "guten" Bots?

11
blunders

Im Bereich der normalen Bots hängt alles davon ab, was Sie schätzen und nur Sie können das entscheiden. Natürlich gibt es Google, Bing/MSN/Yahoo !, Baidu und Yandex. Dies sind die wichtigsten Suchmaschinen. Es gibt auch die verschiedenen SEO- und Backlink-Sites. Richtig oder falsch, ich erlaube ein paar der Großen, auf meine Site zuzugreifen, aber im Allgemeinen handelt es sich um nutzlose Sites. Ich blockiere archive.org nicht nur in robots.txt, sondern auch nach Domainname und IP-Adresse. Das liegt daran, dass sie die robots.txt ignorieren! Dies ist etwas, für das Sie ein Gefühl bekommen müssen. Lassen Sie sich nicht von Agentennamen täuschen. Oft werden sie von schlechten Leuten geschmiedet. Heutzutage erhalte ich Tausende von Seitenanfragen von Quellen, die behaupten, Baidu zu sein, aber nicht. Lernen Sie diese Spinnen anhand von Domainnamen und IP-Adressblöcken kennen und lernen Sie, auf dieser Ebene mit ihnen umzugehen. Die Guten gehorchen robots.txt.

Aber ich muss Sie warnen, es gibt eine TONNE von Stealth-Bots, Rogue-Bots, Scrapern usw., die Sie häufig in Ihrer Log-Analyse durchsuchen und blockieren möchten. Diese 5uck5! Aber es muss getan werden. Die größte Bedrohung dieser Tage sind minderwertige Links zu Ihrer Website. Mein aktualisierter Anti-Bot-Sicherheitscode, den ich in diesem Jahr implementiert habe, hat 7700 Links von geringer Qualität automatisch gelöscht. Natürlich muss mein Code noch bearbeitet werden, aber Sie verstehen, worum es geht. Die schlechten Bots stehlen immer noch das Potenzial der Website.

Es wird nicht lange dauern, bis Sie den Dreh raus haben.

11
closetnoc

Ich hatte Probleme damit, dass Baidu-Bots meinen Server verlangsamten, während die Suchmaschine fast keinen Datenverkehr sendete. Diese Bots respektieren die robots.txt-Datei nicht. Um Baidu-Bots zu blockieren, fügen Sie einfach Folgendes in Ihre htccess-Datei ein.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Ich hatte auch Probleme mit Bing/Microsoft-Spinnen, die zu schnell krabbelten, im Gegensatz zu Baidu respektieren sie die robots.txt-Datei also;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
1
Chaoley