it-swarm.com.de

Muss ich MJ12Bot wirklich blockieren (als der vorherrschende Besucher auf meiner Website)?

Ich bin dafür, legitimen Suchmaschinen den Besuch meiner Website zu gestatten, aber ich habe festgestellt, dass auf meiner Website im Visitenkartenstil jede andere Anfrage von MJ12Bot stammt, obwohl sie aus bekannten Gründen ein Nischen-SEO-Bot sind. Sie schicken nicht einmal menschliche Besucher zurück, daher bin ich ziemlich enttäuscht über den Lärm, den sie erzeugen.

% cut -f12- -d" " constantine.su.access.log | sort | uniq -c | fgrep -i -e bot -e spider | sort -nr | head
 421 "Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"
  69 "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
  64 "woobot/1.1"
  62 "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  61 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  39 "Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)"
  30 "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
  14 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
  13 "woobot/2.0"
  12 "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

Gibt es eine Möglichkeit, MJ12Bot-Ambitionen zu beruhigen (um etwa 20 ×)? Oder aufgrund der verteilten Natur von Muss ich sie beim MJ12bot-Projekt nur komplett als parasitär blockieren?

6
cnst

MJ12bot hält sich an den Standard robots.txt. Wenn Sie möchten, dass der Bot das Crawlen der Website verhindert, fügen Sie Ihrer robots.txt den folgenden Text hinzu:

User-agent: MJ12bot
Disallow: /
2
Sjoerd Linders

Aus Ihren Kommentaren zu einer anderen Antwort geht hervor, dass MJ12Bot Ihre Website weniger als einmal pro Stunde besucht (421 Mal in 25 Tagen). Das Beste, was Sie tun können, ist, sich darüber keine Sorgen zu machen. Crawl-Verzögerung ist für Sie nutzlos, da kein Crawler eine so große Crawl-Verzögerung befolgt.

2
Greg Lindahl

Gibt es eine Möglichkeit, MJ12Bot-Ambitionen zu beruhigen?

Die MJ12Bot gehorcht angeblich robots.txt und der (nicht standardmäßigen) Crawl-Delay Direktive:

Wie kann ich MJ12bot verlangsamen?

Sie können Bot ganz einfach verlangsamen, indem Sie Ihrer robots.txt-Datei Folgendes hinzufügen:

User-Agent: MJ12bot
Crawl-Delay: 5

Crawl-Delay sollte eine Ganzzahl sein und gibt die Wartezeit in Sekunden zwischen Anforderungen an. MJ12bot führt eine Verzögerung von bis zu 20 Sekunden zwischen Anfragen an Ihre Site aus gleichzeitig von mehreren MJ12bots gecrawlt. Eine hohe Crawling-Verzögerung sollte die Auswirkungen auf Ihre Website minimieren.

Referenz:
http://mj12bot.com/

2
MrWhite