it-swarm.com.de

Ist es möglich, die Baiduspider-Crawling-Frequenz zu verlangsamen?

Viel wurde von der Baidu-Spinnen-Crawling-Frequenz gemacht. Es ist wahr: "Baiduspider kriecht wie verrückt."

Ich habe dieses Phänomen an Standorten erlebt, mit denen ich arbeite. In mindestens einem Fall habe ich festgestellt, dass Baiduspider ungefähr mit der gleichen Häufigkeit wie Googlebot crawlt, obwohl Baidu ungefähr 0,1% mehr Traffic liefert als Google.

Ich möchte diese Besuche auf meiner Website behalten, so wenig wie sie sind (vielleicht werden sie eines Tages größer?), Aber ich kann es nicht rechtfertigen, eine so hohe Auslastung auf meinem Server zuzulassen.

Die akzeptierte Antwort auf die oben verlinkte Frage schlägt vor, dass Baidu Webmaster Tools die Möglichkeit bietet, die Crawling-Rate zu begrenzen, aber ich zögere, diese (nur auf Chinesisch) Dose Würmer zu öffnen.

Hat jemand Erfahrung damit, die Baiduspider-Crawling-Rate mit BWT zu begrenzen? Gibt es eine andere Möglichkeit, diese Belastung zu begrenzen?

17
samthebrand

Tolle Frage, und viele Webmaster könnten sich dafür interessieren, da die Baidu-Spinne notorisch aggressiv ist und Ressourcen von Servern zappen kann ...

Wie in den Nachrichten der Baidu-Websuche angegeben, unterstützt der Baidu-Spider die Einstellung für die Crawling-Verzögerung nicht. Stattdessen müssen Sie Ihre Site wie angegeben bei der Plattform der Baidu-Webmaster-Tools registrieren und verifizieren hier auf seiner Seite. Dies scheint die einzige Möglichkeit zu sein, die Crawling-Frequenz direkt mit Baidu zu steuern.

Das Problem ist, dass andere Spam-Bots Baidus User-Agents hier unter Nummer 2 verwenden, um Ihre Site zu spinnen, wie in den FAQs hier angegeben. unter Nummer 4. Eine langsamere Crawling-Rate mit Baidu anzufordern, kann also nicht alles lösen.

Wenn Sie sich also für die Verwendung der Webmaster-Tools von Baidu entscheiden, ist es möglicherweise ratsam, die Benutzeragenten auch mit IP-Adressen zu vergleichen, von denen bekannt ist, dass sie mit ihnen verknüpft sind, indem Sie eine Ressource wie die Datenbank Bots vs. Browser verwenden ) oder mit einem Reverse-DNS-Lookup

Die einzige andere Möglichkeit besteht darin, entweder alle Baidu-Benutzeragenten zu blockieren und damit den potenziellen Datenverkehr von Baidu zu opfern oder zu versuchen, übermäßige Anforderungen mithilfe von mod_qos für Apache zu begrenzen, das behauptet, Folgendes zu verwalten:

  • Die maximale Anzahl gleichzeitiger Anforderungen an einen Speicherort/eine Ressource (URL) oder einen virtuellen Host.
  • Begrenzung der Bandbreite, z. B. die maximal zulässige Anzahl von Anfragen pro Sekunde an eine URL oder die maximale/minimale Anzahl von heruntergeladenen KB pro Sekunde.
  • Begrenzt die Anzahl der Anforderungsereignisse pro Sekunde (besondere Anforderungsbedingungen).
  • Es kann auch sehr wichtige Personen (VIP) "erkennen", die ohne oder mit geringeren Einschränkungen auf den Webserver zugreifen können.
  • Generischer Anforderungszeilen- und Headerfilter, um nicht autorisierte Vorgänge zu verweigern. Beschränkung und Filterung von Körperdaten anfordern (erfordert mod_parp).
  • Einschränkungen auf der Verbindungsebene TCP, z. B. die maximale Anzahl zulässiger Verbindungen von einer einzelnen IP-Quelladresse oder die dynamische Keep-Alive-Steuerung.
  • Bevorzugt bekannte IP-Adressen, wenn dem Server die freien TCP Verbindungen ausgehen.

Ich habe keine gemeldeten Erfahrungen mit den Baidu Webmaster-Tools gefunden, die langsam geladen werden und Übersetzungsprobleme haben (auch keine englische Version). Das mag hilfreich sein, ist aber natürlich meinungsbasiert.

11
dan

Nachdem ich viel recherchiert und experimentiert hatte, biss ich endlich in die Kugel und richtete ein Konto für die Baidu Webmaster-Tools ein. Die Verwendung mit Google Translate in einem anderen Fenster ist recht einfach. Möglicherweise muss Firebug aktiviert sein, damit Sie chinesischen Text von Schaltflächen kopieren und einfügen können, die Sie im normalen Browsermodus nicht erfassen können.

Nach der Einrichtung müssen Sie einige Tage warten, bis Crawling-Daten angezeigt werden. Anschließend können Sie die Crawling-Rate anpassen. Es erscheint in einem Abschnitt namens "Druck", den Sie mit dieser URL erreichen sollten:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Beachten Sie, dass Sie diese URL nur verwenden können, wenn Sie über ein Konto bei Baidu Webmaster Tools verfügen und Ihre Website-URL mit Ihrem Konto für die betreffende Website verknüpft haben. Hier sehen Sie einen Schieberegler mit Ihrer aktuellen Crawling-Rate in der Mitte (in meinem Fall 12676 Anfragen pro Tag. Schieben Sie ihn nach links, um die Crawling-Rate zu verringern.

Ich habe noch keine Ahnung, ob es Ihrer Bitte tatsächlich entspricht. Es gibt Ihnen eine Warnung, die so etwas sagt. "Wir empfehlen Ihnen, die Baidu-Crawling-Rate für die Standardwebsite zu verwenden. Nur wenn Ihre Website Probleme mit dem Crawlen hat, können Sie sie mit diesem Tool anpassen. Um das normale Crawlen Ihrer Website aufrechtzuerhalten, berücksichtigt Baidu Ihre Anpassung der Crawling-Rate anhand der tatsächlichen Website-Bedingungen und kann daher nicht garantieren, entsprechend Ihrer Anfrage anzupassen. "

5
user35703