it-swarm.com.de

Ich werde meine robots.txt nicht respektieren. Gibt es einen Abfangjäger?

Ich habe eine Website, auf der ich CSV-Dateien als kostenlosen Service poste. Kürzlich habe ich gemerkt, dass wget und libwww ziemlich stark geschabt haben und ich habe mich gefragt, wie ich das umgehen kann, wenn auch nur ein bisschen.

Ich habe eine robots.txt-Richtlinie implementiert. Ich habe es unten gepostet ..

User-agent: wget
Disallow: /

User-agent: libwww
Disallow: /

User-agent: *
Disallow: /  

Das Ausgeben eines wget aus meiner völlig unabhängigen Ubuntu-Box zeigt, dass wget gegen meinen Server einfach nicht so zu funktionieren scheint ...

http://myserver.com/file.csv

Wie auch immer, es macht mir nichts aus, wenn Leute nur die Informationen abrufen. Ich möchte einfach eine Art Hochwasserschutz implementieren, wie einen Wrapper oder einen Interceptor.

Hat jemand einen Gedanken dazu oder könnte er mich auf eine Ressource hinweisen. Mir ist klar, dass es vielleicht gar nicht möglich ist. Kurz nach ein paar Ideen.

Janie

5
Jane WIlkie

Wenn Sie sich entscheiden, wget und libwww zu blockieren, können Sie sie entweder auf eine Seite umleiten, auf der angegeben wird, warum Sie sie mit diesem Code blockieren:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^libwww
RewriteRule ^(.*)$ http://www.example.com/blocked.html

Oder Sie können ihre Anfrage mit diesem Code abweisen:

SetEnvIfNoCase user-agent  "^wget " bad_bot=1
SetEnvIfNoCase user-agent  "^libwww" bad_bot=1
<FilesMatch "(.*)">
  Order Allow,Deny
  Allow from all
  Deny from env=bad_bot
</FilesMatch>

Platzieren Sie einfach entweder ein Snippet in einer .htaccess-Datei in Ihrem Stammverzeichnis oder in dem Verzeichnis, aus dem die Dateien heruntergeladen werden.

Ich habe das zweite Snippet verwendet, um Bots von einer Website zu blockieren, die stark überarbeitet wurde. Ich habe das erste Snippet nicht verwendet, aber es sieht so aus, als würde es gut funktionieren, wenn Sie sich für diese Route entscheiden.

2
John Conde