it-swarm.com.de

Gibt es eine Möglichkeit, wget am Crawlen und Herunterladen meiner Website zu hindern?

Ich möchte nicht, dass meine angebliche Website gecrawlt und heruntergeladen wird (CSS, Bilder, HTML usw.). Gibt es eine Möglichkeit, wget vollständig zu blockieren?

2
Taylor Swift

Ja und Nein. Lassen Sie mich erklären.

Jeder Benutzer kann die von Wget verwendete User Agent-Zeichenfolge ändern. Wenn die Zeichenfolge nicht geändert wird, kann Wget auf einfache Weise wie folgt in Ihrer .htaccess-Datei erfasst werden.

RewriteCond %{HTTP_USER_AGENT} wget.* [NC]
RewriteRule .* - [F,L]

Wenn jedoch die Benutzeragentenzeichenfolge geändert wird, wissen Sie möglicherweise nie, dass es sich um Wget handelt.

Abgesehen davon ist jedem Webmaster, der schon eine Weile dabei ist, eines klar: Die Protokolldatei muss häufig auf missbräuchliche Aktivitäten überprüft werden. Es ist möglich, schlechte Schauspieler zu blockieren, während sie vorbeikommen, und dennoch ist es unmöglich, sie vorzeitig zu blockieren, obwohl Sie eine Menge von ihnen bekommen können.

Sie können die meisten Missbräuche stoppen, wenn Sie Ihre Site-Zugriffsprotokolle häufig genug ansehen und wissen, wie Sie .htaccess und reguläre Ausdrücke verwenden. Es ist kein schwieriger Prozess und sollte von jedem Webmaster gut verstanden werden.

Während einige rein aus philosophischer Sicht argumentieren, ist die Tatsache, dass Wget in den meisten Fällen blockiert werden sollte. In all den Jahren, in denen ich mich mit dem Internet beschäftigt habe (und das ist weitaus mehr als jeder andere), hat Wget für einen Benutzer keinen Zweck, außer Ressourcen von einer Website zu entfernen. Während sich einige Websites dieser Art von Aktivität öffnen und tatsächlich dazu einladen, waren alle Zugriffe, die ich mit Wget erlebt habe, eine Form von Missbrauch oder Diebstahl.

2
closetnoc

Die meisten Bots verwenden kein wget, sondern einen Crawler, und Sie können ihnen raten, die Seite zu verlassen, indem Sie auf Ihrer Site eine robots.txt -Datei veröffentlichen. Es gibt einige Schurken-Bots, die Ihre robots.txt nicht ehren und die explizit blockiert werden müssen. Sie können diese identifizieren, indem Sie die Protokolle Ihres Webservers überprüfen, aber auch öffentlich zugängliche schwarze Listen anwenden.

1
avnr