it-swarm.com.de

Sollte ich Agent Wget / 1.12 (Linux-Gnu) blockieren?

Ist das ein Schaber? Es wurde versucht, auf meine Website zuzugreifen, die derzeit zu Testzwecken passwortgeschützt ist. soll ich es blockieren?

5
getbuck

Wget ist nur ein Kommandozeilen-Tool für Linux, das Ressourcen über HTTP abruft. Das alles sagt Ihnen, dass jemand über eine Kommandozeile auf Ihre Site zugegriffen hat. Es könnte ein Bot gewesen sein, der Sie abgekratzt hat, aber es gibt keine Möglichkeit, sicher zu wissen

Wenn Ihre Site passwortgeschützt ist, sollte es nicht erforderlich sein, bestimmte Benutzeragenten zu blockieren :) x

13
Emily Shepherd

wget hat legitime Verwendungen, ja, aber es ist auch sehr nützlich für Web-Scraping. Ich denke jedoch nicht, dass Sie versuchen sollten, es (oder einen anderen Agenten) mithilfe der Benutzeragentenzeichenfolge zu blockieren.

wget respektiert standardmäßig Ihre robots.txt-Datei. Es ist wahr, dass ein Scraper diese Option einfach ausschalten kann, aber raten Sie mal - es ist genauso einfach, --user-agent MSIE(blahblah) zu verwenden und sich als Internet Explorer auszugeben, wenn Sie auf HTTP-Ebene mit dem Blockieren beginnen. Ich habe bereits Scraping-Skripte geschrieben, und Sie sollten besser glauben, dass das Ändern der Benutzeroberfläche einer der ersten Schritte ist (wenn das nicht funktioniert, können Sie natürlich jederzeit den Gang wechseln und einfach ein Skript schreiben, um den Internet Explorer zu automatisieren).

Wenn Sie wirklich besorgt sind, müssen Sie versuchen, bot-like Verhalten - Seiten ohne Verweise, zu viele Anfragen in zu kurzer Zeit, etc. zu fangen. Allerdings fürchte ich Sie Ich stelle schnell fest, dass es für jemanden, der Ihre Website durchsuchen möchte, ziemlich trivial ist, alle Maßnahmen zu umgehen, die Sie möglicherweise ergreifen könnten (abgesehen von denjenigen, die für Ihre Benutzer zu lästig wären, z. B. das Zulassen von nur einer Seite pro Stunde oder so). Dies dürfte auch eine große Zeitsenke sein.

Wenn legitime Benutzer Ihre Seite sehen können, können Sie im Wesentlichen nicht viel tun, um zu verhindern, dass Scraper sie auch sehen.

5
Casey

wget wird oft zum Schaben verwendet. Es ist ein Befehlszeilentool zum Herunterladen von Webseiten und deren Assets. Wenn Ihre Website nicht veröffentlicht wird, können Sie fast sicher sein, dass es sich um einen Bot handelt, der Scraping ausführt. Also ja, Sie könnten es blockieren, müssen sich aber auch darüber im Klaren sein, dass Sie etwas Feineres tun müssen, als es mit robots.txt zu blockieren, da wget leicht angewiesen werden kann, robots.txt zu ignorieren

Zu diesem bestimmten Benutzeragenten in .htaccess können Sie Folgendes hinzufügen:

BrowserMatchNoCase Wget/1.12 (linux-gnu) wget
Order Deny,Allow
Deny from env=wget
1

Jedes Mal, wenn ich Fragen wie diese lese, denke ich an Kevin Spaceys Charakter in Henry und June. Der Kerl, der immer seinen größten Roman schrieb, sich aber solche Sorgen darüber machte, dass jemand seine Ideen stahl, hielt ihn in einer Aktentasche, die er dicht an der Brust trug, verschlossen ...

Jeder Linux-Benutzer ist ein "legitimer" Wget-Benutzer. Ich benutze es oft, um Debs, Videos, Binaries, was auch immer, zu packen. Es ist einfach, von der Kommandozeile aus zu fahren, also ist es ein großartiger Schaber. Aber das ist definitiv nicht seine einzige Verwendung, und es als Firefox oder msie erscheinen zu lassen, ist nur einen Parameter entfernt, sodass Sie Ihre Zeit damit verschwenden, es zu blockieren. Wenn überhaupt, wenn Sie das tun, werden Sie die Aufmerksamkeit von jedem erregen, der vorbeikommt; Sie ändern die User-Agent-Zeichenfolge und suchen nach dem, was Sie "versteckt" haben.

1
brad sanders