it-swarm.com.de

Wie lade ich mit wget alle Dateien (aber kein HTML) von einer Website herunter?

Wie benutze ich wget und hole alle Dateien von der Website?

Ich benötige alle Dateien außer den Webseiten-Dateien wie HTML, PHP, ASP usw.

152
Aniruddhsinh

So filtern Sie nach bestimmten Dateierweiterungen:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

Oder, wenn Sie lange Optionsnamen bevorzugen:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

Dadurch wird die Site gespiegelt, aber die Dateien ohne die Erweiterung jpg oder pdf werden automatisch entfernt.

243
Zsolt Botykai

Dies hat die gesamte Website für mich heruntergeladen:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
82
izilotti
wget -m -p -E -k -K -np http://site/path/

man page zeigt Ihnen, was diese Optionen bewirken.

wget folgt nur Links. Wenn auf der Indexseite kein Link zu einer Datei vorhanden ist, weiß wget nichts über ihre Existenz und lädt sie daher nicht herunter. dh Es hilft, wenn alle Dateien auf Webseiten oder in Verzeichnisindizes verlinkt sind.

62
Jesse

Ich habe versucht, Zip-Dateien herunterzuladen, die von Omekas Themenseite verlinkt wurden - ziemlich ähnliche Aufgabe. Das hat bei mir funktioniert:

wget -A Zip -r -l 1 -nd http://omeka.org/add-ons/themes/
  • -A: Akzeptiert nur Zip-Dateien
  • -r: recurse
  • -l 1: eine Ebene tief (dh nur Dateien, die direkt von dieser Seite verlinkt sind)
  • -nd: Erstellen Sie keine Verzeichnisstruktur, laden Sie einfach alle Dateien in dieses Verzeichnis herunter.

Alle Antworten mit den Optionen -k, -K, -E usw. haben die Frage wahrscheinlich nicht wirklich verstanden, wie etwa das Umschreiben von HTML-Seiten, um eine lokale Struktur zu erstellen Umbenennen von .php Dateien und so weiter. Nicht relevant.

So rufen Sie buchstäblich alle Dateien mit Ausnahme von .html etc ab:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
22
Steve Bennett

Sie können versuchen:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

Sie können auch hinzufügen:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,Zip,rar

um die spezifischen Erweiterungen zu akzeptieren oder nur bestimmte Erweiterungen abzulehnen:

-R html,htm,asp,php

oder um bestimmte Bereiche auszuschließen:

-X "search*,forum*"

Wenn die Dateien von Robotern (z. B. Suchmaschinen) ignoriert werden, müssen Sie Folgendes hinzufügen: -e robots=off

7
kenorb

Versuche dies. Es funktioniert immer bei mir

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
5
Suneel Kumar
wget -m -A * -pk -e robots=off www.mysite.com/

dadurch werden alle Dateitypen lokal heruntergeladen und aus der HTML-Datei darauf verwiesen, und die Robots-Datei wird ignoriert

Auf Windows-Systemen um wget zu bekommen darfst du

  1. download Cygwin
  2. download GnuWin32
3
ebinx

Das funktioniert bei mir:

wget -r -np http://yoursite.com/path/
0
Carlo Carandang