it-swarm.com.de

Laden Sie ALLE Ordner, Unterordner und Dateien mit Wget herunter

Ich habe Wget verwendet und bin auf ein Problem gestoßen. Ich habe eine Site, die mehrere Ordner und Unterordner innerhalb der Site hat. Ich muss den gesamten Inhalt in jedem Ordner und Unterordner herunterladen. Ich habe verschiedene Methoden mit Wget ausprobiert, und wenn ich den Abschluss überprüfe, sehe ich in den Ordnern nur eine "Index" -Datei. Ich kann auf die Indexdatei klicken, und es wird mich zu den Dateien führen, aber ich brauche die tatsächlichen Dateien.

hat jemand einen Befehl für Wget, den ich übersehen habe, oder gibt es ein anderes Programm, mit dem ich all diese Informationen abrufen könnte?

standortbeispiel:

www.mysite.com/Pictures/ Im Pictures DIr gibt es mehrere Ordner .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

Ich brauche alle Dateien, Ordner usw.

17
Horrid Henry

Ich möchte annehmen, dass Sie dies nicht versucht haben:

wget -r --no-parent http://www.meinesite.com/bilder/

oder um den Inhalt abzurufen, ohne die "index.html" -Dateien herunterzuladen:

wget -r --no-parent --reject "index.html *" http://www.meinesite.com/bilder/

Referenz: Mit wget ein Verzeichnis mit beliebigen Dateien rekursiv abrufen

31
Felix Imafidon

Ich benutze wget -rkpN -e robots=off http://www.example.com/

-r bedeutet rekursiv

-k bedeutet Links konvertieren. Die Links auf der Webseite lauten also localhost anstelle von example.com/bla

-p bedeutet, dass alle Webseitenressourcen abgerufen werden, sodass Bilder und Javascript-Dateien abgerufen werden, damit die Website ordnungsgemäß funktioniert.

-N dient zum Abrufen von Zeitstempeln. Wenn also lokale Dateien neuer sind als Dateien auf der Remote-Website, überspringen Sie diese.

-e ist eine Flag-Option, die vorhanden sein muss, damit der robots=off funktioniert.

robots=off bedeutet, dass die Roboterdatei ignoriert wird.

Ich hatte auch -c in diesem Befehl, also wenn die Verbindung unterbrochen wurde, würde ich dort weitermachen, wo es aufgehört hat, als ich den Befehl erneut ausführte. Ich dachte, -N würde gut zu -c passen

14
Tim Jonas

wget -m -A * -pk -e robots = off www.mysite.com/ Damit werden alle Arten von Dateien lokal heruntergeladen und aus der HTML-Datei darauf verwiesen
und es wird die Roboterdatei ignoriert