it-swarm.com.de

Wie kann ich meine Website archivieren (für historische Aufzeichnungen)?

Wenn ich eine Website starte, auf der Tausende von Seiten mit Inhalten (Text) angezeigt werden, die dynamisch aus Daten in einer Datenbank stammen, und ich möchte, dass eine Art Aufzeichnung nachweist, dass diese Daten (zu diesem Datum) veröffentlicht wurden, kann ich sie in der verwenden Zukunft, welche Möglichkeiten gibt es?

Ich habe einen kommerziellen Webarchivierungsdienst gesehen, der 15 US-Dollar pro Seite (!) Berechnet. Ich verstehe, dass Sie Software selbst auf dem Server ausführen können, bin mir jedoch nicht sicher, wie dies mit dynamisch generierten Seiten funktioniert. Reicht das Sichern der Datenbank (mit einer Art Zeitstempel und Sicherung) aus? Müssen Sie dann nachweisen, dass Ihre App funktioniert und die Website ebenfalls verfügbar ist? Was sind die Alternativen?

3
Dan MacBean

Das Sichern der Datenbank reicht nicht aus, da Sie nicht nachweisen können, dass der Inhalt der Datenbank auf den Seiten angezeigt wurde.

Wenn die dynamisch generierten Seiten für jeden Benutzer gleich aussehen und nicht von Auswahloptionen für Listen abhängen, die dann abhängig von diesen Optionen Seiten generieren, können Sie Spidering-Software verwenden. Es wird ein Schnappschuss der Seiten erstellt, wie sie beim Anzeigen erschienen sind.

Ich benutze wget für so etwas. Es ist ein Kommandozeilen-Tool mit einer unheimlichen Anzahl von Optionen. Der Vorteil eines Befehlszeilentools besteht jedoch darin, dass Sie es automatisch so oft ausführen können, wie Sie möchten. Um Sie zum Laufen zu bringen, verwende ich die folgende Methode, um einen Snapshot einer Site zu erstellen:

"c:\program files\wget\wget" -k -p -r -X video -w 1 http://example.com

video ist ein Verzeichnis, von dem ich keinen Schnappschuss machen möchte. -w 1 bedeutet, dass Sie zwischen den einzelnen Seiten eine Sekunde warten müssen, damit ich die Site nicht mit den Fingern hämmere. -k bedeutet, dass die Links in den heruntergeladenen Dateien so konvertiert werden, dass sie funktionieren, wenn Sie diese Dateien erneut öffnen und nicht zur ursprünglichen Website zurückkehren. -p lädt alle auf einer Seite verwendeten Dateien herunter, z. images -r bedeutet rekursiv, folgt also allen Links, die sich auf der Site befinden

3
paulmorriss

Was ich tun würde, wenn ich alles, was ich auf meiner Website veröffentliche, archivieren möchte, ist, den Inhalt tatsächlich in eine Datei zu schreiben, die der dynamisch erstellten Site ähnelt. Dann würde ich wöchentlich Backups aller erstellten Dateien machen.

Am einfachsten ist es, eine Sicherungskopie der Datenbank zu erstellen oder sogar eine zweite Datenbank zu haben, in der bei jeder Veröffentlichung eine genaue Kopie gesendet wird.

0
xyious