it-swarm.com.de

Wie kann ich den archive.org-Bot richtig (deaktivieren)? Hat sich etwas geändert, wenn ja, wann?

Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren lassen möchte, aber ich möchte sie auf archive.org für immer aufbewahren. Also beginnt mein robots.txt damit:

User-agent: *
Disallow: /

Heute muss ich laut archive.org Folgendes in meinen robots.txt einfügen, um ihre Bots zuzulassen:

User-agent: ia_archiver
Disallow:

Aber ich hatte bereits vor ein paar Jahren das getan, was sie angedeutet hatten, zumindest habe ich Folgendes hinzugefügt:

User-agent: archive.org_bot
Disallow:

Dann gibt es eine andere Quelle behauptet, dass Sie die beiden obigen Disallows plus eine weitere hinzufügen müssen:

User-agent: ia_archiver-web.archive.org 
Disallow:

Beachten Sie, dass Sie Disallow: / setzen müssen, wenn Sie nicht ​​möchten, dass der Bot Ihre Site archiviert.

Hat sich am IA-Bot etwas geändert? Wenn ja wann

Was ist der empfohlene Weg? Sollte ich nur alle drei erst einmal zulassen und hoffen, dass IA ihren Bot-Namen in Zukunft nicht mehr ändert?

9
guaka

Update : Wie @KevinFegan in den Kommentaren vermerkt, wurde die Dokumentation geändert. Der folgende Teil beschreibt, wie das Internetarchiv in der Vergangenheit damit umgegangen ist (mindestens 2014).


Ihre FAQ Wie kann ich die Seiten meiner Site vom Wayback-Rechner ausschließen lassen? verweist auf Entfernen von Dokumenten von der Wayback-Maschine , welche Dokumente ihr Bot ia_archiver nennt.

Dieser Datensatz sollte es dem Bot ermöglichen, Ihre gesamte Site zu crawlen:

User-agent: ia_archiver
Disallow:
7
unor

Update 2017

Der Archiv-Bot kümmert sich jetzt nicht mehr um Ihre robots.txt.

Wenn Sie es wirklich blockieren möchten, senden Sie ihnen eine E-Mail gemäß dieser Seite oder blockieren Sie ihre IP-Adresse über htaccess.

3
Goyllo

Der Eintrag "robots.txt ia_archiver Disallow" (mit dem "/") sollte für die von Ihnen beschriebene Notwendigkeit in Ordnung sein ("für die Ewigkeit aufbewahren", aber noch nicht öffentlich).

Ich habe gerade einen kurzen Test durchgeführt und den Eintrag ia_archiver Disallow für eine Site auskommentiert, auf der er seit mindestens 10 Jahren vorhanden ist. Dann habe ich die Seite auf archive.org/web nachgeschlagen und es wurden Preise angezeigt, die 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 und 2017 gesammelt wurden! Dies bedeutet, dass Archive.org in diesen Jahren die Aussage, dass es sich um ein "Nicht archivieren" -Statement handelte, nie strikt beachtete, sondern lediglich die archivierten Kopien nicht offenlegte.

3
mike
  1. "ia_archiver" wird jetzt (ab) von Alexa verwendet, einige Quellen sagen: 1 , 2 .
  2. Archive.org respektiert jetzt (2018) NICHT mehr die "robots.txt". . Nicht nur für mil/gov-Seiten, sondern für alle Seiten. Wie ich mit meiner eigenen privaten Website erlebt habe, die seit 2012 eine ia-exklusive robots.txt hat und hatte; und jetzt habe ich plötzlich herausgefunden, dass es von ihnen all die Jahre gecrawlt und gerettet wurde und jetzt ist die ganze Geschichte sichtbar. Es ist ein Gefühl von Verrat. > :-(
2
Carl