it-swarm.com.de

Wie hat Google es geschafft, meine 403 Seiten zu crawlen?

Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie konnten sehen, dass die Dateien existierten, indem Sie zu myschool.edu/myusername/myfolder gingen, aber beim Versuch, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wurde ein 403-Fehler zurückgegeben.

Und dennoch hat Google es irgendwie geschafft, den Inhalt dieser privaten Dateien zu erfassen und in seinem Cache zu speichern! Wie ist das möglich? [Ich habe diese Dateien inzwischen entfernt, daher bin ich nur gespannt, wie Google dies geschafft hat.]

10
grautur

Der wahrscheinlichste Grund ist, dass die Seiten keinen 403-Header zurückgeben.

Sie können dies mit der Web Developer Toolbar in Firefox oder Chrome überprüfen. Das Tool befindet sich unter "Information" -> "View Response Headers".

Außerdem erstelle ich meine Fehlerseiten folgendermaßen:

  1. Ich erstelle eine Dummy-Fehlerseite. Sagen wir 403.php.
  2. Ich erstelle eine aktuelle Fehlerseite. Zum Beispiel error403.php.
  3. Auf der Dummy-Fehlerseite habe ich den folgenden Code eingefügt: <?php header("Location: /error403.php",TRUE,301); ?>
  4. In meinem .htaccess habe ich Folgendes eingetragen:

    Options -Indexes

    ErrorDocument 403 /403.php

Dadurch werden alle Weiterleitungen ordnungsgemäß hinzugefügt, und ich kann sicher sein, dass meine Fehlerseiten Saft enthalten.

Dies kann auf sehr coole Weise erweitert werden, wenn Ihre Website über eine Suchmaschine verfügt, die GET-Anforderungen verwendet.

5
Vergil Penkov