it-swarm.com.de

Kann sich robots.txt im Unterverzeichnis eines Servers befinden?

Ich habe ein Unterverzeichnis, das ich vor den Suchmaschinen-Webcrawlern verstecken möchte.

Eine Möglichkeit, dies zu tun, ist die Verwendung eines robots.txt im Stammverzeichnis des Servers (die Standardmethode). Jeder, der die URL der Website kennt und über grundlegende Webkenntnisse verfügt, kann auf den Inhalt von robots.txt zugreifen und die nicht zulässigen Verzeichnisse erkennen.

Ich habe mir überlegt, wie ich das vermeiden kann, bin mir aber nicht sicher, ob es funktionieren wird.

Sei X der Name des Unterverzeichnisses, das ich ausschließen möchte. Eine Möglichkeit, Web Crawler daran zu hindern, das Verzeichnis X zu indizieren und gleichzeitig die Identifizierung des Verzeichnisses X aus dem Stammverzeichnis robots.txt zu erschweren, besteht darin, das robots.txt in hinzuzufügen Das Verzeichnis X anstelle des Stammverzeichnisses.

Wenn ich dieser Lösung folge, habe ich folgende Fragen:

  1. Finden die Web-Crawler den robots.txt im Unterverzeichnis? (vorausgesetzt, es gibt bereits einen robots.txt und auch im Stammverzeichnis)
  2. Wenn sich robots.txt im Unterverzeichnis X befindet, sollte ich dann relative oder absolute Pfade verwenden ?:

    User-agent: *
    Disallow: /X/
    

    oder

    User-agent: *
    Disallow: /
    
14
Rafael

Nein, Webcrawler lesen oder befolgen keine robots.txt-Datei in einem Unterverzeichnis. Wie auf der quasi-offiziellen robotstxt.org Seite beschrieben:

Wo soll ich es hinstellen?

Die kurze Antwort: im obersten Verzeichnis Ihres Webservers.

oder auf Googles Hilfeseiten ( Hervorhebung meiner):

Eine robots.txt -Datei ist eine Datei im Stammverzeichnis Ihrer Website , die die Teile Ihrer Website angibt, auf die Suchmaschinen-Crawler nicht zugreifen möchten.

In jedem Fall ist es eine schlechte Idee, robots.txt zu verwenden, um sensible Seiten vor Suchergebnissen zu verbergen, da Suchmaschinen Seiten indizieren können, die in robots.txt nicht zulässig sind = wenn andere Seiten auf sie verlinken. Oder wie auf der oben verlinkten Google-Hilfeseite beschrieben:

Sie sollten robots.txt nicht verwenden, um Ihre Webseiten vor den Google-Suchergebnissen zu verbergen. Dies liegt daran, dass andere Seiten möglicherweise auf Ihre Seite verweisen Ihre Seite könnte auf diese Weise indiziert werden und die robots.txt-Datei vermeiden.

Also, was solltest du stattdessen tun?

  • Sie können Suchmaschinen die Seiten crawlen lassen (sofern sie sie finden), aber ein Robots-Meta-Tag mit dem Inhalt noindex,nofollow einfügen. Dies weist Suchmaschinen an, diese Seiten nicht zu indizieren, selbst wenn sie Links zu ihnen finden, und keine weiteren Links von diesen Seiten zu verfolgen. (Dies funktioniert natürlich nur für HTML-Webseiten.)

  • Für Nicht-HTML-Ressourcen können Sie Ihren Webserver konfigurieren (z. B. mithilfe einer .htaccess -Datei), um den X-Robots-Tag-HTTP-Header mit demselben Inhalt zu senden.

  • Sie können die Kennwortauthentifizierung einrichten, um die vertraulichen Seiten zu schützen. Sie schützt die Seiten nicht nur vor unbefugten menschlichen Besuchern, sondern hält auch Webcrawler effektiv fern.

16
Ilmari Karonen

Ihr robots.txt sollte sich im Stammverzeichnis befinden und keinen anderen Namen haben. Nach der Standardspezifikation :

Diese Datei muss über HTTP unter der lokalen URL "/robots.txt" erreichbar sein.

4
Andrew Lott