it-swarm.com.de

Robots.txt übt mit .htaccess-Umleitungen (Erben)

Ich habe eine Frage zum Schreiben von robots.txt-Dateien für viele Domänen und Unterdomänen mit vorhandenen Umleitungen.

Wir haben ein Hosting-Konto, das Primär- und Add-On-Domains verwaltet. Alle unsere Domänen und Unterdomänen, einschließlich der Primärdomäne, werden über HTAccess 301s in ihre eigenen Unterverzeichnisse im Stammverzeichnis der Primärdomäne umgeleitet.

Ich bin verwirrt darüber, wie ich die robots.txt für bestimmte Verzeichnisse schreiben würde. Zunächst wollte ich bestätigen, dass ich richtig verstehe, dass Crawler für Domänen nd Subdomänen nach dem Verzeichnis suchen, das als URL-Stammverzeichnis für die Crawlerregeln fungiert (robots.txt). Außerdem wird ein Verzeichnis nicht von einer robots.txt-Datei im übergeordneten Verzeichnis beeinflusst, wenn das Verzeichnis eine eigene Domäne/Unterdomäne hat und Crawler auf diese URL zugreifen. (Bin mir ziemlich sicher, aber ich wollte bestätigen, dass ich kein grundlegend fehlerhaftes Verständnis von robots.txt hatte.)

Was sollte die robots.txt im ursprünglichen Stammverzeichnis des Kontos (in dem die primäre Domäne vor der Einrichtung von htaccess festgelegt wurde) enthalten? Wenn Crawler unsere primäre Domain crawlen möchten, suchen sie dann im ursprünglichen Stammverzeichnis nach robots.txt oder verweisen sie auf die Datei im neuen Unterverzeichnis, in dem sich alle Site-Dateien der primären Domain befinden? Wenn ja, was sollte die robot.txt des Roots enthalten, wenn überhaupt?.

Wäre es richtig, ein einfaches 'disallow: /' für alle Agenten einzufügen und dann spezifischere robots.txt-Dateien in jedes Unterverzeichnis mit spezifischeren Anweisungen aufzunehmen. Würde sich das auf das Crawlen des Verzeichnisses auswirken, in das die primäre Domäne jetzt umgeleitet wird?

Jede Hilfe wird sehr geschätzt, danke!

1
Jayhal

Das erste, was Sie sagen müssen, ist, dass die Crawler Ihre Dateistruktur nicht kennen. Sie fragen einfach nach domain.com/robots.txt oder sub.domain.com/robots.txt und erhalten die Datei, für deren Rückgabe Ihr Server konfiguriert ist.

Also zu antworten

Wenn Crawler unsere primäre Domain crawlen möchten, suchen sie dann im ursprünglichen Stammverzeichnis nach robots.txt oder verweisen sie auf die Datei im neuen Unterverzeichnis, in dem sich alle Site-Dateien der primären Domain befinden?

sie werden im neuen Unterverzeichnis suchen.

Sie benötigen also keine robots.txt in Ihrem Dateisystem-Stammverzeichnis, da die Crawler keinen Zugriff darauf haben.

Um jedoch zu überprüfen, ob ich Ihre Situation richtig verstehe, ist es hilfreich, die Zugriffsregel zu kennen, die Sie zum Umleiten der primären Domäne verwenden.

1
paulmorriss