it-swarm.com.de

Wie funktioniert robots.txt mit Sites in Unterordnern?

Ich habe einen einzelnen Webhost mit einer Reihe anderer geparkter Domains/Sites in Unterverzeichnissen, wie folgt:

example.com ist die primäre Site und das Stammverzeichnis des Webhostings.

example.com/www.example2.com ist eine der geparkten Sites, aber nur ein Unterordner der primären Site.

Sowohl www.example2.com als auch www.example.com/www.example2.com sind als derselbe Inhalt zugänglich, aber ich möchte den Zugriff auf den späteren sperren und gleichzeitig den Zugriff auf den ersteren erlauben.

Ermöglicht eine robots.txt-Datei auf der primären Site das Crawlen von www. * www.example2.com?

1
Coomie

Ich denke, was Sie suchen, ist ein robots.txt-Eintrag wie dieser:

User-agent: *
Disallow: /www.example2.com

Nehmen wir an, Sie haben mehr als 100 "geparkte" exampleNR.com-URLs, möchten jedoch nicht für jede einzelne Zeile eine Zeile schreiben. Verwenden Sie dazu Folgendes:

User-agent: *
Disallow: /www.example

Das Problem ist, dass es tatsächlich nicht offiziell unterstützt wird , aber viele Roboter wie Googlebot sind in der Lage, diese einfachen Platzhalter zu verstehen. RegEx werden definitiv nicht unterstützt. zur zusätzlichen Information

UPDATE

Das nachfolgende Sternchen wurde gelöscht, da robots.txt ohnehin eine einfache Präfixzuordnung verwendet. Vielen Dank für Ihre Aufmerksamkeit, w3dk

2
Hello Fishy