it-swarm.com.de

Erlaube allen Robotern robots.txt

In meiner robots.txt -Datei habe ich eine Liste von Robotern, die auf meiner Site nicht indiziert werden dürfen, und für den Rest muss ich alle anderen Roboter zulassen, aber ich möchte den wirklichen Unterschied kennen zwischen diesen beiden Regeln:

User-agent: *
Disallow:

und das:

User-agent: *
Allow: /
4
Yasmina Saraya

Allow ist laut Wikipedia kein Standard: http://en.wikipedia.org/wiki/Robots.txt .

7
michael667
User-agent: *
Disallow: /

Die obige Anweisung weist die Roboter an, nichts zu crawlen, das mit dem URL-Pfad übereinstimmt. Mit der obigen Anweisung crawlen andere Googlebot-Suchmaschinen-Bots nicht Ihre gesamte Website.

User-agent: *
Allow: /

Die obige sagt, dass alles erlaubt ist. Alle aufgerufenen Bots, einschließlich Googlebot, dürfen die Website crawlen.

2
Nishi

Um das Crawlen zuzulassen, haben Sie einige Optionen. Die deutlichste und am weitesten verbreitete Unterstützung ist:

User-agent: *
Disallow:

Um es zu paraphrasieren, bedeutet es: "Alle Benutzeragenten haben nichts unzulässig, sie können alles crawlen." Dies ist die Version von "Alle Crawler zulassen", die unter robotstxt.org aufgeführt ist.


Eine andere Möglichkeit ist, keine robots.txt-Datei zu haben . Wenn Roboter bei /robots.txt auf einen 404-Fehler stoßen, gehen sie davon aus, dass das Crawlen nicht eingeschränkt ist.


Ich würde nicht empfehlen, Allow: Direktiven in robots.txt zu verwenden. Nicht alle Crawler unterstützen sie. Wenn Sie über die Anweisungen Allow: und Disallow: verfügen, hat die Regel mit der längsten Übereinstimmung Vorrang vor der ersten oder letzten Übereinstimmungsregel. Dies verkompliziert den Prozess drastisch. Wenn Sie "Zulassen" verwenden, testen Sie Ihre robots.txt-Datei unbedingt mit einem Testtool wie eines von Google .

1