it-swarm.com.de

Wie konfiguriere ich robots.txt so, dass alles erlaubt ist?

Mein robots.txt in den Google Webmaster-Tools zeigt die folgenden Werte an:

User-agent: *
Allow: /

Was heißt das? Ich habe nicht genug Wissen darüber und suche deine Hilfe. Ich möchte allen Robotern erlauben, meine Website zu crawlen. Ist dies die richtige Konfiguration?

110
Raajpoot

Diese Datei ermöglicht allen Crawlern den Zugriff

User-agent: *
Allow: /

Dies ermöglicht grundsätzlich allen Benutzeragenten (das *), auf alle Teile der Site (das /) zuzugreifen.

144
Jim

Wenn Sie jedem Bot erlauben möchten, alles zu crawlen, geben Sie dies am besten in Ihrer robots.txt an:

User-agent: *
Disallow:

Beachten Sie, dass das Feld Disallow einen leeren Wert hat. Dies bedeutet gemäß der Spezifikation :

Jeder leere Wert gibt an, dass alle URLs abgerufen werden können.


Dein Weg (mit Allow: / anstatt Disallow:) funktioniert auch, aber Allow ist nicht Teil der original robots.txt Spezifikation , daher wird es nicht von allen Bots unterstützt (viele populäre unterstützen es jedoch, - wie der Googlebot ). Das heißt, nicht erkannte Felder müssen ignoriert werden, und für Bots, die Allow nicht erkennen, wäre das Ergebnis in diesem Fall sowieso dasselbe: Wenn nichts verboten ist, gecrawlt zu werden (mit Disallow) darf alles gecrawlt werden.
Formal (gemäß der ursprünglichen Spezifikation) handelt es sich jedoch um einen ungültigen Datensatz, da mindestens ein Disallow -Feld erforderlich ist:

In einem Datensatz muss mindestens ein Disallow-Feld vorhanden sein.

50
unor

Ich verstehe, dass dies eine ziemlich alte Frage ist und einige ziemlich gute Antworten hat. Aber hier sind meine zwei Cent der Vollständigkeit halber.

Gemäß der offiziellen Dokumentation gibt es vier Möglichkeiten, den Robotern den vollständigen Zugriff auf Ihre Site zu ermöglichen.

Reinigen :

Geben Sie einen globalen Matcher mit einem nicht zulässigen Segment an, wie von @unor erwähnt. Also dein /robot.txt sieht aus wie das.

User-agent: *
Disallow:

Der Hack:

Ein ... kreieren /robot.txt Datei ohne Inhalt. Das erlaubt standardmäßig alle für alle Arten von Bots.

Es ist mir egal, wie:

Erstelle kein /robot.txt Insgesamt. Welches sollte genau die gleichen Ergebnisse wie die beiden oben liefern.

Das hässliche :

Aus der Roboterdokumentation für Meta-Tags können Sie das folgende Meta-Tag auf allen Ihren Seiten Ihrer Site verwenden, um dem Bots mitzuteilen, dass diese Seiten nicht indiziert werden sollen.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Damit dies auf Ihre gesamte Website angewendet wird, müssen Sie dieses Meta-Tag für alle Ihre Seiten hinzufügen. Und dieses Tag sollte unbedingt unter Ihrem HEAD -Tag der Seite platziert werden. Mehr zu diesem Meta-Tag hier .

15
Raja Anbazhagan

Es bedeutet, dass Sie jedem (*) Benutzeragent/Crawler für den Zugriff auf das Stammverzeichnis (/) Ihrer Website. Du bist inordnung.

7
Jordi