it-swarm.com.de

Ist es möglich, eine gesamte Website für Google zu blockieren und dann Ausnahmen aufzulisten?

Normalerweise verbiete ich Unterverzeichnisse in der robots.txt-Datei und fragte mich, ob es möglich ist, es anders zu machen: Blockiere alles und liste die Hauptindexdatei und die anderen Seiten auf, die Suchmaschinen indizieren sollen. Ist das möglich?

Meine aktuelle robots.txt lautet wie folgt:

User-agent: *
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: /example/
Disallow: yea.html
Allow: /
5
Renan

Ja. Sie können zuerst alles deaktivieren und dann zulassen, dass die Ordner, die indiziert werden sollen.

User-agent: *
Disallow: /
Allow: /index.html
Allow: /example/
Allow: /example2/
Allow: /example3/

Der Grund dafür ist, dass Google (und Bing) beim Lesen von robots.txt-Dateien CSS-spezifischen Regeln folgen, wobei spezifischere Regeln Vorrang vor weniger spezifischen Regeln haben. Aus der robots.txt-Dokumentation von Google :

"... für Zulassen- und Nichtzulassen-Anweisungen ist die spezifischste Regel, die auf der Länge des [Pfad] -Eintrags basiert, wichtiger als die weniger spezifische (kürzere) Regel. Die Rangfolge für Regeln mit Platzhaltern ist nicht definiert."

Sie geben eine Tabelle mit Beispielen auf dieser Seite. Beachten Sie, dass die Reihenfolge der Regeln keinen Einfluss darauf hat, wie sie interpretiert werden. Nur die Länge von ihnen ist von Bedeutung. Sie können die "Disallow" -Regel in meinem obigen Beispiel am Ende der Datei einfügen, und sie würde weiterhin wie beabsichtigt funktionieren.

Vergessen Sie nicht, Testen Sie Ihre robots.txt-Datei mit Google Webmaster-Tools :

So testen Sie die robots.txt-Datei einer Site:

  1. Klicken Sie auf der Homepage der Webmaster-Tools auf die gewünschte Site.
  2. Klicken Sie unter Site configuration auf Crawler access
  3. Wenn es noch nicht ausgewählt ist, klicken Sie auf die Registerkarte Test robots.txt.
  4. Kopieren Sie den Inhalt Ihrer robots.txt-Datei und fügen Sie ihn in das erste Feld ein.
  5. Listen Sie im Feld URLs die Site auf, gegen die getestet werden soll.
  6. Wählen Sie in der Liste Benutzeragenten die gewünschten Benutzeragenten aus.
7
Nick