it-swarm.com.de

Was bedeutet "Disallow: / search" in robots.txt?

Im Google Webmaster-Tools-Bereich meines Blogs habe ich in meinem Abschnitt robots.txt der blockierten URLs den folgenden Code gefunden.

User-agent: Mediapartners-Google
Disallow: /search
Allow: /

Ich weiß, dass Disallow den Googlebot daran hindert, eine Webseite zu indizieren, aber ich verstehe die Verwendung von Disallow: /search nicht.

Was ist die genaue Bedeutung von Disallow: /search?

6
Sathiya Kumar

Im Feld Disallow geben Sie den Anfang der URL-Pfade von URLs an, die blockiert werden sollen.

Wenn Sie also Disallow: / haben, blockiert alles , da jeder URL-Pfad mit / beginnt.

Wenn Sie Disallow: /a haben, werden alle URLs blockiert, deren Pfade mit /a beginnen. Das könnte /a.html, /a/b/c/hello oder /about sein.

Wenn Sie Disallow: /search haben, werden alle URLs blockiert, deren Pfade mit der Zeichenfolge /search beginnen. So würden beispielsweise die folgenden URLs blockiert (wenn sich die robots.txt in http://example.com/ befindet):

  • http://example.com/search
  • http://example.com/search.html
  • http://example.com/searchengine
  • http://example.com/search/
  • http://example.com/search/index.html

Während die folgenden URLs noch erlaubt wären:

  • http://example.com/foo/search
  • http://example.com/sea

Beachten Sie, dass robots.txt nicht weiß/stört, ob die Zeichenfolge mit einem Verzeichnis, einer Datei oder gar nichts übereinstimmt. Es werden nur die Zeichen in der URL angezeigt.

10
unor

In anderen Antworten wird erläutert, wie robots.txt verarbeitet wird, um diese Regel anzuwenden. Behandeln Sie jedoch nicht warum Sie möchten verhindern, dass Bots Ihre Suchergebnisse crawlen.

Ein Grund könnte sein, dass die Generierung Ihrer Suchergebnisse teuer ist. Wenn Bots angewiesen werden, diese Seiten nicht zu crawlen, kann dies die Belastung Ihrer Server verringern.

Suchergebnisseiten sind auch keine großartigen Zielseiten. Eine Suchergebnisseite enthält normalerweise nur eine Liste von 10 Seiten Ihrer Website mit Titeln und Beschreibungen. Benutzer werden im Allgemeinen besser bedient, wenn sie direkt zu den relevantesten dieser Seiten gehen. In der Tat, Google hat gesagt dass sie nicht möchten, dass Ihre Website-Suchergebnisse von Google indiziert werden. Wenn Sie dies nicht zulassen, kann Google Ihre Website strafbar machen.

2

Da das OP in seinen Kommentaren anzeigte, dass er nur am "/ search directory" interessiert war, beziehe ich mich auf die Ablehnung nur eines "search" -Verzeichnisses:

Das Folgende ist eine Anweisung für Robots, die nicht etwasnamens "search" crawlen sollen, das sich im Stammverzeichnis befindet:

Disallow: /search

Gemäß dem folgenden Hilfedokument für Google Webmaster-Tools sollten Verzeichnisnamen mit einem Schrägstrich / fortgesetzt und gefolgt werden, wie auch in den anderen folgenden Referenzquellen angegeben:

Google Webmaster-Tools - Sperren oder Entfernen von Seiten mithilfe einer robots.txt-Datei

Um ein Verzeichnis und alles darin zu blockieren, folgen Sie dem Verzeichnisnamen mit einem Schrägstrich. Disallow: /junk-directory/

Robotstxt.org - Was drin stecken

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

In this example, three directories are excluded.

Wikipedia - Ausschlussstandard für Roboter

This example tells all robots not to enter three directories:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Nach Angaben von Google (wie oben kopiert) können Bots mit dem User-Agent Mediapartners-Google das Verzeichnis "search" im Stammverzeichnis nicht crawlen. aber lassen Sie alle anderen Verzeichnisse gecrawlt werden:

User-agent: Mediapartners-Google
Disallow: /search/
Allow: /
1
dan

Er weist AdSense an, keine Dateien im Verzeichnis /search oder darunter (d. H. Alle Unterverzeichnisse von /search) zu crawlen.

1
John Conde

dies bedeutet, dass der Benutzeragent Mediapartners-Google nicht in eines der Verzeichnisse unter /search wechseln darf.

/search/go blocked
/search blocked
/ not blocked.
1
alex jones