it-swarm.com.de

Google CSE hat robots.txt selbst indiziert

Google CSE hat robots.txt indiziert. Wenn nun jemand nach "txt" sucht, wird die robots.txt -Datei zurückgegeben, die wirklich nicht ideal ist (da es sich um eine standardmäßige Drupal - Site handelt) string robots.txt erscheint tatsächlich im Text). Wie kann ich das vermeiden? Gibt es irgendwo in Google eine Einstellung oder sollte ich /robots.txt zu erm, robots.txt oder ... hinzufügen?

5
chx

Sie könnten dies zu robots.txt hinzufügen:

Disallow: /robots.txt

In Was ist, wenn sich robots.txt selbst nicht erlaubt? Googles John Mueller sagt:

Dies würde sich nur auswirken, wenn ein Link auf die robots.txt verweist und Google den Inhalt der robots.txt-Datei andernfalls indiziert. Das wäre nicht möglich, wenn robots.txt dies nicht zulässt.

Es scheint also, dass das Hinzufügen einer Verbotsregel in robots.txt für robots.txt selbst dazu beitragen kann, dass robots.txt nicht indiziert wird, ohne dass Googlobot die Datei abruft, um zu sehen, was nicht erlaubt ist.

Eine andere Möglichkeit wäre das Hinzufügen eines HTTP-Headers zu robots.txt, der die Indizierung verhindert. Dies wäre eine ähnliche Lösung für das Problem Verhindern, dass XML-Sitemaps in den Google-Suchergebnissen angezeigt werden . Sie möchten, dass der folgende HTTP-Header für robots.txt bereitgestellt wird:

X-Robots-Tag: noindex

Unter Apache würden Sie es mit diesem .htaccess-Code implementieren:

<Files ~ "robots\.txt$">
  Header append X-Robots-Tag "noindex"
</Files>
4