it-swarm.com.de

Ignoriert Google robots.txt?

Ich weiß, dass hier www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.1 Spinnen immer die robots.txt überprüfen, bevor sie zur Seite gehen. Vor kurzem wurde mir jedoch mitgeteilt, dass Google jede einzelne URL durchsucht, die es auf einer Website findet, und dann die robots.txt-Datei überprüft und herausfiltert, was nicht zulässig ist. Ist das wahr?

3
JoeS

Google sieht weiterhin Websites, die von _robots.txt_ blockiert wurden, und listet sie möglicherweise sogar in den Suchergebnissen auf.

Dies ist insbesondere dann der Fall, wenn ganze Domains/Subdomains gesperrt sind. Google listet diese Links zusammen mit dem Text auf. Eine Beschreibung für dieses Ergebnis ist aufgrund der robots.txt-Datei dieser Website nicht verfügbar. Weitere Informationen erhalten Sie mit einem Link zu https://support.google.com/webmasters/answer/156449 .

google robots results

Sie teilen uns mit, dass sie den Inhalt von Seiten, die von _robots.txt_ blockiert wurden, zwar nicht crawlen oder indizieren, die URLs jedoch möglicherweise indizieren, wenn wir an anderer Stelle Links zu ihnen finden. Sie geben auch diesen hilfreichen Rat:

Verwenden Sie ein noindex meta tag oder x-robots-tag , um zu verhindern, dass der Inhalt einer Seite im Google-Webindex aufgeführt wird, auch wenn andere Websites darauf verweisen. Solange Googlebot die Seite abruft, wird das Meta-Tag noindex angezeigt und verhindert, dass diese Seite im Webindex angezeigt wird. Der HTTP-Header x-robots-tag ist besonders nützlich, wenn Sie die Indizierung von Nicht-HTML-Dateien wie Grafiken oder anderen Dokumenttypen einschränken möchten.

Wenn Sie also wirklich nicht möchten, dass Ihre Seiten indiziert werden, stellen Sie sicher, dass Sie ein META-Tag oder einen HTTP-Header verwenden. Ich habe festgestellt, dass <meta name="robots" content="noindex, nofollow"> besonders hilfreich für Back-End-Administrationsbereiche und Kontrollfelder ist, wenn ich _Disallow: /admin_ nicht vertraue.

3
Andrew Lott

Google ignoriert robots.txt nicht. Wenn Sie feststellen, dass Googlebot eine von robots.txt blockierte Seite crawlt, sollten Sie dies Google im "Crawling, Indexierung und Ranking" -Produktforum melden .

In einigen Fällen sieht es so aus, als würde Googlebot robots.txt missachten:

  • Die robots.txt -Datei wurde kürzlich aktualisiert. Googlebot ruft sie möglicherweise nur einmal am Tag ab.
  • Ein Roboter behauptet, Googlebot zu sein, wird jedoch nicht von Google ausgeführt. - So verifizieren Sie Googlebot
  • In Ihrer robots.txt -Datei ist ein Fehler aufgetreten. - Teste es in Google Webmaster Tools
  • Eine Seite wird auch dann in den Suchergebnissen aufgeführt, wenn sie blockiert ist. Google listet möglicherweise Seiten auf, die sich in robots.txt befinden, wenn mehrere externe Links zu ihnen vorhanden sind. In diesem Fall durchsucht Googlebot die Seite nicht, sondern verwendet Informationen von Drittanbietern (z. B. Linktext), um zu bestimmen, worum es auf der Seite geht.

Obwohl Google gut darin ist, robots.txt zu folgen, sind nicht alle Webcrawler so freundlich. Es ist nicht ungewöhnlich, dass andere, weniger gut erzogene Roboter blockierte Seiten crawlen.

6

Google indiziert möglicherweise die URL, aber nicht den Inhalt einer Seite, wenn diese durch robots.txt oder eine Robots-Meta-Direktive eingeschränkt ist. Dies bedeutet, dass nirgendwo anders im Web auf dasselbe Ziel verwiesen wird, ohne dass eine nofollow -Verbindungsbeziehung besteht.

Lesen Sie mehr darüber, wie Google auf Roboter hört hier .

2
zigojacko

robots.txt sind die Anweisung, nicht der Zwang. Google indiziert normalerweise die Seite, die Sie in robots.txt blockiert haben, insbesondere dann, wenn Sie Links haben, die auf eine blockierte Seite verweisen. Auch wenn diese Seite kein Index-Tag hat und Links keine folgenden Tags haben.

MattCutt hat dies in seinem offiziellen Video gesagt und er gab das Beispiel von Ebay und White House Gov Websites. Vor ein paar Jahren hatten sie die Suchmaschinen blockiert, aber aufgrund einer großen Anzahl von Anfragen musste Google die Websites crawlen und indizieren. Jetzt ist es eine normale Praxis von Google. Ich denke, unten ist das Video, über das ich spreche. http://www.mattcutts.com/blog/robots-txt-remove-url/

Wenn Sie Google blockieren möchten, versuchen Sie es mit .htaccess oder Passwort usw.

0
muhammad usman