it-swarm.com.de

Zwischenspeichert Google robots.txt?

Ich habe vor einer Woche eine robots.txt -Datei zu einer meiner Websites hinzugefügt. Dies hätte verhindern sollen, dass Googlebot versucht, bestimmte URLs abzurufen. An diesem Wochenende kann ich jedoch sehen, dass Googlebot genau diese URLs lädt.

Puffert Google robots.txt und wenn ja, sollte es?

17
Quog

Ich würde dringend empfehlen, Ihre Website bei Google Search Console (zuvor Google Webmaster Tools) zu registrieren. Unter der Site-Konfiguration befindet sich ein Crawler-Zugriffsabschnitt, in dem angegeben wird, wann Ihre robots.txt zuletzt heruntergeladen wurde. Das Tool bietet auch viele Details dazu, wie die Crawler Ihre Website sehen, was blockiert ist oder nicht funktioniert und wo Sie in Google-Abfragen angezeigt werden.

Nach allem, was ich sagen kann, lädt Google die robots.txt oft herunter. Auf der Google Search Console-Website können Sie auch URLs gezielt aus dem Index entfernen, sodass Sie diejenigen entfernen können, die Sie jetzt blockieren.

13
danivovich

Beharren. Ich habe von robots.txt zu meta noindex gewechselt, nofollow. Damit das Meta funktioniert, mussten die gesperrten Adressen in robots.txt erst entsperrt werden.

Ich habe das brutal getan, indem ich die robots.txt komplett gelöscht habe (und sie in Googles Webmaster gelöscht habe).

Das Entfernen von robots.txt im Webmaster-Tool (Anzahl der blockierten Seiten) dauerte 10 Wochen, von denen der Großteil in den letzten 2 Wochen nur von Google entfernt wurde.

3
araldh

Googles Dokumentation besagt dass sie normalerweise robots.txt für einen Tag zwischenspeichern, es aber möglicherweise länger verwenden, wenn sie es bekommen Fehler beim Versuch, es zu aktualisieren.

Eine robots.txt-Anforderung wird im Allgemeinen bis zu einem Tag zwischengespeichert, kann jedoch in Situationen länger zwischengespeichert werden, in denen das Aktualisieren der zwischengespeicherten Version nicht möglich ist (z. B. aufgrund von Zeitüberschreitungen oder 5xx-Fehlern). Die zwischengespeicherte Antwort kann von verschiedenen Crawlern gemeinsam genutzt werden. Google kann die Cache-Lebensdauer basierend auf maximal veralteten HTTP-Headern für die Cache-Steuerung verlängern oder verkürzen.

2

Ja, Google wird offensichtlich robots.txt bis zu einem gewissen Grad zwischenspeichern - es wird nicht jedes Mal heruntergeladen, wenn eine Seite angezeigt werden soll. Wie lange es es zwischenspeichert, weiß ich nicht. Wenn Sie jedoch einen langen Expires-Header festgelegt haben, kann es sein, dass Googlebot die Datei viel länger überprüft.

Ein weiteres Problem könnte eine falsch konfigurierte Datei sein. In den von danivovich vorgeschlagenen Webmaster-Tools gibt es einen robots.txt Checker. Hier erfahren Sie, welche Seitentypen gesperrt sind und welche in Ordnung sind.

2
DisgruntledGoat

Ja. Sie sagen, dass sie es in der Regel einmal am Tag aktualisieren, aber einige haben vorgeschlagen, dass sie es möglicherweise auch nach einer bestimmten Anzahl von Seitenzugriffen (100?) Überprüfen, damit geschäftigere Websites häufiger überprüft werden.

Siehe https://webmasters.stackexchange.com/a/29946 und das Video, das @DisgruntedGoat oben geteilt hat http://youtube.com/watch?v=I2giR-WKUfY =.

1
studgeek

Was ich im benutzerzugänglichen Cache sehen kann, ist, dass Sie die URL Ihrer robots.txt -Datei in eine Google-Suche eingeben und dann auf den kleinen grünen Dropdown-Pfeil klicken und auf ' zwischengespeichert '(siehe Bild unten). Dadurch erhalten Sie die neueste Version dieser Seite von Googles-Servern.

enter image description here

1
sam