it-swarm.com.de

Befolgt die Google-Vorschau Robots.txt?

Weil es so aussieht. Für meine Websites ist das Bilderverzeichnis nicht zulässig, und in den Vorschauen fehlen alle Bilder.

Ist dies der Fall und gibt es eine Möglichkeit, nur dem Vorschau-Bot den Zugriff auf Bilder mit robots.txt zu ermöglichen?

BEARBEITEN: Es sieht so aus, als würden die Vorschauen sowohl vom normalen Google Bot als auch von einem On-the-Fly-Bot Google Web Preview generiert, wie im Webmaster Central Blog erwähnt.

Durch die Verwendung von site: search und meiner Überwachungssoftware konnte ich sehen, wann der Bot meine Site traf und wann dies passierte, und die Bilder wurden in der Vorschau einwandfrei angezeigt. Ich vermute also, dass der normale Crawler die Bilder per robots.txt ignoriert, aber der Vorschau-Crawler die Bilder trotzdem erhält.

Diese Implementierung scheint etwas mürrisch zu sein, da meine Optionen zu sein scheinen:

  1. google Bot erlauben, meine Bilder zu crawlen (was ich nicht tun möchte)
  2. benutze das Nosnippet-Tag, das die Vorschau blockiert, aber AUCH Snippets (was ich nicht machen möchte)
  3. Lassen Sie die Wonky-Vorschau erscheinen, die sich nachteilig auf die Klickraten auswirken kann
11
plntxt

Ich denke John Mueller hatte es richtig in den Kommentaren.

Wenn es nur darum geht, dass die Bilder nicht indiziert sind, können Sie das Crawlen zulassen, aber die Bilder mit einem x-robots-tag-HTTP-Header mit "noindex" versorgen.

Ich wusste nicht, dass Sie Google erlauben könnten, Inhalte ohne Indexierung zu crawlen. Ich habe seine Technik eingerichtet und warte nur darauf, gekrabbelt zu werden, um zu sehen, ob es funktioniert.

Ich werde dies in ein paar Tagen als Antwort akzeptieren, es sei denn, John möchte seine Kommentare in den Antwortbereich aufnehmen, damit er den Repräsentanten verdienen kann.

3
plntxt

Da der größte Teil der Vorschau vom Google Bot-Crawler ausgeführt wird, wirkt sich das Blockieren des Crawlers für einen Teil Ihrer Website auf die Vorschau aus.

Warum möchten Sie Google Bot nicht erlauben, Ihre Bilder zu crawlen?

2
Pascal Qyy

Das Folgende ist eine technische Lösung, die möglicherweise nicht einfach auf Ihre Website angewendet werden kann.

Es ist möglich (sogar wahrscheinlich), dass Google einen Weg findet, dies mit nur wenigen Hinweisen in Metadaten oder robots.txt zu tun, aber bis dahin ...


Schritt 1.

Erstellen Sie einen Umleitungsdienst/ein Servlet für Titelseitenbilder.

Das heißt eine URL wie

/frontpageimages/[image name]

das führt eine serverseitige Umleitung zu

/images/[image name]

Schritt 2.

Lassen Sie alle Bildverknüpfungen auf Ihrer Titelseite (und nur auf der Titelseite) neu schreiben, um den Umleitungsdienst ab Schritt 1 zu durchlaufen, anstatt direkt auf das Bild zu verlinken.

Schritt 3.

Stellen Sie sicher, dass robots.txt es Googlebot ermöglicht, /frontpageimages/ zu crawlen


Dies sollte sicherstellen, dass Google alle Bilder crawlen kann, auf die es auf Ihrer Startseite stößt, während Bilder auf anderen Seiten in Ruhe gelassen werden.

Während der Umleitungsdienst (theoretisch) verwendet werden könnte, um alle Ihre Bilder zu crawlen, ohne technisch gegen Ihre robots.txt zu verstoßen, ist es nicht etwas, das sich Roboter gut benehmen (wie googlebot) tun werden. Und schlecht erzogene Roboter sorgen sich nicht um robots.txt.

2
Kris