it-swarm.com.de

Wie wird HTTP 418 von Google und anderen behandelt, da es sich nicht um einen "echten" Fehler handelt?

Ich habe mich gefragt, ob Sie wissen, wie Google und andere Suchmaschinen eine Website mit dem HTTP-Statuscode 418 I'm a teapot behandeln.

Laut dieser Wikipedia-Artikel kann er als Client-Fehlercode (4xx) verwendet werden. Ich möchte diesen Fehlercode für eine Osterei-Website verwenden, die jedoch von den Suchmaschinen gefunden werden soll.

Entsprechend 4 Jahre alter Blog-Beitrag wird Status 418 von Google ignoriert. Haben Sie aktuellere Informationen zu diesem Thema? Wie reagieren die anderen Suchmaschinen auf den Status 418 (hauptsächlich, weil es sich um einen 4xx-Code handelt)?.

8
ssc-hrep3

Wenn Sie das Tool "Als Google abrufen" in der Google Search Console auf einer Seite verwenden, die den Status "418 I'm a Teapot" zurückgibt, wird lediglich ein "Fehler" gemeldet und für diese Seite kann keine Indizierung angefordert werden.

In der Abbildung unten sind die eingekreisten "Fehler" das Ergebnis der Anforderung einer Seite, die den Status 418 zurückgibt. Derzeit sind keine weiteren Informationen verfügbar.

Screenshot of Fetch as Google tool showing errors for 418 pages

Laut meinem Zugriffsprotokoll haben sowohl Googlebot als auch Search Console diese Seite besucht, sie ist jedoch noch nicht im Index enthalten.

Zur Verdeutlichung ist dies eine neue Seite, die zuvor nicht indexiert wurde. Es wird von einer Seite verlinkt, die indexiert ist und die (zusammen mit "verlinkten Seiten") erneut zur Indexierung übermittelt wurde (siehe Abbildung oben). Ich habe auch eine XML-Sitemap eingereicht, die diese Seite enthält (obwohl die "indizierte" Anzahl noch nicht gemeldet wird - UPDATE UNTEN ANZEIGEN ). Um ehrlich zu sein, ich habe nicht viel Hoffnung - ich wäre überrascht, wenn es indiziert würde. Nicht nur, weil es ein 4xx-Code ist, sondern weil es kein 2xx-Erfolgscode ist.

Normalerweise können Sie einen Test zum Abrufen als Google durchführen und dann die Indizierung der Seite anfordern. Dies ist normalerweise sehr schnell ("sofort") für eine einzelne Seite - aber diese Option ist auf der obigen Seite nicht verfügbar.

Laut diesem 4 Jahre alten Blog-Beitrag wird der Status 418 von Google ignoriert.

Mit "ignoriert" ist gemeint, dass es als 200-OK-Status behandelt wird. (Das ist nicht wirklich das Gleiche wie "ignoriert" werden in meinem Buch, es sei denn, es wurde buchstäblich ignoriert und Google hat "nichts" getan?) Das "Problem" mit diesem Blog-Beitrag ist, dass sie eine bereits indizierte Seite testen. Das Zurückgeben eines 4xx-Status würde die Seite sowieso nicht zwangsläufig aus dem Index entfernen, zumindest nicht für eine beträchtliche Zeit (abhängig von der Crawling-Rate), obwohl sie Berichten zufolge "ein paar Wochen" gewartet haben. Sie erwähnen auch nicht gemeldete Crawling-Fehler in den Google Webmaster-Tools (seit der Umstellung auf Google Search Console).

es ist kein "echter" Fehler

Oder ist es? Es mag anfangs als "Witz" implementiert worden sein, aber es deutet wohl auf einen "Fehlerzustand" hin. Ich denke, es wäre widersprüchlicher, wenn ein 4xx-Code nicht als "Fehlerzustand" behandelt würde . Und es ist immer noch "aktuell". Das Original RFC 2324 von 1998, das diesen Statuscode definierte, wurde 2014 sogar mit RFC 7168 aktualisiert.

Die meisten Tools sehen den Status 418 als Fehler. Oder sehen Sie nur 200 als Erfolg. "Apache Log Viewer" und "Screaming Frog SEO Spider" sehen den 418-Code mit Sicherheit als Fehler an.

Einige Webserver implementieren Berichten zufolge den Statuscode 418:

Stack Exchange verwendet diesen HTTP-Statuscode sogar zum Erkennen von CSRF-Verstößen:

UPDATE 2017-03-31 (2+ Wochen später): Die Seite, die einen 418-HTTP-Statuscode zurückgibt, wird von Google nicht indiziert. Der XML-Sitemap-Bericht in GSC zeigt nun, dass nur eine der beiden in der Sitemap übermittelten URLs indiziert ist (eine URL gibt 200 zurück und ist indiziert, die andere gibt 418 zurück und ist nicht indiziert).

Es hat übrigens fast zwei Wochen gedauert, bis GSC über den Indexstatus der URLs in der Sitemap berichtet hat. Dies bezieht sich jedoch nicht darauf, wann die Seiten tatsächlich indexiert wurden. Beispiel: Eine Seite war zum Zeitpunkt der Übermittlung der Sitemap bereits indexiert. Wenn Sie jedoch nur den Sitemap-Bericht betrachten, sieht es so aus, als wäre die Seite erst 13 Tage nach Übermittlung der Sitemap indexiert worden.

Die URL, die einen 418 zurückgibt, wird jetzt unter Crawl> Crawl Errors als "Crawl Error" gemeldet, und der 418 wird als Antwortcode angegeben. Dem Bericht zufolge wurde dies am 16.03.2017 "erkannt" (am nächsten Tag nach dem Absenden der obigen Indexanfrage), jedoch einige Zeit bevor dies in GSC gemeldet wurde.

8
MrWhite