it-swarm.com.de

Tausende von 404-Fehlern in den Google Webmaster-Tools

Aufgrund eines früheren Fehlers in unserer ASP.Net-Anwendung, der von meinem Vorgänger erstellt und lange Zeit unentdeckt blieb, wurden Tausende falscher URLs dynamisch erstellt. Der normale Benutzer bemerkte es nicht, aber Google folgte diesen Links und durchsuchte diese falschen URLs, wodurch immer mehr falsche Links erstellt wurden.

Betrachten Sie die URL, um es klarer zu machen

example.com/folder

sollte den Link erstellen

example.com/folder/subfolder

aber schuf

example.com/subfolder

stattdessen. Aufgrund einer fehlerhaften URL-Umschreibung wurde dies akzeptiert und standardmäßig wurde die Indexseite für eine unbekannte URL angezeigt, wodurch immer mehr Links dieser Art erstellt wurden.

example.com/subfolder/subfolder/....

Das Problem ist inzwischen behoben, aber jetzt habe ich Tausende von 404-Fehlern in den Google Webmaster-Tools, die vor ein oder zwei Jahren entdeckt wurden, und weitere treten immer wieder auf.

Leider folgen die Links keinem gemeinsamen Muster, das ich für das Crawlen in der robots.txt ablehnen könnte.

Kann ich Google daran hindern, diese sehr alten Links auszuprobieren und die bereits aufgelisteten 404s aus den Webmaster-Tools zu entfernen?

6
magnattic

Die Webmaster-Tools aktualisieren die Seite mit Links/Fehlern bekanntermaßen nur langsam. Insbesondere fordert der Googlebot die Seite auch dann an, wenn keine Verknüpfung mehr besteht, und meldet, dass sie nicht gefunden werden kann.

Wenn eine der URLs einem gemeinsamen Muster folgt, können Sie eine 301-Weiterleitung zur richtigen Seite ausführen, um die Entfernung dieser Fehler durch Google zu beschleunigen. (Hinweis: Ich würde nicht empfehlen, htaccess Tausende von Zeilen hinzuzufügen, da dies die Leistung erheblich beeinträchtigen kann.)

Abgesehen davon können Sie leider nicht viel tun, außer abwarten. Wenn es definitiv keine Links gibt, die auf nicht vorhandene Seiten verweisen, wird der Abschnitt Crawling-Fehler mit der Zeit langsam kleiner. Nach meiner Erfahrung kann es bis zu 3 Monate dauern.

Beachten Sie, dass dies bei externen Links nicht der Fall ist. Auf meinen Websites treten mehrere 404-Fehler auf, die von externen Links stammen, auf die ich keinen Einfluss habe, und ich glaube nicht, dass sie jemals verschwinden werden.

4
DisgruntledGoat

Dies ist, was Googles John Müller (der an Webmaster-Tools und Sitemaps arbeitet) muss über 404-Fehler sagen, die in Webmaster-Tools auftreten :

HILFE! MEINE WEBSITE HAT 939 CRAWL-FEHLER !! 1

Ich sehe diese Art von Frage mehrmals pro Woche. Sie sind nicht alleine - viele Websites weisen Crawling-Fehler auf.

  1. 404-Fehler bei ungültigen URLs beeinträchtigen in keiner Weise die Indizierung oder das Ranking Ihrer Website . Es spielt keine Rolle, ob es 100 oder 10 Millionen gibt, sie schaden dem Ranking Ihrer Website nicht. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. In einigen Fällen können Crawling-Fehler von einem legitimen strukturellen Problem innerhalb Ihrer Website oder Ihres CMS herrühren. Wie sagst du es? Überprüfen Sie den Ursprung des Durchforstungsfehlers. Wenn auf Ihrer Website ein fehlerhafter Link im statischen HTML-Code Ihrer Seite vorhanden ist, lohnt es sich immer, diesen zu beheben. (Danke + Martino Mosna )
  3. Was ist mit den funky URLs, die "deutlich kaputt" sind? Wenn unsere Algorithmen wie Ihre Website versuchen, mehr großartigen Inhalt darauf zu finden, zum Beispiel indem sie versuchen, neue URLs in JavaScript zu entdecken. Wenn wir diese "URLs" ausprobieren und einen 404 finden, ist das großartig und wird erwartet. Wir möchten einfach nichts Wichtiges verpassen (fügen Sie hier ein überhängendes Googlebot-Mem ein). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Sie müssen keine Crawling-Fehler in den Webmaster-Tools beheben. Die Funktion „Als fest markiert“ soll Ihnen nur helfen, wenn Sie Ihren Fortschritt dort verfolgen möchten. Es ändert nichts an unserer Web-Such-Pipeline. Ignorieren Sie es einfach, wenn Sie es nicht benötigen. http://support.google.com/webmasters/bin/answer.py?answer=24674
  5. Wir listen Crawling-Fehler in den Webmaster-Tools nach Priorität auf, was auf mehreren Faktoren beruht. Wenn die erste Seite mit Durchforstungsfehlern eindeutig irrelevant ist, werden Sie auf weiteren Seiten wahrscheinlich keine wichtigen Durchforstungsfehler finden. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Es ist nicht erforderlich, Crawling-Fehler auf Ihrer Website zu beheben. Das Finden von 404 ist normal und wird von einer gesunden, gut konfigurierten Website erwartet. Wenn Sie über eine gleichwertige neue URL verfügen, empfiehlt es sich, diese umzuleiten. Andernfalls sollten Sie keine gefälschten Inhalte erstellen, nicht auf Ihre Startseite umleiten und nicht die URLs von robots.txt sperren. All diese Dinge erschweren es uns, die Struktur Ihrer Website zu erkennen und ordnungsgemäß zu verarbeiten. Wir nennen diese "weichen 404" -Fehler. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Wenn diese Crawling-Fehler für URLs angezeigt werden, die Sie interessieren, z. B. für URLs in Ihrer Sitemap-Datei, sollten Sie sofort entsprechende Maßnahmen ergreifen. Wenn der Googlebot Ihre wichtigen URLs nicht crawlen kann, werden sie möglicherweise aus unseren Suchergebnissen entfernt und Nutzer können möglicherweise auch nicht darauf zugreifen.
3

Blockiere diese Seiten mit robots.txt, das ist der einfachste Weg.

Meine Website hat über 100.000 404 Fehler, die nicht zu sterben scheinen. Manchmal muss man sie einfach stehen lassen.

1
SEOThomas

Gibt Ihre 404-Seite eine echte 404-Seite oder eine 200-Seite mit 404-Inhalt zurück? Ich sehe viele benutzerdefinierte 404-Seiten, die "Seite nicht gefunden" anzeigen, aber einen 200-Status zurückgeben, sodass Google sie als aktive Seiten ansieht und sie im Index behält.

Ohne Zugriff auf die Seiten, um sie zu betrachten, ist es schwierig, genau zu sagen, was vor sich geht, aber das scheint nach meiner Erfahrung das häufigste Problem zu sein.

1
Joshak

Wenn Sie ein Skript ausführen, um die Seiten anzuzeigen, können Sie feststellen, dass dies eine problematische Seite ist, und eine echte HTML-Seite mit dem Status 200 + Meta-Tag drucken:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

0
jflaflamme

Dies mag nicht der Fall gewesen sein, als die Frage ursprünglich gestellt wurde, aber jetzt können Sie mithilfe der Webmaster-Tools auswählen, welche URLs zu 404 führen sollen, und Google sollte nicht versuchen, erneut zu crawlen. Sie können jeweils 25 ausführen. Sie finden diese Funktion unter Health> Crawl Errors.

0
paulmorriss