it-swarm.com.de

Google indiziert keine URLs nach einer Weiterleitung, die sich nur in der prozentualen Kodierung / Dekodierung unterscheidet?

Weigert sich der Crawler von Google, Weiterleitungen zu folgen, wenn der Unterschied zwischen den URLs für Weiterleitungen und für Weiterleitungen ausschließlich darin besteht, ob bestimmte Zeichen in Prozent codiert sind oder nicht? Zum Beispiel:

  • www.splunkbase.com/apps/All/4.x/Add-On/app:PDF+Report+Server+%28install+on+Linux+only%29
  • www.splunkbase.com/apps/All/4.x/Add-On/app:PDF+Report+Server+(install+on+Linux+only)

Beide sind gemäß den HTTP-Spezifikationen gültige und äquivalente URIs, aber der Code unserer Site leitet immer zu einer "kanonischen" URL für jede Inhaltsseite weiter - in diesem Fall ist dies die erste aufgeführte URL.

Google indiziert diese Seite offensichtlich nicht (in beiden URL-Varianten). Keine der oben genannten URLs wird angezeigt, wenn ich nach "PDF Report Server (nur unter Linux installieren)" suche.

Die Google Webmaster-Tools melden einen "Weiterleitungsfehler" für die "dekodierte" Variante der URL: www.splunkbase.com/apps/All/4.x/Add-On/app:PDF+Report+Server+(install+on+Linux + nur)

Ein weiteres Problem ist, dass wir zur Zeit eine 302-Weiterleitung anstelle einer 301-Weiterleitung verwenden, um die Kanonisierung durchzuführen. Wir wechseln bald zu 301-Weiterleitungen, um die Kanonisierung durchzuführen.

Aber ich frage mich, ob das 302 vs. 301-Problem ein roter Hering sein könnte - das eigentliche zugrunde liegende Problem könnte sein, dass wir in Googles Augen eine URL zu sich selbst umleiten, da gemäß den HTTP-Spezifikationen ein Prozent Codierte und nicht prozentual codierte URLs sollten von Clients und Servern gleich behandelt werden.

Ich habe einen verwandten Thread gefunden hier . Es ist nicht dasselbe Problem - in diesem Fall bestand der einzige Unterschied zwischen umgeleiteten URLs in der Groß-/Kleinschreibung der in Prozent codierten Hexadezimalwerte. Aber es ist verdächtig ähnlich zu unserem Problem.

Zum Schluss meine Frage: Hat jemand dieses Problem mit der prozentualen Kodierung und der Umleitung festgestellt, und wenn ja, können Sie erörtern, wie Sie es umgehen? Hat der Umstieg auf eine 301 das Problem behoben oder wurde mehr benötigt?

Für Problemumgehungen über 301-ing hinaus prüfen wir eine Vielzahl von Optionen, von der Verwendung von REL = CANONICAL und dem Deaktivieren der Umleitung in diesem Fall bis zur Änderung der Maskierung, um die Maskierung von Apostrophen, Klammern und anderen nicht gewöhnlichen Prozentsätzen zu deaktivieren. Escapezeichen.

Für langfristige Korrekturen schauen wir uns an:

  • wie bei dieser Site wird bei Verwendung einer numerischen ID als Schlüssel REL = CANONICAL hinzugefügt, um Änderungen im SEO-Text nach dem Titel zu verarbeiten, und es wird keine Umleitung durchgeführt
  • wie in vielen Blogs wird der Titel weiterhin als kanonische URL verwendet, die Umleitung wird fortgesetzt, es werden jedoch alle problematischen Zeichen durch Bindestriche ersetzt, sodass wir uns nicht um das Kodieren/Dekodieren kümmern müssen
2
Justin Grant

Diese URLs sind theoretisch äquivalent, sodass eine Weiterleitung wahrscheinlich als eine Weiterleitung zu sich selbst angesehen wird, was ein Grund für einen Durchforstungsfehler wäre. Wenn dies der Fall ist (und ich nehme an, dass dies der Fall ist), würde ich empfehlen, nicht zu versuchen, die URL auf dieser Ebene zu kanonisieren. Ich würde eine URL nicht zu einer alternativen Darstellung derselben URL umleiten.

Ebenso ist es nicht erforderlich, das rel = canonical link-Element für diese beiden URLs zu verwenden. Die Verwendung ist in Ordnung, wenn es alternative Versionen gibt, z. B. unterschiedliche Groß- und Kleinschreibung im Pfad oder in den URL-Parametern. Nur für diese beiden URLs hat dies keine Auswirkungen.

Eine einfache Möglichkeit, um zu testen, wie Google solche URLs sieht, ist die Verwendung der Funktion "Abrufen als Googlebot" in den Webmaster-Tools. Es werden keine Weiterleitungen folgen, daher sollten Sie in der Lage sein, genau zu sehen, welche URLs abgerufen werden. So können Sie die verschiedenen Varianten ausprobieren und sehen, wie sie reagieren.

In einem verwandten Hinweis erscheint mir die Verwendung von URLs wie den von Ihnen erwähnten etwas problematisch, da es für Benutzer möglicherweise schwierig ist, Links zu URLs zu erstellen, die Leerzeichen verwenden (z. B. beim Kopieren und Einfügen einer URL in ein Forum). Wenn ein richtiger Link vorhanden ist, kann Google ihm folgen. Wenn die serverseitige Software jedoch nicht die vollständige URL erkennt, ist dieser Link möglicherweise nicht mehr funktionsfähig.

4
John Mueller

Erstens weist die Tatsache, dass Google keine der URL-Varianten indiziert hat, nicht auf ein Problem mit der URL selbst hin. Es ist wahrscheinlicher, dass Googlebot diese Seite noch nicht gecrawlt hat oder sie nicht interessant genug findet.

Ich würde ein paar Schritte vorschlagen:

  1. Entfernen Sie die Umleitung vollständig. Wie Sie sagen, werden die URLs sowieso gleich behandelt. Google Chrome konvertiert %28 automatisch in (. Möglicherweise machen einige Browser das Gegenteil - ( zu %28 -, was zu Problemen führen kann.
  2. Link zur 'kanonischen' Version. Stellen Sie mit anderen Worten sicher, dass alle Links, über die Sie die Kontrolle haben, auf die richtige Version in Klammern verweisen.
  3. Geben Sie die kanonische Version in Ihre Sitemap ein. Wenn Sie noch keine XML-Sitemap haben, erstellen Sie eine und senden Sie diese an die Google Webmaster-Tools.
  4. Verwenden Sie rel = canonical, um die richtige URL festzulegen. Wenn Sie die in Klammern gesetzte Version dort einfügen, sollte Google dies in den Suchergebnissen anstelle der anderen anzeigen.

Ein letzter Vorschlag wäre, Sonderzeichen von URLs zu entfernen, wo dies möglich ist. Ihre URLs scheinen auf Dateinamen zu basieren. Wenn Sie eine Datei hochladen, generieren Sie möglicherweise einen "Slug" zur Verwendung auf der Website, z. pdf-report-server-install-on-linux-only und verwenden Sie das stattdessen in der URL.

3
DisgruntledGoat

Wenn Sie Apache verwenden, empfehle ich nachdrücklich die Verwendung von mod_rewrite , damit kanonische URLs verarbeitet werden, indem einfach die angeforderte Seite bereitgestellt und keine Weiterleitung gesendet wird.

Ihr eigentliches Problem ist die Tatsache, dass Sie auf Ihrer Website URLs verwenden, für die eine UTF-8-Codierung erforderlich ist. Es sieht zwar nicht ganz so hübsch aus, um Ihren Zeichensatz einzuschränken, aber es hilft wirklich weiter, wenn andere Websites anfangen, auf Ihre zu verlinken. Auf anderen Websites wird die URL höchstwahrscheinlich neu codiert, und bevor Sie wissen, dass Suchmaschinen versuchen, auf den kanonisierten Link zuzugreifen.

Meine beste Lösung besteht darin, den Link in einen Link ohne UTF-8-Zeichen zu ändern, dann eine Antwort 410 GONE oder 404 NOT FOUND zu senden und der korrigierten URL eine 5-Sekunden-Umleitung im Header hinzuzufügen. Warten Sie ein paar Wochen und es wird sich selbst korrigieren.

Wenn die Seite älter ist (mehr als 1 Jahr), kann dies natürlich nie korrigiert werden.

(edit tidbit: 410 GONE schien am besten für URLs zu funktionieren, die eigentlich niemals gespidert werden sollten. Zum Beispiel temporäre Dateien und URLs mit Sitzungsdaten in $ _GET.)

2
Talvi Watia