it-swarm.com.de

Crawler, der URLs mit IDs und catid findet

Beim Versuch, eine Sitemap mit einem Crawler zu generieren, werden einige wirklich seltsame URLs gefunden, bei denen keine 404 angegeben wird und im falschen Abschnitt falscher Inhalt angezeigt wird.

So habe ich zum Beispiel ein Menü namens Belletristik mit Unterpunkt Verwendete Belletristik/Angebote. Der Belletristik-Bereich hat eine eigene Vorlage, die sich vom Autobiografie-Bereich unterscheidet, aber der Crawler findet irgendwie die unten stehende URL und den Ladeinhalt der id = 124 unter der Belletristik-Vorlage, was völlig falsch ist. Es gibt keine Menüpunkte, die auf den Artikel im Belletristik-Menü verweisen. Diese Artikel-ID verfügt über einen Menüeintrag im Menü "Autobiografie", der einwandfrei funktioniert.

/fiction/used-fiction/offers?id=124:a-long-walk-to-freedom&catid=2

Ich frage mich, ob es eine Möglichkeit gibt, festzustellen, wo sich diese Links möglicherweise im Inhaltsverzeichnis befinden, aber wenn ich in der Datenbank nachschaue, kann ich nichts finden, was aus der Ferne so ist. Irgendwelche Vorschläge wären toll!

1
sifu

Ich würde einen Speicherauszug der Datenbank erstellen und dann Notepad ++ oder ähnliches verwenden, um die SQL-Datei nach "id = 124: Ein langer Weg zur Freiheit" zu durchsuchen. Wenn etwas gefunden wurde, sollte es relativ einfach zu beheben sein.

Dies setzt voraus, dass Sie bei Ihrem vorherigen Suchversuch vergessen haben, SEF-Änderungen an Teilen des Links zu kompensieren oder den Inhalt des Suchmoduls vergessen haben. Durchsuchen Sie die gesamte Datenbank mit einem Texteditor nach einem kürzeren Teil der Zeichenfolge.

Wenn auch dies fehlschlägt, kann der Link auch aus den Sprachdateien stammen.

Wenn Sie ein Serverzugriffsprotokoll haben, können Sie es einfach durchsuchen, um festzustellen, von wo aus der Crawler dem Link folgt.

2
Ville Niemi