it-swarm.com.de

Wie man den Kunden identifiziert, ist ein Suchroboter?

Ich habe meine gesamte Site mit AJAX erstellt (in der Tat ist es GWT). Ich habe auch das von Google vorgeschlagene AJAX Crawlen implementiert. Nach der Implementierung stellte ich jedoch fest, dass weder Yahoo, Bing noch Baidu dieses Schema implementiert haben!

Ich frage mich, ob es eine Möglichkeit gibt, den Web-Client als Suchroboter zu identifizieren. Wenn dies der Fall ist, wird der von mir erstellte HTML-Snapshot angezeigt.

Es ist am besten, wenn ich sie auf Apache-Ebene identifizieren kann, dann kann ich einfach ein mod_rewrite ausführen. Aber es ist immer noch in Ordnung, wenn ich das in PHP oder GWT machen kann.

1
Yau Leung

Suchmaschinenroboter unterscheiden sich in Bezug auf den Kunden nicht von anderen Benutzeragenten. Es ist in der Tat erwähnenswert, dass viele Suchmaschinen (insbesondere Google) unglücklich werden können, wenn ihren Robotern andere Inhalte als reguläre Besucher angeboten werden. Dies bedeutet, dass sie in der Regel generische Zeichenfolgen für Benutzeragenten verwenden (z. B. Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)), in der Regel jedoch mit Details, die tiefer als im angegebenen Beispiel vergraben sind.

Der beste Weg, solche Roboter zu erkennen, ist die Verwendung eines IP-Filters. Sie müssen entweder Ihre eigene Liste zusammenstellen oder sich auf eine wie this verlassen.

Die Verwendung einer solchen Liste sollte es Ihnen ermöglichen, mit allen wichtigen Suchmaschinenrobotern umzugehen. Das Hinzufügen von Umschreiberegeln basierend auf IP ist ebenfalls recht einfach, sodass diese Ihren Anforderungen entsprechen sollten. Aktualisieren Sie es nur gelegentlich.

2
Kris

Sie können den HTTP-Header des Benutzeragenten überprüfen. http://www.user-agents.org/ ist ein guter Ort, um zu identifizieren, wer die Crawler sind.

Sie können auch mehr über die Anmeldung in Apache lesen. Sie können beispielsweise ein spezielles Protokoll für eine Liste von Benutzeragenten (Bots) erstellen.

0
Dave