it-swarm.com.de

Nur Google- und Bing-Bots dürfen eine Website crawlen

Ich verwende die folgende robots.txt-Datei für eine Website: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Website mit Ausnahme der Seite /bedven/bedrijf/* zu ermöglichen und alle anderen Bots am Crawlen der Website zu hindern.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Verhindert die letzte Regel User-agent: * Disallow: /, dass alle Bots alle Seiten auf der Site crawlen?

10
Konsole

Auf den letzten Datensatz (der von User-agent: * gestartet wurde) folgen alle höflichen Bots, die sich nicht als "googlebot", "google", "bingbot" oder "bing" ausweisen.
Und ja, es bedeutet, dass sie nichts krabbeln dürfen.

Möglicherweise möchten Sie den * in /bedven/bedrijf/* weglassen.
In der ursprünglichen robots.txt-Spezifikation hat * keine besondere Bedeutung, es ist nur ein Zeichen wie jedes andere. Das Crawlen von Seiten, deren URL buchstäblich das Zeichen * enthält, ist nicht zulässig.
Obwohl Google in dieser Hinsicht nicht der robots.txt-Spezifikation folgt, da * als Platzhalter für "beliebige Zeichenfolgen" verwendet wird, ist es in diesem Fall nicht erforderlich für sie : /bedven/bedrijf/* und /bedven/bedrijf/ würden genau dasselbe bedeuten: Blockiere alle URLs, deren Pfad mit /bedven/bedrijf/ beginnt .

Und schließlich könnten Sie Ihre robots.txt auf zwei Datensätze reduzieren, da ein Datensatz mehrere User-agent Zeilen haben kann:

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /
24
unor