it-swarm.com.de

Bots und Crawler über htaccess an einen anderen, aber nicht an einen Menschen umleiten

Ich würde dieses Diagramm über htaccess anwenden. Ich habe viele Codes ausprobiert, aber ich bin jedes Mal gescheitert

enter image description here

Also muss ich Bots und Crawler umleiten, besonders von Facebook über .htaccess

1
Sergio santa

Was Sie tun möchten, kann technisch gesehen als Täuschung eingestuft werden, die gegen die Bestimmungen von Google verstößt und dazu führen kann, dass Ihre Website aus dem Google-Index entfernt wird. Google ist sehr streng in dem, was sie als Tarnkappen bezeichnen, und im Grunde ist die Regel, was der Endbenutzer auch sehen muss, um den Crawler zu sehen. Wenn Sie versuchen, böswillige Bots zu blockieren, ist es am einfachsten, die Zeichenfolgen ihrer Benutzeragenten mit .htaccess zu blockieren. Wenn Sie jedoch versuchen, mit einem legitimen Crawler wie Google zu tarnen, wird dies erkannt und führt zu schwerwiegenden Strafen und manuellen Maßnahmen Dies kann Ihr SERP -Ranking erheblich beeinträchtigen.

Google verwendet nicht nur den bekannten Googlebot-Benutzeragenten, sondern auch andere Bots, bei denen die Zeichenfolge des Benutzeragenten von echten Browsern für IP-Adressen verwendet wird, die nicht mit Google verknüpft sind, um dies auf Websites zu erkennen Dies tun.

Nachdem ich diese Warnung gegeben habe ...

Sie erwähnen speziell Facebook-Crawler. Facebook verfügt über drei verschiedene Benutzeragenten zum Crawlen. facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) und facebookexternalhit/1.1, die verwendet werden, wenn ein Nutzer Ihre Website für seine Pinnwand freigibt, und Facebot, um die Werbeleistung zu verbessern. Von allen respektiert nur Facebot die robots.txt-Regel, da die anderen nur durch eine Benutzeraktion ausgelöst werden und so wie ein aktiver Webbrowser behandelt werden. Wenn Sie ein Facebook-Crawling blockieren möchten, fügen Sie einfach eine .htaccess-Regel hinzu, um diese Benutzeragenten-Zeichenfolgen zu erkennen. Wenn sie erkannt werden, blockieren Sie sie oder geben Sie eine Fehlerseite zurück, für die Crawler nicht zugelassen sind. Der Versuch, sie an eine alternative Website mit unterschiedlichen Inhalten weiterzuleiten, wird die Sache nur komplizierter und kann dazu führen, dass Ihr SERP -Ranking beeinträchtigt wird, da die Seiten, auf die die Bots zugreifen können, nicht über den entsprechenden Kontext verfügen.

3

Ok, ich habe vielleicht die Lösung, versuche dies (du kannst die Liste anpassen):

    SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SeznamBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot
    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} env=bad_bot
    RewriteRule (.*) http://www.exemple.com/custom_page
0
Arthur Guiot