it-swarm.com.de

Eine Site vollständig vor Suchmaschinen (Google, Bing usw.) verstecken

Meine Firma betreibt einige interne Websites, die von Suchmaschinen wie Google, Bing usw. nicht indiziert werden sollen.

Die Websites müssen jedoch weiterhin für unsere Kunden zugänglich sein, weshalb ich HTTP-Passwortschutz nicht verwenden möchte.

Offensichtlich habe ich bereits ein robots.txt mit:

User-agent: *
Disallow: /

Wenn ich nach dem Domain-Namen suche, wird er weiterhin angezeigt und Google sagt: " Eine Beschreibung für dieses Ergebnis ist aufgrund der robots.txt-Datei dieser Site nicht verfügbar. ", während Bing sagt" Wir möchten Ihnen hier eine Beschreibung zeigen, aber die Site lässt uns nicht zu. ".

Wie kann ich sicherstellen, dass die Websites in den Suchergebnissen vollständig ausgeblendet sind?

4
Kristian

Jede Methode, die sich auf das gute Verhalten des Crawlers stützt, kann fehlschlagen. In diesem Fall empfiehlt es sich, die stärkste verfügbare Kraft/Autorität zu verwenden, und zwar den Webserver selbst. Wenn Sie Zugriff auf die Hauptserverkonfiguration oder zumindest auf die Datei .htaccess haben, sollten Sie eine Methode verwenden, die diese Elemente einbezieht.

Der beste Weg ist die Verwendung eines http-Passworts, aber wenn Sie das wirklich nicht verwenden möchten, haben Sie noch eine andere Option.

Wenn Sie die IPs Ihrer Kunden kennen, können Sie dies in Ihrem .htaccess mit einem einfachen Zugriffskontrolle Code wie diesem einschränken/zulassen

Order deny,allow
Deny from all
Allow from x.x.x.x
Allow from y.y.y.y

Die IPs können die Form x.x.x anstelle von x.x.x.x haben, was bedeutet, dass Sie den gesamten fehlenden Block zulassen.

Sie können dies mit einigen HTTP-Headern kombinieren. 4 weist den Bot an, nicht dorthin zu gehen, normalerweise versuchen sie es ein paar Mal, nur für den Fall, aber es sollte schnell funktionieren, wenn es mit der Deny-Direktive kombiniert wird.

Sie können den HTTP-Antwortcode auch dann verwenden, wenn Sie die IP-Adressen Ihres Clients nicht kennen.

Eine andere Möglichkeit ist, die Anfrage auf die Homepage umzuleiten und zum Beispiel einen 1 HTTP-Code zu verwenden, obwohl ich diese Methode nicht empfehlen würde. Selbst wenn es funktionieren wird, sagt man nicht die Wahrheit über die Ressource und was damit passiert ist, daher ist es kein präziser Ansatz.

Aktualisierung unter Berücksichtigung Ihres Kommentars

Sie können die [Liste der Benutzeragentenzeichenfolgen von Crawlern] verwenden, um sie auf Ihrem .htaccess zu blockieren. Diese einfache Syntax würde tun, was Sie wollen.

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo|yandex) [NC]
RewriteRule .* - [R=403,L]

Fügen Sie einfach die gebräuchlichsten oder die, die auf Ihrer Website waren, hinzu.

2
PatomaS

Verwenden Sie Header set X-Robots-Tag "noindex". Dies verhindert, dass Seiten im Index einer Suchmaschine angezeigt werden.

In Apache können Sie dies in Ihrer conf-Datei oder .htaccess-Datei in Ihrem Stammverzeichnis ablegen:

Header set X-Robots-Tag "noindex"
3
John Conde

Dies geschieht, wenn Google oder Bing Ihre Website entdeckt und nicht angewiesen wurde , die Website nicht zu indizieren . Dies geschieht, wenn ein Link oder eine Weiterleitung zur Site vorhanden ist und die robots.txt die Suchmaschine von der Site aus einschränkt. Dies ist jedoch nicht gleichbedeutend mit der Anweisung einer Suchmaschine , die Site nicht zu indizieren .

Fügen Sie <meta name="robots" content="noindex"> in die Kopfzeile Ihres HTML-Codes aller Seiten ein (am besten), oder zumindest die Startseite, und Suchmaschinen sollten Ihre Site rechtzeitig aus dem Index entfernen. Normalerweise kann es 30-60 dauern (für Google), es kann aber auch länger dauern. Es hängt alles davon ab, wie schnell die Suchmaschine Ihre Website erneut aufruft und wie sie in der Suchmaschine verarbeitet wird. Es kann auch weniger als 30 Tage dauern. Ich wollte Sie nur warnen, dass es einige Zeit dauern kann.

Im Moment gibt es keinen Schaden, außer dass andere Ihre Site entdecken. Wenn Sie den Besuch einschränken möchten, ist möglicherweise ein anderer Mechanismus erforderlich. Ich verstehe, dass ich es offen halten möchte und kein Konto benötige. Ab sofort bin ich mir nicht sicher, ob ich Ratschläge zur Einschränkung des Besuchs habe. Aber verstehen Sie auch, dass Schurkenspinnen auch Ihre Website entdecken und Links erstellen können, unabhängig von Ihren Wünschen. Überlegen Sie, wie Sie den Zugriff in diesem Fall kontrollieren können - und ob die Kontrolle für Sie wichtig ist.

2
closetnoc