it-swarm.com.de

Google daran hindern, meine Website zu crawlen (bereits mit robots.txt blockiert)

Verärgert über die Löschung von YouTube in Deutschland, habe ich meinen eigenen "YouTube-Klon" nur für den privaten Gebrauch erstellt. Es lädt automatisch meine Abonnements und einige Videos mit speziellen Keywords oder von speziellen YouTubers herunter. Das alles funktioniert gut. Und all das ist von außen nicht zugänglich (Sie benötigen einen Benutzernamen und ein Passwort, die nur ich habe).

Auf meiner Startseite befinden sich viele Links zu Videos, die in meinen Abonnements enthalten sind, aber noch nicht heruntergeladen wurden. Wenn ich auf einen dieser Links klicke, wird das Video mit der ursprünglichen YouTube-Einbettungsfunktion geliefert. Das alles funktioniert gut.

Aber jetzt mein Problem: Vor ein paar Minuten habe ich mir ein Video mit diesem Embed-Ding angesehen und das habe ich gerade in meinem Apache-Log gesehen:

66.249.89.90 - - [20/Dec/2014:21:40:52 +0100] "GET my_youtube_clone HTTP/1.1" 200 2780 "-" "Mediapartners-Google"

Ich habe bereits alle Bots über robots.txt blockiert, also verwendet Google offensichtlich die YouTube-Referrer, um die Seiten zu crawlen, und ignoriert dabei die robots.txt.

Wie ich bereits sagte, brauchte Google dafür kein Passwort, aber ich ärgere mich darüber, dass Google die robots.txt ignoriert und die Referrer von YouTube als Crawler-URL-Quellen verwendet.

Gibt es eine Möglichkeit, dies vollständig zu stoppen?

1
itsmemario

Mediapartners-Google ist der User-Agent, mit dem Google Seiten mit AdSense-Anzeigen crawlt. Das Crawlen hängt wahrscheinlich mit Anzeigen zusammen, die im Video gezeigt werden.

Wenn Sie die Anzeigen entfernen, versucht Google nicht mehr, auf diese Weise zu crawlen.

5

Sie können Tags in Ihren Kopfzeilen (<head></head>) verwenden, um das Crawlen durch die meisten Suchmaschinen zu verhindern:

<meta name="robots" content="noindex">

Sie geben auch an, dass Sie Folgendes verwenden können, wenn Sie nur Google speziell blockieren möchten:

<meta name="googlebot" content="noindex">

Google wirft dasselbe auf: https://support.google.com/webmasters/answer/93710?hl=de

0
Mike