it-swarm.com.de

Googlebot und Mediapartners-Google crawlen URLs, die von robots.txt blockiert wurden. Warum?

Ich habe einige der URLs von robots.txt blockiert. Ich denke, es gibt keine Möglichkeit, von meiner Website aus auf die blockierten URLs zuzugreifen. Aber ich habe in meinen Protokollen gesehen, was auch immer ich die URLs aus der robots.txt blockiert habe, werden von Google Bot gecrawlt. Und beobachtete auch "Google Bot", der die erste Anfrage auslöste, gefolgt von "Mediapartners-Google". Ich habe aber nicht die Klarheit, ob Googlebot von irgendeiner anderen undichten Stelle oder von "Mediapartners-Google" crawlt.

Und ich möchte die Beziehung und Unterschiede zwischen "Mediapartners-Google" und "Google Bot" kennen.

1
nagababu thota

Sie sagen, dass es keine Möglichkeit gibt, von Ihrer Website aus auf die gesperrten URLs zuzugreifen? Ich vermute, Sie meinen, dass Sie keine Links zu diesen URLs von Ihrer eigenen Website haben. Das nehme ich also an.

Das Blockieren von URLs oder Teilen Ihrer Website in Ihrer robots.txt-Datei ist eigentlich keine Garantie dafür, dass sie nicht gecrawlt werden. Unter bestimmten Umständen wird die Direktive disallow in der robots.txt-Datei ignoriert. Normalerweise liegt es daran, dass Sie externe Links (Backlinks) haben, die auf die URLs verweisen, die Sie ausblenden möchten. Wenn Sie verhindern möchten, dass die URL von Google indiziert wird, sollten Sie den X-Robots-Tag-HTTP-Header verwenden. Wenn Sie dies tun, müssen Sie die Disallow-Direktive in Ihrer robots.txt-Datei entfernen, da es sonst zu einem Konflikt kommen kann. Informationen hierzu finden Sie im Hilfeabschnitt der Google Search Console: https://support.google.com/webmasters/answer/7424835?hl=de#h12

Google Bot ist der "normale" Bot von Google, der Ihre Website crawlt und Daten abruft, die für den Index verwendet werden. Mediapartners-Google ist ein Bot von Google AdSense oder Google Mobile Adsense, der Ihre URLs crawlt, um den Inhalt Ihrer Seite (n) zu verstehen und relevante Anzeigen für Ihre Besucher anzuzeigen. Lesen Sie dazu Folgendes: http://www.botreports.com/user-agent/mediapartners-google.shtml

2