it-swarm.com.de

Wie erkennt und indiziert Google URLs, die nicht verlinkt sind oder in der Sitemap enthalten sind?

Ich kann sehen, dass mehrere URLs meiner Website von Google gecrawlt werden. Ich sehe es mit site: in der Google-Suche.

Ich habe mich gefragt, an welchen Orten Google diese URLs auswählen kann. Ich habe überprüft, dass viele meiner gecrawlten URLs nicht in der Sitemap enthalten sind, und wir haben den Link zu diesen URLs auch auf keiner anderen Seite platziert. Wie würde Google solche Inhalte entdecken?

Kann ich trotzdem alle von Google indizierten URLs überprüfen und Informationen darüber erhalten, wie Google diese Seiten entdeckt hat?

4
maverick

Es gibt viele Stellen, an denen Google Ihre Websiteseiten indizieren kann. Ihre Sitemap und die Inhalte Ihrer Live-Site sind nur ein kleiner Teil davon. Ihre XML-Sitemap ist lediglich ein Signal an Google, Bing und andere Suchmaschinen, Ihre wichtigsten Seiten zu indizieren und neue Inhalte zur Kenntnis zu nehmen (wenn Sie ein CMS und ein Plug-in verwenden, das die Sitemap automatisch aktualisiert).

Wenn Google auf Ihre Website gelangt, werden alle Arten von Links verwendet, nicht nur Links auf Seitenebene. Es kann Dateien, Taxonomien, mehrere Versionen von Seiten indizieren ... In einem CMS wie Drupal, wo alles ein Knoten ist, kann es sogar Teile von Seiten indizieren.

Aus diesem Grund ist es wichtig, dass Sie Ihr CMS kennen und wissen, wie es im Backend funktioniert. Sie müssen eine Kombination aus No-Index-Meta, Kanonisierung, Weiterleitungen, robots.txt und Search Console/Bing Webmaster verwenden, um zu steuern, was gecrawlt/indiziert wird und was nicht.

Mit der Search Console können Sie eingehende Links anzeigen, mit Mozs Open Site Explorer die Linkscape einer einzelnen Seite analysieren und mit einem Tool wie Screaming Frog SEO Spider (das erste ist kostenlos, das zweite und das dritte sind Freemium) beides analysieren interne und externe Links. Zwischen all diesen sollten Sie in der Lage sein, die Quelle zu diagnostizieren.

2
Henry Visotski

Vor kurzem hatte das gleiche Problem und war verwirrt darüber, wie Google über eine interne URL auf meiner Website wusste.

Das fragliche Verzeichnis war/piwik (eine Open-Source-Alternative zu Google Analytics).

Google crawlt also auch Links in Ihren Quelldateien (wie HTML). Wenn es dort Links gibt, wie in <meta> oder <script> urls in here </script>, wird Google crawlen und wegindizieren.

0
user49591