it-swarm.com.de

Bereinigen Sie gehackte Websites, indem Sie Google dazu bringen, nur die URLs in der Sitemap zu crawlen und zu indizieren

Vor kurzem wurde unsere Website gehackt und wir versuchen jetzt, alles zu bereinigen. Bei der Suche "site:" werden jedoch immer noch die zwischengespeicherten japanischen Websites angezeigt.

Also haben wir versucht, mit robots.txt d. H .: zu spielen.

User-agent: *

Disallow: 

Sitemap: http://www.example.com/sitemap.xml

Aber wenn ich die ungültige URL in robots.txt tester eingebe, wird die nicht gewünschte URL trotzdem zugelassen.

Gibt es eine Möglichkeit, dass Google nur die Sitemap auf robots.txt crawlt, ohne alle fehlerhaften Links auf dem Disallow manuell einzugeben?

2
Shan Xue

Google hat sich nie darauf beschränkt, nur URLs in der Sitemap zu crawlen und zu indizieren. Eine solche Funktionalität gibt es nicht, und ich bezweifle, dass dies jemals der Fall sein wird.

Sitemaps sind ziemlich nutzlos. Sie helfen nicht mit Rankings. Sie veranlassen Google selten, Seiten zu indizieren, die es sonst nicht indizieren würde. Google verwendet sie nur, um bevorzugte URLs auszuwählen, URLs in anderen Sprachen anzugeben und zusätzliche Daten in der Suchkonsole bereitzustellen. Siehe Das Sitemap-Paradoxon .

Wahrscheinlich möchten Sie robots.txt auch nicht verwenden, um die URLs zu sperren. robots.txt blockiert das Crawlen, aber nicht das Indizieren. Sie müssen die URLs von Google erneut crawlen lassen, um sicherzustellen, dass sie nicht mehr vorhanden sind. Der Googlebot muss dazu auf die URLs zugreifen können.

Stellen Sie zum Bereinigen Ihrer gehackten URLs sicher, dass sie jetzt den Status 404 zurückgeben. Google entfernt sie alle innerhalb von 24 Stunden nach dem nächsten Crawlen. Es kann einige Monate dauern, bis Google alle URLs entfernt hat, da einige davon möglicherweise nicht bald erneut gecrawlt werden. Siehe Site wurde gehackt, alle URLs beginnend mit + müssen von Google entfernt werden, robots.txt verwenden?

Wenn nicht zu viele URLs vorhanden sind, können Sie diese einzeln über Tool zum Entfernen von URLs in der Google-Suchkonsole senden. Dadurch entfernt Google sie viel schneller, als auf das erneute Crawlen zu warten. Es gibt jedoch keine Massenentfernungsfunktion.

1