it-swarm.com.de

Werden die bereits indizierten URLs entfernt, wenn ich eine robots.txt für meine Site verwende?

Viele URLs meiner Website wurden in den Google-Index aufgenommen, aber viele davon sind veraltet und führen nie zu einem 404 -Fehler und führen den Nutzer zur Startseite meiner Website.

Ich habe eine neue Sitemap mit meinen neuesten URLs eingereicht, aber die alten und veralteten URLs meiner Website werden in der Google-Suche weiterhin oben angezeigt. Es gibt Hunderte solcher URLs.

Ich weiß über das Erstellen von URL-Entfernungsanforderungen und robot.txt Bescheid. Das Einreichen von Anträgen auf Entfernung erfordert jedoch viel Zeit und Mühe. Ich möchte stattdessen robots.txt verwenden. Wenn ich sie jedoch in meinem robots.txt mit einem Platzhalterausdruck aufführe, der mit meinen alten URLs übereinstimmt, werden sie von Google aus dem Index entfernt? Oder wird es einfach aufhören, sie erneut zu crawlen, was bedeutet, dass sie nicht erneut indiziert werden, aber bereits indizierte alte URLs weiterhin in der Google-Suche angezeigt werden, was ich nicht möchte. Können Sie mir bitte mitteilen, was ich tun soll?

4
Aryan Venkat

Verschwindet Google aus den Suchergebnissen, wenn ich Google daran hindere, eine Seite mit der Anweisung "robots.txt disallow" zu crawlen? https://developers.google.com/webmasters/control-crawl-index/docs/faq

Wenn Sie das Crawlen einer Seite durch Google blockieren, wird das Ranking dieser Seite wahrscheinlich herabgesetzt oder mit der Zeit ganz aufgegeben. Dies kann auch die Detailgenauigkeit verringern, die Benutzern im Text unterhalb des Suchergebnisses zur Verfügung gestellt wird. Dies liegt daran, dass die Suchmaschine ohne den Inhalt der Seite viel weniger Informationen zur Verfügung hat.

Robots.txt Disallow garantiert jedoch nicht, dass eine Seite nicht in den Ergebnissen angezeigt wird: Google entscheidet möglicherweise basierend auf externen Informationen wie eingehenden Links, dass sie relevant ist. Wenn Sie die Indizierung einer Seite explizit blockieren möchten, sollten Sie stattdessen das noindex-Robots-Meta-Tag oder den X-Robots-Tag-HTTP-Header verwenden. In diesem Fall sollten Sie die Seite in robots.txt nicht verbieten, da die Seite gecrawlt werden muss, damit das Tag angezeigt und beachtet wird.

3
user29671

Dies ist die offizielle Antwort von Google dazu: Eine ganze Seite vollständig entfernen

Wenn Sie möchten, dass eine Seite entfernt wird, müssen Sie das Formular "Seite aus Index entfernen" auf der Seite "Google Webmaster-Tools" ausfüllen. UND Verwenden Sie robots.txt Datei zum Ausschließen der Seiten, damit Google sie nicht erneut indiziert.

Sie geben im obigen Link an, dass, wenn die Seite im Google-Index vorhanden ist und Sie nur die Datei robots.txt verwenden, um die Seite auszuschließen, diese kann = von Google indiziert werden:

Wenn die Seite noch vorhanden ist, verwenden Sie robots.txt, um zu verhindern, dass Google sie crawlt. Auch wenn eine URL von robots.txt nicht zugelassen wird, können wir die Seite dennoch indizieren, wenn wir ihre URL auf einer anderen Site finden. Die Seite wird jedoch nicht indiziert, wenn sie in robots.txt blockiert ist und eine aktive URL-Entfernungsanforderung für die Seite vorliegt.

3
edsanz

Sie sollten sicherstellen, dass die veralteten Seiten entweder eine 301 Weiterleitung zu Ihrer Homepage ausführen oder einen 404 oder 410 Statuscode angeben.

Google wird die Seiten eventuell aus den Suchergebnissen entfernen, wenn Sie die URLs in robots.txt eingeben. Dies kann jedoch einige Zeit dauern.

Am schnellsten können Sie die Webmaster-Tools verwenden und die URLs dort entfernen.

1
Tero Kilkanen