it-swarm.com.de

Die Website wurde gehackt. Müssen alle URLs, die mit + beginnen, von Google entfernt werden? Verwenden Sie robots.txt?

Können Sie mir bitte mitteilen, wie Sie solche URLs für robots.txt blockieren, damit Googlebots die Indizierung beenden können?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Meine Website wurde gehackt, was jetzt wiederhergestellt wird, aber der Hacker hat 5000 URLs in Google indiziert und jetzt erhalte ich Fehler 404 für zufällig generierte Links, wie vor allem beginnend mit /+ wie oben angegeben.

Ich habe mich gefragt, ob es einen anderen schnellen Weg gibt, als diese URLs manuell aus den Google Webmaster-Tools zu entfernen.

Können wir dies mit robots.txt für URLs blockieren, die mit + beginnen?

15
Hussain

Meine Website wurde gehackt, die jetzt wiederhergestellt wird, aber der Hacker hat 5000 URLs in Google indiziert und jetzt erhalte ich den Fehler 404

Ein 404 ist wahrscheinlich dem Blockieren mit robots.txt vorzuziehen, wenn Sie möchten, dass diese URLs von den Suchmaschinen (z. B. Google) gelöscht werden. Wenn Sie das Crawlen blockieren, bleibt die URL möglicherweise weiterhin indiziert. (Beachten Sie, dass robots.txt in erster Linie Crawlen blockiert, nicht Indizieren.)

Wenn Sie das De-Indizieren dieser URLs "beschleunigen" möchten, können Sie möglicherweise eine "410 Gone" anstelle der üblichen "404 Not Found" liefern. Sie könnten mit mod_rewrite (Apache) in Ihrer root .htaccess -Datei Folgendes tun:

RewriteEngine On
RewriteRule ^\+ - [G]
30
MrWhite

Ich werde die zweite Frage beantworten.

Ich habe mich gefragt, ob es einen anderen schnellen Weg gibt, als diese URLs manuell aus den Google Webmaster-Tools zu entfernen.

https://developers.google.com/webmasters/hacked/docs/clean_site

Google gibt ausdrücklich an, dass das Entfernen über die Google Search Console (der neue Name der Webmaster-Tools) am schnellsten ist.

Wenn der Hacker völlig neue, für Benutzer sichtbare URLs erstellt hat, können Sie diese Seiten mithilfe der Funktion "URLs entfernen" in der Suchkonsole schneller aus den Google-Suchergebnissen entfernen. Dies ist ein völlig optionaler Schritt. Wenn Sie einfach die Seiten löschen und dann Ihren Server so konfigurieren, dass er einen 404-Statuscode zurückgibt, werden die Seiten mit der Zeit natürlich aus dem Google-Index herausfallen.

Sie verstehen aber auch, dass dies in einigen Fällen nicht möglich ist:

Die Entscheidung zum Entfernen von URLs hängt wahrscheinlich von der Anzahl der neu erstellten, unerwünschten Seiten ab (zu viele Seiten sind möglicherweise umständlich zum Entfernen von URLs) sowie von dem potenziellen Schaden, den diese Seiten für Benutzer verursachen können. Stellen Sie sicher, dass die Seiten, die über URL Removal übermittelt wurden, auch so konfiguriert sind, dass für die unerwünschten/entfernten URLs eine Antwort 404 File not Found zurückgegeben wird, damit sie nicht in den Suchergebnissen angezeigt werden.

Während Sie diese Seiten in robots.txt blockieren können, führen Sie keine der von Google erläuterten Korrekturmaßnahmen durch.

14
pastepotpete
User-Agent: *  
Disallow: /+

sollte tun was du willst. Der Roboter wird angewiesen, nicht alle URLs anzufordern, die mit einem + beginnen.

4
Sven

Wenn Sie robots.txt wirklich verwenden möchten, ist dies eine einfache Antwort auf Ihre Frage. Außerdem habe ich einen Link hinzugefügt, unter dem Sie die technischen Daten auf robots.txt nachlesen können.

User-agent: *
Disallow: /+

Informationen zu robots.txt-Spezifikationen

Eine andere Alternative ist die Verwendung von .htaccess, um eine Umschreiberegel zu erstellen (wenn Sie Apache usw. verwenden), um diese abzufangen und Google möglicherweise einen besseren HTTP-Rückkehrcode mitzuteilen, oder um den Datenverkehr einfach auf eine andere Seite umzuleiten.

2
davidbl