it-swarm.com.de

Wie entferne ich Tausende von URLs aus dem Google-Cache?

Google hat Tausende von PDFs von meiner Website zwischengespeichert, die nicht öffentlich sein sollten. Ich habe meine Header aktualisiert, muss aber den vorhandenen Schnellansichts-Cache entfernen.

Mit dem Google Webmaster-Tool kann ich sie einzeln entfernen. Dies ist jedoch angesichts der Menge der zu entfernenden Dateien offensichtlich nicht praktikabel.

Weiß jemand, wie ich PDFs stapelweise aus dem Google-Cache entfernen kann? Idealerweise möchte ich einen Weg finden, um alles zu entfernen, was mit "site: mysite.com * .pdf" übereinstimmt.

12
laura

Scheint, als hätten Sie bereits herausgefunden, wie Sie Entfernen einer einzelnen URL anfordern sollen, was hier offensichtlich nicht in Frage kommt. Im zweiten Schritt können Sie auch Entfernen eines gesamten Verzeichnisses anfordern, wenn die Datei-URLs auf diese bestimmte Weise vorhersehbar sind. (Wenn Sie Tausende PDFs haben, würde ich hoffen, dass sie zumindest einigermaßen organisiert sind.) Wenn nicht, stehen Ihnen die Optionen so gut wie nicht zur Verfügung , Unglücklicherweise.

9
Su'

Ich hatte vor kurzem einen Hack, der meiner Site mehrere tausend gefälschte Seiten hinzufügte.

Ich habe eine korrigierte Sitemap an die Google-Suchkonsole gesendet (zuvor als Webmaster-Tools bezeichnet) und alle Links auf 410 gesetzt, aber die meisten von ihnen wurden von Google immer noch indiziert.

Ich habe WebMaster Tools - Massenentfernung von URLs Chrome Extension verwendet, um die URLs automatisch zum Entfernen zu übermitteln. Grundsätzlich handelt es sich um ein Skript, das eine Liste der URLs erstellt und diese nacheinander für Sie einreicht. Es wird Stunden dauern, sie alle einzureichen, aber zumindest müssen Sie es nicht selbst tun. Hier ist ein Artikel, wie man es benutzt .

Sie können eine Liste der von Google indizierten URLs abrufen, indem Sie die Daten direkt von der Suchkonsole herunterladen. Gehen Sie zu Status> Indexabdeckung, wählen Sie die gültigen Ergebnisse aus und scrollen Sie nach unten. Sie werden sehen, dass Google eine Menge URLs indiziert hat, die nicht in Ihrer Sitemap enthalten sind. Sie können die ersten 1000 Ergebnisse herunterladen. Es gibt anscheinend einen Umweg, um alle zu erhalten, nicht nur die ersten tausend, sondern es handelt sich um API-Aufrufe aus Excel. Ich habe nur ein paar Tage zwischen tausend gewartet, als sie langsam aus dem Index fielen.

Google Index Coverage Snapshot

Eine andere Möglichkeit besteht darin, dass ein WP -Plugin eine Sitemap erstellt und dann die PDF-Dateien oder was auch immer Sie anvisieren, herausfiltert. Hier müssen Sie wahrscheinlich einige manuelle Schritte zum Kopieren/Einfügen/Löschen ausführen. Aus Sicherheitsgründen habe ich langsam meine Liste mit etwa 2.700 Spam-URLs durchgeblättert und die legitimen URLs gelöscht. Es dauerte nur etwa 20 Minuten.

Wenn Sie nicht permanent versuchen, Inhalte wie Spam zu vernichten und stattdessen Premium-Ressourcen zu verschleiern, sollten Sie andere Methoden anwenden, um die Indizierung dieser Ressourcen zu verhindern, z. B. eine Robots-Datei. Aber wenn sich herausstellt, dass Google nicht zugehört hat oder Sie den Ball fallen gelassen haben, können Sie das Problem zumindest jetzt beheben und sie in nur wenigen Tagen aus dem Index entfernen.

In meinem speziellen Fall frage ich mich, warum Google keine Schaltfläche für die Zeitmaschine hat, oder warum ich sie nicht rückgängig machen oder zurücksetzen kann. Die Idee ist, dass ich Google mitteilen kann, dass die Website vor ein paar Tagen gehackt wurde, aber wir haben sie repariert. Machen Sie daher die letzten x Tage des Crawls und Indizierens rückgängig. Das wäre aber zu einfach.

2
fredsbend

Wenn die Dateien "nicht öffentlich sein sollten", sollten sie im öffentlichen Internet verfügbar sein. Sie können die Dateien aus Google-Listen entfernen (über robots.txt und andere Methoden). Wenn die Dateien jedoch noch vorhanden sind, kann sie jeder herunterladen.

Sie sollten sie hinter einer Art Authentifizierung aufbewahren. Verschieben Sie beispielsweise die Dateien aus dem öffentlichen Webverzeichnis und stellen Sie sie über ein Skript bereit, das überprüft, ob der Benutzer zuerst gültig ist.

1
DisgruntledGoat