it-swarm.com.de

Wie erhalte ich eine Liste aller indizierten Links?

Ich suche nach einer Möglichkeit, jeden von Google indizierten Link in eine CSV-Datei zu exportieren. In letzter Zeit hat Google weit mehr Seiten indexiert als ich tatsächlich habe, und ich möchte herausfinden, woher all diese Seiten stammen, ohne jede Suchergebnisseite anzeigen zu müssen.

8
Lee

Leider gibt es keine Möglichkeit, eine vollständige Liste aller indizierten Seiten in Google zu erhalten. Selbst die Lösung von milo5b bringt Ihnen nur maximal 1.000 URLs.

Es hört sich so an, als hätten Sie Probleme mit doppelten Inhalten. Aktivieren Sie in den Webmaster-Tools die Option "Integrität"> "Indexstatus", um eine kumulative Gesamtzahl der im Laufe der Zeit indexierten Seiten anzuzeigen. Wenn die Grafik an einer Stelle einen großen Sprung macht, können Sie möglicherweise herausfinden, ob eine bestimmte Änderung auf Ihrer Site den Sprung ausgelöst hat.

Sie können auch versuchen, Bings Webmaster-Tools zu verwenden. Sie haben einen Index-Explorer, mit dessen Hilfe Sie die URLs finden können. Suchmaschinenspinnen sind sich ziemlich ähnlich. Wenn Google diese Links gefunden hat, hat Bing dies wahrscheinlich auch getan.

Ich dachte, Bing hätte eine Möglichkeit, die meisten seiner Daten zu exportieren, aber ich kann sie nicht auf einen flüchtigen Blick finden. Es gibt jedoch eine API, mit der Sie wahrscheinlich alles extrahieren können.

6
DisgruntledGoat

Am Ende habe ich nach der Site domain.com/foo/bar/ gesucht, um den problematischen Unterordner aufzuspüren. Bei meiner Suche bin ich jedoch auf eine Methode gestoßen, mit der die Suchergebnisse in eine Excel-Datei übertragen werden können.

Öffnen Sie eine Google Text & Tabellen-Tabelle und verwenden Sie diese Formel:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Es werden nur die ersten 100 Ergebnisse angezeigt, aber Sie können es erneut verwenden, um die nächsten 100 zu erhalten. Ändern Sie einfach die Startvariable:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Dies wird nur bis zu 1000 Ergebnisse liefern, wie zuvor von DisgruntledGoat erwähnt, aber die Formel kann geändert werden, um Links von bestimmten Unterverzeichnissen bereitzustellen:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

8
Lee

Sie könnten ein Skript schreiben, das Googles SERP analysiert (zum Beispiel PHP + Curl) und jeden Link in einer CSV-Datei speichern. Achten Sie darauf, dass sich Ihr Skript wie ein Mensch verhält, da Google Ihre IP-Adresse für einige Stunden aus den Suchergebnissen verbannen kann, wenn Sie dies missbrauchen.

2
milo5b