it-swarm.com.de

Wie finde ich heraus, wann eine URL zum ersten Mal von Google indiziert wurde?

Wie finde ich heraus, wann eine bestimmte URL zum ersten Mal von Google indiziert wurde? Ich würde eine Lösung vorziehen, die auch für die URLs von Mitbewerbern funktioniert, die mir nicht gehören.

16
matcheek

Um das Alter einer URL zu ermitteln, können Sie diesem Link folgen, indem Sie www.example.com durch die gewünschte URL ersetzen:

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

Zum Beispiel ist hier das Ergebnis von Google für die Meta-Site von Stack Overflowenter image description here

Ansonsten ist die Wayback-Maschine ebenfalls eine gute Lösung, aber meiner Erfahrung nach weniger genau.

14
Zistoloen

Zistoloen Es wurde eine Möglichkeit gefunden, Google das Datum anzeigen zu lassen, an dem der Inhalt der Seite zum ersten Mal indiziert wurde. Ich füge es auch meiner Antwort hinzu, weil ich denke, ich kann es klarer erklären.

  1. Durchsuchen Sie Google nach etwas, das die gewünschte Seite als Ergebnis anzeigt
  2. Verwenden Sie "Suchwerkzeuge"
  3. Wählen Sie "Benutzerdefinierter Bereich ..." aus der Dropdown-Liste "Jederzeit"
  4. Geben Sie einen großen Datumsbereich ein, z. B. 1.1.1900 bis 1.1.2020

Google zeigt dann im Suchergebnis das Datum an, an dem der Inhalt auf der Seite gefunden wurde.

first indexed

Wenn die Seite mit neuem Inhalt aktualisiert wird, aktualisiert Google auch dieses Datum. Es handelt sich also eher um ein Datum, an dem der Inhalt zum ersten Mal indiziert wird, als um ein Datum, an dem die URL zum ersten Mal indiziert wird.


Der Google-Cache für eine Seite zeigt an, wann die Seite zuletzt indexiert wurde. Sie können sehen, dass die Stack Exchange-Homepage heute zuletzt indiziert wurde:

enter image description here


Eine andere Option ist die Verwendung von Wayback-Maschine des Internet-Archivs . Das zeigt Ihnen, wie eine Seite in der Vergangenheit aussah. Sie können herausfinden, wann die Seiten zum ersten Mal veröffentlicht wurden. Sowohl Google als auch das Internetarchiv crawlen und verwenden die Seite kurz nach ihrer Erstveröffentlichung.

8

Möglicherweise gibt es keinen Weg, um herauszufinden, wann eine beliebige Webseite zum ersten Mal von Google indexiert wurde - ich kenne sicherlich keinen Weg, dies zu tun. Es ist möglich, dass Google diese Informationen einfach nicht speichert, da es keinen wirklichen Grund dafür gibt. Außerdem haben sie, selbst wenn sie diese Informationen speichern, keinen besonderen Grund, sie Dritten frei zugänglich zu machen.

(Wenn es sich um Ihre eigene Seite handelt und Sie Zugriff auf Ihre alten Webserver-Zugriffsprotokolle haben, ist dies ganz einfach. Durchsuchen Sie die Protokolle nach dem ersten Besuch von Googlebot auf dieser Seite. Andernfalls kann dies möglicherweise nicht sicher festgestellt werden.)


In jedem Fall gibt die von Zistoloen und Stephen Ostermiller in ihren Antworten beschriebene Methode im Allgemeinen nicht das Datum an, an dem eine bestimmte URL zum ersten Mal von Google indexiert wurde. Es zeigt vielmehr das Datum an, an dem Google glaubt , dass der Inhalt unter der URL veröffentlicht oder zuletzt aktualisiert wurde, und basiert häufig auf den mehr oder weniger zuverlässigen Versuchen von Google, Daten von der Seite zu "beschnüffeln" Inhalt selbst.

In this video geht Matt Cutts von Google kurz auf die Auswahl dieser Daten ein. Der Einfachheit halber habe ich den relevanten Teil des Videos (ungefähr von 2:09 bis 2:22) unten transkribiert:

"... Oft wird das Datum angezeigt, wenn wir es ableiten oder wenn wir es zum ersten Mal gesehen haben, wann immer wir diese Seite gecrawlt haben oder wenn wir es irgendwo auf der Seite finden und wir dieses Datum extrahieren können." Das sehe ich gleich am Anfang des Snippets. "

Bei Seiten wie Blog-Posts, Wiki-Seiten oder Stack Exchange-Fragen, bei denen die Website, auf der die Software ausgeführt wird, automatisch ein genaues Erstellungs-/Änderungsdatum auf der Seite selbst meldet, stimmt das von Google gemeldete Datum wahrscheinlich mit diesem überein. Für andere Arten von Seiten muss der Datums-Sniffer von Google jedoch härter arbeiten, und es stimmt nicht immer (was auch immer "richtig" in diesem Kontext bedeuten mag).

Insbesondere sind diese Datumsangaben aus zwei Gründen für die Bestimmung, vor welcher Zeit eine Seite indexiert wurde , im Grunde unbrauchbar:

  • Wenn eine Seite kürzlich geändert wurde und das Änderungsdatum auf der Seite deutlich sichtbar ist, wird es möglicherweise von Google als "Datum" der Seite übernommen, auch wenn die Änderung völlig unbedeutend war.

    Zum Beispiel ist diese ziemlich alte Wiki-Seite (welches archive.org erstmals in 2003 indiziert ) derzeit von Google mit dem Datum 10. November 2014 versehen - dem Datum, an dem es wurde zuletzt bearbeitet (siehe unten auf der Seite). Die Änderung, die an diesem Datum passiert ist? Entfernen Sie einfach einen einzelnen Link vom unteren Rand der Seite.

  • Umgekehrt scheint Google froh zu sein, sehr alte "Veröffentlichungsdaten" zu akzeptieren, wenn sie auf der Seite gefunden werden - auch solche, die älter sind als der Start des World Wide Web .

    Zum Beispiel ist diese Seite in einem alten Programmierwettbewerb von Google auf den 15. September 1986 datiert - eigentlich das Datum des auf der Seite beschriebenen Ereignisses. In ähnlicher Weise wird diese Seite, die einen Studentenstreik 1970 dokumentiert ​​von Google auf den 10. Mai 1970 datiert (das Datum eines der gescannten Dokumente auf der Seite) und, noch absurder, Diese Linux-Handbuchseite wird von Google auf den 4. November 1989 datiert (ein zufälliges Beispieldatum, das auf der Seite verwendet wird).

    Sie können noch viele weitere Beispiele finden, indem Sie die von Stephen und Zistoloen beschriebene benutzerdefinierte Suche nach Datumsbereichen verwenden, das obere Ende des Bereichs jedoch beispielsweise auf 6. August 1991 einstellen.

4
Ilmari Karonen