it-swarm.com.de

Wie kann man feststellen, wie alt eine Seite ist?

Ich dachte, Google sei mehr oder weniger genau darin, festzustellen, wer zuerst einen Text gepostet und wer kopiert hat. Wenn ich jedoch das "Suchwerkzeug: benutzerdefiniertes Intervall" verwende, sind die Ergebnisse ziemlich merkwürdig. Ich habe Seiten aus dem Jahr 2002 für eine Website gefunden, die ich erst seit ein paar Jahren habe.

Daher ist Google nicht in der Lage, herauszufinden, wer das Original kopiert und wer es geschrieben hat. Was ist?

enter image description here

Wenn stackexchange.com im Jahr 2009 erstellt wurde, wie ist das möglich? hermeneutics.se ist älter als Stack Overflow!

15
Renan

Die Antwort auf diese Frage habe ich folgendermaßen recherchiert: Ich verwende Google, da dies das Beispiel ist, wie Google Erstellungsdaten und Änderungsdaten sowie Datumsformate erhält, die Google erkennt. Bitte haben Sie Verständnis dafür, dass diese Informationen nicht nur auf wenigen Seiten vorhanden sind und ich die Daten aus sehr vielen Quellen heraussuchen musste, von denen einige scheinbar nicht direkt zutreffen, und sie zusammenfügen. In einigen Fällen stammen die Informationen aus mehreren Quellen und sind nicht immer zitierbar.

Google sucht in dieser Reihenfolge nach Seitendaten. URL, Title-Tag, Body (Inhalt), Meta-Tags, HTTP-Response-Header, zumindest für die Google Search Appliance. In anderen Absätzen in anderen Dokumenten wurde keine Reihenfolge dokumentiert, aber die Liste wurde diskutiert und schien die Liste zu bestätigen. Wenn Sie darüber nachdenken, spiegelt dies die Reihenfolge wider, in der eine Suchmaschine arbeiten würde. Erstens: Entdecken Sie Ihre Seite (Link) und zweitens: Lesen Sie Ihre Seite von oben nach unten (Titel, Text und Meta-Tag) mit Ausnahme des Meta-Tags (kleines Detail) und des HTTP-Antwort-Headers. Hier ist die Liste für das Gerät: https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Hinweis: Das Startdatum ist das Datum, an dem die Seite zum ersten Mal von Google angefordert wurde. In Abwesenheit eines Erstellungsdatums wird das Anfangsdatum verwendet.

1] Jede Suchmaschine kann eine Ressource über eine HTTP-GET-Anforderung anfordern und der Webserver gibt das letzte Änderungsdatum im Antwortheader mit der Ressource im Datenpaket zurück.

2] Jede Suchmaschine kann Headerinformationen einer Ressource über eine HTTP HEAD -Anforderung anfordern, und der Webserver gibt das Änderungsdatum im Antwortheader ohne die Ressource im Datenpaket zurück.

3] Jede Suchmaschine kann anfordern, ob eine Ressource seit einem bestimmten Datum geändert wurde, indem sie eine Ressource mit einem HTTP-GET anfordert, bei dem if-modified-since auf ein Datum festgelegt ist. Wenn die Ressource seit dem festgelegten Datum geändert wurde, antwortet der Webserver mit einer Antwort von 200 Ok und gibt die Ressource zurück. Wenn die Ressource seit dem festgelegten Datum nicht geändert wurde, antwortet der Webserver mit 304 Wird nicht geändert, ohne die Ressource zurückzugeben.

Google stellt mithilfe von Methode 3 viele Anfragen, um Bandbreite zu sparen. Sie sehen diese in Ihren Webserver-Protokolldateien.

Hinweis: Möglicherweise kann ein Content-Management-System (CMS) oder eine andere Software das Datum in einem Antwortheader nicht ordnungsgemäß bereitstellen.

Diese Datumsbeispiele stammen ebenfalls aus der Dokumentation der Google Appliance, sind jedoch auch an anderen Stellen in Bezug auf die allgemeine Suche vorhanden. Ich habe diese Details der Gerätedokumentation entnommen, nur weil sie ausgeschnitten und als Liste eingefügt werden konnten, wo sie an anderen Stellen nicht so ordentlich waren.

4] Google sucht nach einem Datum in der URL. Es sucht nach den folgenden Formaten; JJJMMTTHH - JJJJ - JJJJMM.

5] Google sucht nach einem Datum innerhalb des Titel-Tags. Es sucht nach den folgenden Formaten; YYYMMDDHH - YYYY - YYYYMM obwohl ich vermute, dass andere Formate erkannt werden können. Siehe unten.

6] Google sucht nach einem Datum im Body-Tag (Inhalt). Es sucht nach den folgenden Formaten; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY obwohl ich vermute, dass andere Formate erkannt werden können. Siehe unten.

Hinweis: Es ist bekannt, dass Google speziell nach einem Datum sucht, das direkt unter dem ersten H1 -Tag steht. Dies liegt daran, dass in Blogs häufig Daten an dieser Stelle platziert werden.

7] Google sucht nach einem Meta-Tag wie diesem. <meta http-equiv="last-modified" content="[email protected]:mm:ss TMZ" />

Google soll auch die folgenden Datumsformate erkennen.

JJJJ-MD - JJJJ.MT - JJJJ/M/T - JJJJ - JJJJ - M/T/JJJJ - JJ-MM-TT - JJ.MM.TT - JJ/MM/TT - TW, TT MON, YR - WK, MON T, YR - T MON, YR - MON JJJJ - MON T, YR - MON JJJJJ -DM - ​​YYYY.DM - YYYY/D/M - DM-YYYY - DMYYYY - D/M/YYYY - TT-MM-JJ - MM-TT-JJ - TT/MM/JJ - MM/TT/JJ - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYY - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY

Die Forschung, die ich fand, beantwortete nicht die Frage der Zeit.

Bei den genannten Beispielen enthalten die Seiten keine Datumsangaben, außer innerhalb eines span-Tags, das möglicherweise ignoriert wird. Es ist möglich, dass die SE-Software/der SE-Webserver keine Erstellungs- und Änderungsdaten in einem Antwortheader zurückgeben kann.

Warum und wie Google diese Daten ableitet, ist eine gute Frage, die möglicherweise nie geklärt werden kann. Ich werde aber weiter suchen.

12
closetnoc