it-swarm.com.de

Wie werden Google-Indexdateien aus der Datenbank abgerufen?

Wir verwenden Joomla mit Remository zum Speichern und Verwalten von Publikationen (fragen Sie mich nicht warum). Dateien (PDF) werden in einer Datenbank gespeichert und können über dynamische, neu geschriebene Links des Formulars aufgerufen werden

http://domain.de/some/path/filename.html

Hier ist ein Beispiel: eine Datei

Aktuelle Browser erkennen zuverlässig, dass sie ein PDF erhalten. wget verwendet den Dateinamen .html, aber nach dem Umbenennen erhalte ich eine funktionierende Datei PDF. curl verhält sich ähnlich; Wenn Sie die Ausgabe in eine (entsprechend benannte) Datei umwandeln, erhalten Sie eine funktionierende Datei. All dies lässt mich glauben, dass die Daten, die unser System zur Verfügung stellt, entgegen aller Wahrscheinlichkeit für die Kunden allgemein gültig und verständlich sind.

Google scheint jedoch keine PDF Dateien zu indizieren, auf die durch solche Links verwiesen wird. Unser Publikationsliste ist indexiert, die dort verlinkten PDFs jedoch nicht (sie werden in der Web- und Scholar-Suche nicht angezeigt).

Wie können wir Suchrobotern anweisen, unsere Dateien abzurufen und zu indizieren?

1
Raphael

Sie können sie nicht erzählen , aber geben Sie ihnen einen starken Hinweis, indem Sie eine Sitemap bereitstellen. Google kann diese auch mit einer Sitemap indizieren oder nicht. Hier erfahren Sie , wie viele der Sitemap-Dateien indiziert wurden. Sie benötigen ein Google Webmaster-Tools-Konto und registrieren Ihre Website bei diesen. Sobald dies erledigt ist, werden die Berichte mit den Sitemap-Übermittlungen und dem Indexstatus angezeigt.

Aus der Sicht einer Suchmaschine es ist wirklich egal, woher die Daten kommen nur, dass darauf zugegriffen werden kann. Möglicherweise tun Sie etwas Besonderes, das Google nicht mag, aber es ist nicht die Tatsache, dass sich Ihre Dokumente in der Datenbank befinden.

Über den von Ihnen angegebenen Link wird beim Klicken auf Ihre Links automatisch versucht, etwas herunterzuladen. Dies kann als unerwünschter Drive-by-Download gelten. Seien Sie also vorsichtig und sorgen Sie für eine schlechte Benutzererfahrung. Wenn der Link als Download gedacht ist, gibt es zu viele Seiten. Überprüfen Sie auch Ihre MIME-Typen, da diese den Google-Crawler möglicherweise nur verwirren.

1
Itai