it-swarm.com.de

Durchforsten Suchmaschinen PDF-Dateien und wenn ja, gibt es Regeln, nach denen sie erstellt werden müssen

Die Website, an der ich arbeite, enthält einige hundert PDFs. Ich glaube nicht, dass ich jemals gesehen habe, wie einer von ihnen bei einer Suche zurückkam, aber es gibt Links zu direkt von unserer Website. Sie sind auch voller Stichwörter, da es sich um Produktdokumente handelt.

Müssen wir etwas Besonderes tun, damit Google oder andere Suchmaschinen sie crawlen?

Gibt es feste Regeln für das Erstellen von PDFs, damit Google sie besser mag? Soll ich sie beispielsweise über Ghostscript ausführen, um beschädigte PDF Tags zu bereinigen, die Adobe während der Generierung erstellt hat?

22
Ben Hoffman

Google indiziert definitiv PDF Dateien und Sie können nur nach PDF Dateien suchen, indem Sie filetype:pdf zu Ihrer Suchanfrage hinzufügen ( Beispiel ).

Ich würde sagen, die wichtigsten Dinge, die zu tun sind, um ein PDF zu optimieren, damit es leicht indiziert werden kann, wären:

  • Geben Sie einen aussagekräftigen Dateinamen ein
  • Vervollständigen Sie alle Eigenschaften der Dokumentmetadaten (Titel, Autor, Stichwörter usw.).
  • Stellen Sie sicher, dass Ihr PDF aus tatsächlichem Text und nicht gescannten Bildern besteht
  • Stellen Sie sicher, dass Sie gute Inhalte mit der richtigen Verwendung von Überschriften haben, genau wie bei einem HTML-Dokument

Weitere Tipps finden Sie unter Optimieren von PDF Dokumenten und Elf Tipps zum Optimieren von PDFs für Suchmaschinen

17
Dan Diplo

Bei anderen Suchmaschinen bin ich mir nicht sicher, aber für Google ist die Hauptregel, sie nicht über robots.txt auszuschließen

This war ihre erste Ankündigung, die Suche PDF zu unterstützen.

1
intlect

So wie die Konformität einer Website mit Ihrem SEO nicht schaden kann, kann es auch nicht schaden, wenn Sie Ihr PDF zugänglich machen. Die in Adobe integrierte Barrierefreiheitsprüfung ist bei weitem nicht perfekt, aber zumindest das Korrigieren dieser Bereiche wird Ihnen den Einstieg erleichtern.

Wahrscheinlich verbringe ich 5 Minuten mit 4 oder 5, meistens Text-PDFs, die wir online stellen. Die Zeitspanne steigt gleichmäßig an, abhängig von der Anzahl der Seiten und der Komplexität dieser Seiten.

Angenommen, Sie haben Adobe Acrobat Pro für die Bearbeitung:

  • Führen Sie eine vollständige Barrierefreiheitsprüfung durch. (Schneller Check ist für mich ziemlich sinnlos)
  • Aktualisieren Sie die Metainformationen in den Dokumenteigenschaften (Schlüsselwörter, Betreff, Sprache usw.).
  • Stellen Sie sicher, dass Tags hinzugefügt werden
  • Stellen Sie sicher, dass der Text als Text, Bilder als Bilder, Hintergrundmaterial als Hintergrund markiert ist
  • Kennzeichnen Sie nutzlose Flusen (wie Dekoration oder Design) als Hintergrund
  • Fügen Sie den Bildern guten Alternativtext hinzu
  • Stellen Sie in der Lesereihenfolge sicher, dass der Text ordnungsgemäß sortiert ist
  • Stellen Sie in der Inhaltssymbolleiste sicher, dass der Text nicht dupliziert oder grob falsch übersetzt wurde
  • Verwenden Sie den OCR-Scanner für gescannte Seiten

Für fortgeschrittenere Bearbeitungen wie Tabellen und wirklich merkwürdige Adobe-Fehler verwenden wir ein Plugin namens CommonLook. CommonLook erledigt den Job, aber ich hasse ihn fast so sehr wie die Adobe-Tools.

Machen Sie sich mit dem Werkzeug Lesereihenfolge nachbessern, der Symbolleiste Tags, der Symbolleiste Lesereihenfolge und der Symbolleiste Inhalt vertraut. Mein Job erfordert vollständig konforme Dokumente, bevor ich ins Web gehe, aber jeder kann von einigen einfachen Tag- und Dokumenteigenschaften profitieren.

1
MrChrister