it-swarm.com.de

Gibt es einen besseren PDF-zu-Text-Konverter als pdftotext?

Ich verwende pdftotext (Teil von poppler-utils), um PDF Dokumente in Text zu konvertieren. Es funktioniert größtenteils, aber ich wünschte, es wäre das Einfügen von Leerzeilen zwischen getrennten Absätzen, anstatt sie zusammenzufügen.

Gibt es eine Möglichkeit, pdftotext dazu zu bringen? Und wenn nicht, gibt es ein anderes PDF-zu-Text-Dienstprogramm, das dies tun kann?

60
dan

Sie könnten versuchen, ebook-convert von Kaliber.

Wenn überhaupt, würde ich sagen, dass es in die andere Richtung irrt: zu viele Zeilenumbrüche.

Eine andere Sache, die ich definitiv in Betracht ziehen würde, ist das Konvertieren in HTML mit pdfreflow und dann das Konvertieren des HTML in TXT.

25
frabjous

Wenn Sie pdftotext verwenden, können Sie das Flag -layout verwenden, um das Layout des Texts auf den Seiten in Ihrer Eingabe-PDF-Datei beizubehalten:

pdftotext -layout input.pdf output.txt
115
Noah

Als Fan von Open Source (und Automatisierung) muss ich das nur ungern sagen, aber die besten Ergebnisse, die ich gerade erzielt habe (bei einer ziemlich großen, komplexen PDF-Datei), waren das Öffnen in Adobe Reader und die Auswahl von "Datei" | "Als Text speichern".

(Ich bin für Textanalyseexperimente vorverarbeitet, nicht als Leser, aber ich denke, meine erste und zweite Wahl wären gleich.)

Ich habe die Ausgabe nebeneinander verglichen. Meine zweite Wahl ist ebook-convert.

Adobe: Links in FF für Seitenumbrüche, links in Seitenzahlen, hat Überschriften/Absätze nicht in einzelne Zeilen konvertiert, sondern feste Bindestriche. Junk, der in PDF versteckt war, wurde nicht ausgegeben. Bekam die großen Hauptstädte am Anfang von Abschnitten, z. "Das", nicht "Das" oder sogar "Das".

ebook-convert: Links in Seitenzahlen und etwas versteckter Müll in Kopf-/Fußzeile (aber keine FFs). Konvertiert die meisten Absätze in einzelne Zeilen. Diejenigen, die es verpasst hat, sind jedoch zweizeilig! Aufzählungszeichen stimmen nicht immer mit dem Text überein. Richtig "The" am Anfang des Kapitels.

pdftotext (ohne --layout): Nicht schlecht, Aufzählungszeichen, aber Kopf-/Fußzeilenrauschen. FFs sind da drin. Bindestriche entfernt. Am schlechtesten für große Buchstaben am Anfang des Kapitels: "T\n\nhe".

pdftotext (mit --layout): Ähnlich, aber mehr Einrückungen. "D ie" zum Beginn des Kapitels.

pdftohtml >> pdfreflow >> htmltotext: Es wurden Seitenzahlen entfernt, aber immer noch Junk in der Kopf-/Fußzeile. "D ie" zum Beginn des Kapitels. Bindestriche entfernt. (Es werden mehrere Zeilen pro Absatz verwendet, es handelt sich jedoch nicht um dieselben Zeilenumbrüche wie in den anderen Versionen!)

14
Darren Cook

Wenn Sie ein Google-Konto haben, können Sie mit Google Text & Tabellen das PDF hochladen und es in bearbeitbaren Text umwandeln.

5
xangua

Ich habe auch pypdf ausprobiert und es mit pdftotext in zwei Dokumenten verglichen. Es hatte mehr Zeilenumbrüche und teilte einige Abschnittsnamen auf (REFERENCES war R E F E R E N C E S).

pdf2txt hat vollständigen Müll ausgegeben.

Ich benutze oft pdfBox (Java), wenn pdftotext die Ausgabe vermasselt. Sie könnten es versuchen.

1
Max