it-swarm.com.de

Zählen Sie die Anzahl der Wörter in einer PDF Datei

Wie kann ich die Wortzahl einer PDF-Datei ermitteln? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtzahl der Wörter erhalten möchte, eine eingebettete Textebene haben, sodass ich keine OCR benötige.

Die Aufgabe ergab sich aus der Suche nach wissenschaftlichen Arbeiten bekannter Größe, z. 15000 Wörter. Die meisten Moders Papers werden im PDF-Format veröffentlicht

64
osgx

Schnelle Antwort:

pdftotext myfile.pdf - | wc -w

Lange Antwort:

Unter Unix können Sie pdftotext verwenden:

und dann die Wortzählung in der generierten Datei. Unter Unix können Sie Folgendes verwenden:

wc -w converted-pdf.txt

um das Wort zu zählen.

Siehe auch den Kommentar von frabjous - im Grunde können Sie dies in einem Schritt tun, indem Sie zu stdout anstatt zu einer temporären Datei leiten:

pdftotext myfile.pdf - | wc -w
87
icyrock.com

Dies ist eine schwierige Aufgabe, die nicht einfach zu lösen ist. Wenn Sie wirklich ein genaues Ergebnis wünschen, kopieren Sie Absatz für Absatz für Ihren PDF Viewer in eine Textdatei und überprüfen Sie diese mit dem Tool wc -w. Der Grund, warum Sie in diesem Fall pdftotext nicht verwenden sollten, ist: Mathematische Formeln können auch in die Ausgabe einfließen und als "Wörter" betrachtet werden. (Alternativ können Sie die Ausgabe bearbeiten, die Sie von pdftotext erhalten). Ein weiterer Grund, warum dies fehlschlagen kann, sind die Überschriften: "4.3.2 Foo Bar" wird als drei Wörter gezählt.

Ein Ausweg besteht darin, nur Wörter zu zählen, die mit einem Buchstaben aus [A-Za-z] beginnen. Was ich normalerweise mache, ist ein zweistufiger Ansatz:

  1. holen Sie sich die Liste der eindeutigen Wörter und prüfen Sie, ob zu viele falsche Positive enthalten sind:

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    Ich verwende hier kein Wörterbuch, da einige Rechtschreibfehler nicht als Wörter gelten.

  2. Holen Sie sich diese Wortliste und schreiben Sie sie in die Ausgabe von pdftotext:

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

Ich weiß, dass dies innerhalb eines Einzeilers möglich ist, aber dann konnte ich das Filterergebnis des ersten Schritts nicht leicht erkennen. Der -F kann Ihnen helfen, wie aus dem Kommentar von moi hervorgeht (danke).

13
math

Ich habe gerade ein kostenloses Programm ausprobiert, Translator's Abacus . Sie können verschiedene Dateitypen (einschließlich PDF) ziehen und ablegen. Ein Browser mit einem druckbaren Bericht über die Anzahl der Wörter für jedes Dokument wird geöffnet. Es hat gut funktioniert für mich. (Es ist speziell für Word-Zählungen erstellt und ist nur 435 KB ... das heißt, keine "große Anwendung"). Translator's Abacus funktioniert nicht mit PDF 1.5 oder höher.

Alternativ : Sie können nur Ctrl+A Markieren Sie den gesamten Text in Acrobat Reader und fügen Sie ihn in ein Programm wie Microsoft Word ein (das in der Statusleiste am unteren Bildschirmrand eine Word-Anzahl aufweist).

10
Adam

Wenn Sie Acrobat Pro verwenden, können Sie dies auf einfache Weise tun, indem Sie PDF in ein Microsoft Word-Dokument exportieren und anschließend die Wortzählung in Word durchführen. Alternativ können Sie es in eine Nur-Text-Datei exportieren und ein Word Count-Dienstprogramm im Texteditor Ihrer Wahl verwenden. Ich habe gerade eine Word-Zählung für einen PDF-Artikel mit der Word-Methode durchgeführt und es dauerte 30 Sekunden, bis er fertig war.

Hoffe das hilft.

2
Bruce Crawford

Ich finde den Wortzähler in den Abrakadabra-Werkzeugen praktisch. Die Installation ist allerdings etwas schrullig.

0
Christoph

Sie können das JavaScript der Adobe Acrobat-Konsole mit dem folgenden Code verwenden, den ich aus der Antwort von Dave Merchant auf forums.Adobe.com entnommen habe:

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");

Getestet mit Adobe Acrobat Pro DC 2018.011.20040 unter Windows 7 SP1 x64 Ultimate.


So aktivieren Sie die JavaScript-Konsole:

enter image description here

So starten Sie das JavaScript-Konsolenfenster:

CTRL + J

enter image description here

Zu Ihrer Information, wenn Sie die LaTeX-Quelle haben, die der PDF entspricht: Korrekte Wortanzahl eines LaTeX-Dokuments .

0