it-swarm.com.de

Wie kann man eine PDF - Datei OCR und den im PDF gespeicherten Text speichern?

Zunächst entschuldigen wir uns, wenn dies zuvor gefragt wurde. Ich habe eine Weile in den vorhandenen Posts gesucht, konnte aber keine Unterstützung finden.

Ich bin an einer Lösung für Fedora interessiert, um eine mehrseitige nicht durchsuchbare PDF zu OCR und diese PDF in eine neue PDF Datei umzuwandeln, die die Textebene enthält oben auf dem Bild. Unter Mac OSX oder Windows könnten wir Adobe Acrobat verwenden, aber gibt es eine Lösung unter Linux, speziell unter Fedora?

This scheint eine Lösung zu beschreiben - aber leider bin ich schon beim Abrufen des exakten Bildes verloren.

26
ingli

Nachdem ich erfahren hatte, dass Tesseract jetzt auch durchsuchbare PDFs erstellen kann, fand ich das Skript-Sandwich: http://www.tobias-elze.de/pdfsandwich/

nach der Installation von Abhängigkeiten (dies ist möglicherweise nicht die vollständige Liste)

Sudo dnf install svn ocaml unpaper tesseract

Ich habe die Anleitung des Skripts zum Kompilieren aus dem Quellcode befolgt

Aus Quellen kompilieren

pdfsandwich ist Open Source Software (Lizenz: GPL). Sie können die Quellen entweder als .tar.bz2-Paket aus dem Downloadbereich auf der Projektwebsite herunterladen oder von Subversion auschecken:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

Wenn OCaml auf Ihrem System installiert ist, können Sie wie folgt kompilieren und installieren:

cd pdfsandwich
./configure
make
Sudo make install

und das erlaubt mir jetzt zu rennen

sandwich multipaged-non-searchable.pdf

was zu einem durchsuchbaren PDF führt.

10
ingli

Der beste und einfachste Ausweg ist die Verwendung von pypdfocr, da dadurch das PDF nicht geändert wird. pypdfocr ist ein python Modul Link hier.

pypdfocr your_document.pdf

Am Ende haben Sie ein weiteres your_document_ocr.pdf wie Sie es mit durchsuchbarem Text wollen. Die App ändert die Bildqualität nicht. Erhöht die Größe der Datei ein wenig, indem der Überlagerungstext hinzugefügt wird.

Ich denke, der Befehl ist ziemlich einfach, da er keine GUI benötigt. Vielleicht ist die Installation von pypdfocr etwas ausführlicher:

Sudo dnf -y install tesseract 
pip install pypdfocr 

Update 3. November 2018:

pypdfocr wird seit 2016 nicht mehr unterstützt und ich habe einige Probleme festgestellt, weil ich nicht gewartet wurde. ocrmypdf ( module ) erledigt einen ähnlichen Job und kann folgendermaßen verwendet werden:

ocrmypdf in.pdf out.pdf

Installieren:

pip install ocrmypdf

oder

Sudo apt install ocrmypdf #ubuntu
Sudo dnf -y install ocrmypdf #Fedora
28

Ein einfaches Tool, das in Ubuntu verfügbar ist, ist "ocrfeeder", mit dem PDFs mit OCR-Text erstellt werden können, der den Originaldokumenten überlagert ist. Es verwendet Tesseract plus andere OCR-Engines (nicht sicher, welche) und sorgt auch für Bildrotation/'Unpaper' usw.

5
jdpipe

Ich hatte das gleiche Problem, also schrieb ich das über das Wochenende. Versuch es einmal; es funktioniert super! Es ist ein einfacher Wrapper um tesseract. Es verwendet pdftoppm, um ein PDF in eine Reihe von TIFF-Dateien zu konvertieren, dann verwendet es tesseract, um OCR (Optical Character Recognition) für sie durchzuführen und ein zu erstellen durchsuchbar PDF als Ausgabe. Alle temporären Zwischendateien werden nach Abschluss des Skripts automatisch gelöscht.

Quellcode: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Anweisungen zur Installation und Verwendung von pdf2searchablepdf:

Getestet auf Ubuntu 18.04 am 11. November 2019.

Installieren:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

Sudo apt update
Sudo apt install tesseract-ocr

Verwenden:

pdf2searchablepdf mypdf.pdf

Sie haben jetzt ein PDF mit dem Namen mypdf_searchable.pdf , das durchsuchbaren Text enthält!

Erledigt. Es hat keine python Abhängigkeiten, da es derzeit vollständig in Bash geschrieben ist.

Referenzen oder verwandte Ressourcen:

  1. PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
  4. https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich : Alternativer Software-Wrapper, den ich gerade entdeckt habe, der auch einen Besuch wert ist! http://www.tobias-elze.de/pdfsandwich/
2
Gabriel Staples