it-swarm.com.de

Wie extrahiere ich Text aus dem PDF Dokument?

Wie extrahiere ich Text aus dem PDF document mit PHP ?

(Ich kann keine anderen Tools verwenden, ich habe keinen Root-Zugriff.)

Ich habe festgestellt, dass einige Funktionen für Nur-Text funktionieren, aber Unicode-Zeichen werden nicht richtig verarbeitet:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

53
Sfisioza

Laden Sie die class.pdf2text.php @ https://Pastebin.com/dvwySU1a (Aktualisiert am 5. April 2014) oder http://www.phpclasses.org/browse/file/31030.html (Registrierung erforderlich)

Code:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

Die Klasse funktioniert nicht mit allen PDFs, die ich getestet habe. Probieren Sie es aus und Sie haben vielleicht Glück :)


Wenn dies nicht funktioniert, versuchen Sie http://pdfparser.org/


Project Home ( Problem mit SSL Cert)

48
Pedro Lobito

Ich weiß, dass dieses Thema ziemlich alt ist, aber dieses Bedürfnis lebt noch. Ich habe viele Dokumente, Foren und Skripte gelesen und ein neues erweitertes erstellt, das komprimierte und unkomprimierte PDF-Dateien unterstützt:

https://Gist.github.com/smalot/6183152

Hoffe es hilft jedem

11
Sebastien Malot