it-swarm.com.de

PDF hat beim Kopieren und Einfügen einen verstümmelten Text

Ich versuche, Text aus einer PDF -Datei zu kopieren und einzufügen.

Wenn ich jedoch den Originaltext einfüge, ist es ein riesiges Durcheinander verstümmelter Zeichen. Der Text sieht wie folgt aus (dies ist nur ein kleiner Auszug):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Ich habe es sowohl in Adobe als auch in Foxit PDF Readern versucht. Ich habe in Adobe Reader ein 'Als Text speichern' durchgeführt und die resultierende Textdatei ist derselbe verstümmelte Text.

Irgendwelche Ideen, wie ich diesen Text unverständlich rausholen kann? (Abgesehen von der manuellen Eingabe muss viel Text extrahiert werden.)

23
ngm

Die einfachste Möglichkeit, dies zu umgehen, besteht darin, die Datei in einer aktuellen Version von Google Chrome mit integriertem PDF Lese-Plugin zu öffnen. Dann können Sie die Suchfunktion von Chrome verwenden, um nach Text zu suchen, und das Kopieren und Einfügen funktioniert ordnungsgemäß.

Ich würde gerne den Kommentar von pipitas zu Shikis Antwort abstimmen, aber ich habe nicht die richtigen Antworten :( Das Problem ist möglicherweise benutzerdefinierte Schriftkodierung, nicht Verschlüsselung Klicken Sie in Acrobat auf Datei -> Eigenschaften und dann auf die Registerkarte Schriftarten, um die Codierung anzuzeigen, sowie auf die Registerkarte Sicherheit, um festzustellen, ob sie verschlüsselt ist.

10
acatalept

Ich habe dieses Problem bei von mir erstellten PDF-Dateien entdeckt und bin der Meinung, dass ich die Ursache des Problems aufgespürt habe: Verwenden der Vorschau von Mac OS X, um die Dateigröße von PDF zu verringern.

Ich habe mit dem Colorsync-Dienstprogramm einige Quarzfilter erstellt, um Bilder in PDF-Dateien zu komprimieren und die Gesamtgröße der PDF-Dateien mit Bildern zu verringern. Wie hier beschrieben: http://www.macosxhints.com/article.php?story=20031106133852693

Ich stellte fest, dass ich problemlos Text aus der ursprünglichen (nicht komprimierten) PDF -Datei kopieren und einfügen kann, aber nachdem ich diese PDF über einen von mir erstellten Filter zum Reduzieren der Dateigröße ausgeführt habe, wurde der resultierende Text komprimiert PDF kopiert und fügt nicht klar ein (sieht aus wie die von Ihnen geposteten Zeichenfolgen).

Wenn Sie jedoch dasselbe ursprüngliche PDF über die Funktion zum Reduzieren der Dateigröße in Adobe Acrobat Pro Document ausführen, kann das resultierende komprimierte PDF erfolgreich Text kopieren und einfügen.

Dies ist in Ihrem Fall nicht unbedingt hilfreich, vorausgesetzt, Ihre PDF -Datei wurde von einer anderen Stelle empfangen und Sie können nicht zur Originalversion zurückkehren, wenn sie tatsächlich auf irgendeine Weise komprimiert wurde. Aber das könnte die Erklärung sein - dass die Datei irgendwie entstellt wurde, um die Dateigröße zu reduzieren.

Dies kann hilfreich sein, wenn Inhaltsersteller ähnliche Probleme beim Kopieren und Einfügen von Text aus PDF-Dateien haben. Gehen Sie beim Verkleinern Ihrer PDF-Dateien mit OS X Quartz-Filtern vorsichtig vor!

--edit-- Dieses Problem ist mir auch beim Kombinieren von PDFs mit der Vorschau aufgefallen. Die beiden Quell-PDFs können problemlos kopiert und eingefügt werden. Wenn Sie jedoch eine Seite aus einer Datei in eine andere ziehen und dann die kombinierte PDF-Datei speichern, kann der Text im kombinierten Dokument nicht kopiert/eingefügt werden. Hierbei handelt es sich um zwei Dokumente, die beide gleichzeitig mit Filemaker Pro 11 auf dem Mac erstellt wurden. Ich kann mir nicht vorstellen, dass sie unterschiedliche Codierungen oder ähnliches aufweisen.

4
Daniel

Es gibt noch einen anderen sehr einfachen Weg, um dieses Problem zu umgehen :)

Drucken Sie das Dokument einfach mit CutePdf, Adobe 2 Pdf oder einem ähnlichen Gerät aus. Das Fazit ist, dass Sie in das PDF-Format drucken müssen.

In vielen Fällen kann das Problem dadurch leicht behoben werden.

4
Nick Olszanski

Gelöst: (arbeitete für mich auf Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Drucken aus Acrobat mit "Microsoft XPS Document Writer" Die Ausgabe lautet: "Ihr Dateiname.oxps"
  2. Öffne "... oxps" mit XPS Viewer. * (siehe Download-Link in den Kommentaren unten)
  3. Drucken Sie in PDF (Acrobat PDF oder CutePDF) mit der höchsten Auflösung (600 DPI).
  4. Öffnen Sie mit Acrobat und verwenden Sie die OCR-Option (Searchable Image (Exact)).

BINGO!

Bemerkungen:

  • Wenn Sie die höchste Auflösung und das durchsuchbare Bild (exakt) verwenden, wird Ihr Text gespeichert, ohne dass sein sauberes Erscheinungsbild verloren geht. Eine niedrige Auflösung macht Ihren Text lesbar, sieht aber beschissen aus.
  • Laden Sie Microsoft XPS herunter (Dateien): http://www.Microsoft.com/en-us/download/details.aspx?id=11816
  • Wenn Sie nicht wissen, was OCR ist oder wo Sie das durchsuchbare Bild (genau) finden oder wie Sie mit "Microsoft XPS Document Writer" drucken, gehen Sie bitte auf eigene Faust auf Google, um die bestmöglichen Ergebnisse zu erzielen.

* Nur herunterladen, wenn Sie XPS nicht installiert haben.

Option 2:

Machen Sie es ähnlich, aber speichern Sie es als Bild (png, tiff, ...), dann müssen Sie alle Seiten wieder in einer "PDF" -Datei zusammenfassen.

2
user210118

Lösung, die bei mir funktioniert hat:

  • Laden Sie das Dokument auf Google Drive/Docs hoch
  • Google wird es (ab 2013) als PDF importieren
  • Öffnen Sie die PDF -Ansicht und wählen Sie Datei > Öffnen mit > Google Text & Tabellen
  • Der Export des Dokuments dauert ungefähr eine Minute

Die Ergebnisse waren nicht perfekt, aber ich war zu 80% auf dem Weg dorthin und erhielt genug Text, damit ich nicht alles neu schreiben musste!

2
Gavin Miller

Durch das Hochladen auf Google Text & Tabellen und die Verwendung der Option Ansicht> Nur HTML wird textkopierfähiger Text mit einigen kleinen Fehlern auf etwa 80% korrigiert ein bisschen Leerzeichen fehlen.

Dieser Thread mit akzeptierter Antwort auf dasselbe Problem erklärt dies mit einem Arbeitsbeispiel.

1
Ankit

Es besteht die Gefahr, dass die Informationen überhaupt nicht abrufbar sind. PDF Dokumente sind im Wesentlichen ein Dokument, das über einem anderen liegt, ein einfacher Text, das andere ein Bild. Wenn Sie aus dem Dokument kopieren und einfügen, markieren Sie den Text, während Sie das Bild betrachten. In die Zwischenablage wird jedoch der entsprechende Teil des Textteils kopiert.

Abhängig von der Art und Weise, wie das Dokument erstellt wird, können Qualität und Verfügbarkeit des Textteils sehr unterschiedlich sein. Wenn Sie ein Textverarbeitungsdokument im Format PDF mit Acrobat, Word, einem PDF - Druckertreiber oder einer anderen Methode speichern, ist die Qualität in der Regel hervorragend, da die Textdatei sehr gut sein kann Erstellt aus dem Text des Originals. Einige Sonderzeichen können verzerrt sein, aber normaler Text ist in Ordnung.

Wenn das Dokument jedoch aus einem gescannten Bild erstellt wird, wird der Textteil in der Regel durch OCR-Verarbeitung des Bildes erstellt. Dies kann zu ziemlich schlechten Ergebnissen führen, insbesondere wenn das Original für diesen Zweck nicht optimal ist.

Ein fehlerhaftes Programm, das zum Erstellen der PDF-Datei verwendet wurde, oder die falschen Einstellungen können auch dazu führen, dass der Textteil vollständig verstümmelt wird, da möglicherweise einige Arten der Verschlüsselung für die Datei ausgeführt werden, nachdem sie erstellt wurde.

Die Quintessenz ist, wenn der Textteil des Dokuments wirklich schlecht ist, gibt es keine Möglichkeit, ihn zu verbessern. Am besten entfernen Sie den gesamten Textteil und lassen das Programm den OCR-Vorgang wiederholen. Ich denke, dass dies in Acrobat möglich ist, bin mir aber nicht ganz sicher.

1
Emil

Ein möglicher Grund hierfür könnte sein, dass beim Einbetten von Schriftarten in das PDF eine benutzerdefinierte Codierung verwendet wurde, die beim Kopieren von Text aus dem PDF nicht korrekt angewendet wird.

Sie können verschiedene Methoden anwenden, um zu verhindern, dass Sie den gesamten Inhalt manuell eingeben.

  1. Haben Sie versucht, den Text mit einem der Tools "pdftotext.exe" zu extrahieren, die über das Internet heruntergeladen werden können? (Ich würde das empfehlen, das in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.Zip enthalten ist.) .
  2. Die neueste Version von Acrobat Reader verfügt über die Option "Als Text speichern ..." . Dabei wird nicht "copy'n'paste" verwendet (was den verstümmelten Text ergab), sondern es werden wahrscheinlich die gleichen Softwareroutinen verwendet, die für das Rendern von verwendet wurden.der Text auf dem Bildschirm und kann daher zu besser verwendbaren Ergebnissen führen.
  3. Wenn '2.' funktioniert nicht und wenn Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, PDF mithilfe eines der Distiller-Profile mit eingebetteten Schriftarten erneut zu destillieren.
  4. Wenn '3.' funktioniert nicht, obwohl Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, die PDF-Datei erneut zu destillieren. Verwenden Sie diesmal jedoch die Option "Als Bild drucken" (verfügbar über die Schaltfläche "Erweitert" in der unteren linken Ecke des Hauptdrucks) Dialog). Stellen Sie sicher, dass Sie 600 dpi verwenden (obwohl dies zu einer großen Datei führen kann). Das resultierende PDF öffnen Sie dann erneut in Acrobat Pro. Wenden Sie nun den 'OCR'-Algorithmus von Acrobat auf die Datei an. Dies führt zu eingebettetem Text (nicht zum Rendern auf dem Bildschirm im Reader, sondern zum Suchen und Hervorheben von Zeichenfolgen). Jetzt können Sie erneut versuchen, den Text aus dieser PDF-Datei mit einer der oben beschriebenen Methoden zu extrahieren.
1
Kurt Pfeifle

Ich habe die Google Text & Tabellen-Option nicht ausprobiert, da sie in meinem Büro immer noch nicht unterstützt wird. Durch Drucken der Datei in "ScanSoft PDF Create!" von "Acrobat 9" (druckt die gesamte Datei in ein Bild) und öffnet die gedruckte Datei in "Nuance PDF Converter" (es hat mich gefragt, ob ich die Bilddatei durchsuchbar und bearbeitbar machen möchte, für die ich mich entschieden habe ), Ich konnte ein Word-Dokument haben, aus dem ich leicht kopieren und einfügen kann. Es ist jedoch nicht perfekt mit einer Genauigkeit von nur ca. 80-90%. Aber hey, Sie haben immer noch die ursprüngliche PDF -Datei zum Vergleichen und Versetzen der Teile, die einfach nicht repariert werden können. Spart Zeit beim Tippen. Mein 2c.

1
Jhonrie

Einer meiner Benutzer hat gerade dasselbe Problem gemeldet (PDF wurde mit Distiller für Windows erstellt), dass kopierter Text nur verstümmelter Text ist und er nicht in einem Dokument suchen konnte. Ich habe es auf meinem Mac versucht und kein Problem gefunden. Es stellte sich heraus, dass ich Apples Preview-Anwendung verwendete, während er Adobe Reader auf seinem Windows-Computer verwendete. Dann habe ich Adobe Reader auf meinem Mac ausprobiert und den gleichen Effekt erlebt. Für mich sieht es so aus:

  • Adobe Reader versucht, den gespeicherten Text zu durchsuchen.

  • Die Vorschau von Apple kopiert und sucht nach dem Anwenden des Kodierungsvektors.

Ich kann das nicht mit Sicherheit sagen, aber es würde meine Beobachtung erklären. Und es würde in der Tat erlauben, alle Arten von Kodierungen vorzunehmen, wenn kombinierte/reduzierte Dateien gespeichert werden, wie in einem anderen Beitrag hier beschrieben: Mit Vorschau können Sie den Text immer noch wieder herausholen.

Zuerst dachte ich, es wäre logischer, die Teilmenge der eingebetteten Schrift als zusammenhängende Einträge zu codieren, anstatt Löcher darin zu lassen und die ursprüngliche Zeichenposition zu verwenden. Aber dann wurde mir klar, dass durch die Verwendung eines Kodierungsvektors für die Schriftuntermenge mit Originaleinträgen bei häufig verwendeten Zeichen weniger Bits in ihrem Byte auf 1 gesetzt und besser komprimiert werden können (dies kann die Entrophie des Zeichensatzes verringern) Gesamttext auf diese Weise).

1
Reuti

Ich habe mit einer alten Version von Scansoft PDF Converter für Windows XP einige PDFs mit bearbeitbarem Text erstellt und dann die Seiten in Macs Vorschau-Programm kombiniert. Für jede einzelne Seite konnte ich mit Adobe Reader auf dem Mac Text korrekt suchen, kopieren und exportieren. In der Vorschau kombiniert und als eine Datei gespeichert, sahen alle auf dem Bildschirm gut aus, aber nur wenige Passagen konnten korrekt durchsucht/exportiert werden. Dieses Problem hat mich hierher gebracht.

Die Beiträge hier gaben mir einige gute Hinweise (danke!). Ich habe mir die Dateieigenschaften für Schriftarten angesehen. Die Einzelseitendateien von Win XP (wo alles in Ordnung ist) besagten, dass die Codierung ANSI war. Die in der Vorschau kombinierte Datei (bei der der kopierte Text verstümmelt ist) zeigte die Codierung für die meisten Schriftarten als "Eingebaut", einige als "Römisch".

Die Lösung für mein Problem war die ganze Zeit unter meiner Nase - das Scansoft-Programm selbst kann Dateien kombinieren. Als ich Scansofts Combiner verwendete und die Datei auf dem Mac öffnete, wurden alle Schriftarten als ANSI-codiert angezeigt und der gesamte Text wurde perfekt exportiert/kopiert. Warum um alles in der Welt ich sie überhaupt nicht in PDF Converter kombiniert habe, weiß ich nicht. Danke, Poster!

Gleiches gilt für das Öffnen der Dateien auf einem Linux-System.

Ich weiß, dass dies nicht die Windows-Probleme erklärt - es sei denn, die PDF hatten ähnliche gemischte Ursprünge?

0
Jimbo