it-swarm.com.de

Wie konvertiert man eine Webseite nach PDF, wobei das Aussehen (genau wie im Webbrowser) und der Text / die Links erhalten bleiben?

Ich suche nach einer Möglichkeit, eine Webseite in PDF zu konvertieren, aber das Erscheinungsbild der Webseite beizubehalten. Auch wenn der Text der Webseite beibehalten wird (wählbar ist), kann gesucht werden. [Durch Generieren eines Screenshots für die Webseite wird Text weder auswählbar noch durchsuchbar gemacht.].

Ich suche nach Drucken der Webseite auf PDF wie sie ist (wie im Webbrowser) ohne Manipulation des Stils oder der Ausrichtung oder Verlust der statischen Komponenten einer Webseite.

Dies würde dazu beitragen, Offline-Kopien von Webseiten zu erhalten, die leicht lesbar, mit Anmerkungen versehen und durchsuchbar sind.


Um meine Frage zu beantworten, müssen Sie nichts weiter lesen (Frage ist nur der obige Abschnitt) . Der folgende Abschnitt listet nur in verschachtelter Form auf, was ich durch Nachforschungen oder die Antworten anderer erhalten habe, um eine Antwort auf die Frage zu erhalten.

Forschungsergebnisse (Vorschläge, die mein Problem nicht gelöst haben)

Bisherige Ergebnisse bei der Suche nach einer Lösung (Alle funktionieren immer noch nicht als Lösung für diese Frage)

Ich habe diese PDF Web-Druck-Engines ausprobiert, aber alle manipulieren das Erscheinungsbild der Seiten, sind sogar schädlicher und machen einige schwer lesbar: ( Beispielseite Screenshots sind in eckigen Klammern enthalten)

  • Chrome [ Original , Druckstile ( Deaktiviert | Nicht deaktiviert ]
  • Firefox [ Original , Druckstile (deaktiviert p1 , p2 | nicht deaktiviert p1 , p2 ]
  • Lesbarkeit
    • Es vereinfacht die Webseite (was gut für gezieltes Lesen ist - aber das ist nicht das, wonach ich suche). Ich möchte, dass alle im Webbrowser angezeigten Positionen/Stileigenschaften der Webseite in einem Format PDF ohne Manipulation beibehalten werden.
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ Original , Zoomfaktor: 0,4 : Screenshots, ausgegebenes PDF]
    • Ich werde Links hinzufügen, nachdem ich die laufenden Probleme des Programms unter Windows gelöst habe. "
  • wkhtmltopdf [ Original , Zoomfaktor: 0,4 : Screenshots , Ausgegeben PDF ]
    • CSS3 wird nicht unterstützt.

Alle Plugins zur Erfassung von Screenshots auf Webseiten (z. B. Abduction , Fantastischer Screenshot , Fireshot , Firefox-Screenshot-Entwicklertool , Ganzseiten-Screenshot , Page2Images , web-capture , ...) beantworte meine Frage nicht, weil sie nicht Text und Links enthalten.

Scrible eignet sich hervorragend für die Erhaltung von Webseiten wie für weitere Anmerkungen und Recherchen, ist aber leider immer noch online und ohne Konvertierung in das PDF - Format.

Es gibt zwei andere Fragen in der Community, die meiner irgendwie ähnlich sind, aber diese unterscheiden sich ein bisschen, aber mit diesen wichtigen Unterscheidungen:

  • Wie WYSIWYP in einem Webbrowser bekommen (drucken, was Sie sehen)?
    • Diese Frage fragt nach einer Möglichkeit, eine Webseite (wie auf dem Bildschirm zu sehen) zu erfassen, selbst wenn es sich um ein Bild handelt und Text nicht erhalten bleibt. Während ich nach dem Erfassen von Text und Links suche, bewahre ich auch Text und Links ).

Weitere ähnliche Fragen, bei denen das Beibehalten von Text und Links nicht erforderlich ist (Seiten werden hauptsächlich als Bild-Screenshots erfasst):


Anmerkungen

Betriebssystem: Windows 10

19
Omar

In einem Universitätsprojekt standen wir vor dem gleichen Problem und konnten es mithilfe von lösen

wkhtmltopdf

Wir haben die Fähigkeiten dieses Tools auf der Kommandozeile sehr genossen. Wir haben es auch Python-Code genannt, um den aktuellen Status von Webseiten zu rendern. Es besteht die Möglichkeit, die Webseite als PDF zu liefern, normalerweise nicht perfekt, um die Website-Ansicht aufgrund der Seitenformatierung (z. B. A4) beizubehalten, oder als PNG (behält die Ansicht der Seite bei, aber keine Links).

Es gibt auch das von uns verwendete Projekt zur Lesbarkeit (für Python: pypi.python.org/pypi/readability-lxml), das das Entfernen von Anzeigen und das Erkennen von Inhalten recht gut macht (z. B. für Zeitungsartikel und dergleichen). Wenn Sie nur ein Addon oder eine Erweiterung für Ihren Browser wünschen, kann die folgende Implementierung der Lesbarkeit Ihren Anforderungen entsprechen:

https://www.readability.com/addons/

6
SSchneid

Ich hatte das gleiche Problem und fand es über Chrome und mit einem Druckertreiber namens PDF995 heraus, den ich sicher und kostenlos heruntergeladen habe (ein Link zum Herunterladen lautet https: //pdf995.de. softonic.com/ ist eine andere http://downloads.tomsguide.com/pdf995,0301-829.html ).

Ich denke jedoch, dass jeder Webbrowser und jeder PDF-Konverter ausreichen wird. Wie auch immer, hier ist was ich getan habe:

  1. alles auswählen oder Alles markieren.
  2. Klicken Sie mit der rechten Maustaste auf die hervorgehobene Auswahl oder drücken Sie Strg + P (beide Optionen führen zu geringfügig unterschiedlichen Ergebnissen, aber Sie erhalten nach Abschluss dasselbe Ergebnis).

  3. Wenn Sie in 2. mit der rechten Maustaste auf die Auswahl (die Verknüpfung) geklickt haben, klicken Sie auf "Drucken", und nur alles, was Sie ausgewählt haben, wird in der Druckvorschau angezeigt. Stellen Sie sicher, dass Sie Ihr Druckerziel auf den PDF-Konverter ändern, den Sie verwenden möchten (PDF995 oder einen anderen).

  4. Klicken Sie auf "Drucken" und es wird als PDF-Dokument gespeichert.

  5. Wenn Sie stattdessen in 2. (etwas länger) Strg + P gedrückt haben, klicken Sie auf "Weitere Einstellungen" und scrollen Sie nach unten zu "Optionen".

  6. Klicken Sie auf das Kästchen "Nur Auswahl" und alles, was in der von mir beschriebenen Abkürzung steht, wird folgen.

  7. Vergessen Sie nicht, Ihr Druckerziel auf den von Ihnen gewählten PDF-Konverter (PDF995 oder einen anderen) zu ändern.

  8. Klicken Sie auf "Drucken".

1
user726167

Ich hatte wirklich Probleme damit und habe die meisten der bisher erwähnten Tools ausprobiert. Die besten Ergebnisse erzielte ich im kopflosen Modus von Chrome. Der Befehl unter MacOS würde folgendermaßen aussehen:

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

Die beste Liste der von mir gefundenen Befehlszeilenoptionen war hier .

Es gab jedoch Probleme damit. Insbesondere meine Seiten sind sehr stark mit Javascript belastet und ich konnte die Druckfunktion nicht darauf warten lassen, dass sie die Ausführung abschließen. Meine Ausgabe enthielt also keine Bilder.

Die Lösung, die ich gefunden habe, war ein nodeJS-Paket: chrome-headless-render-pdf. Es ist kaum Dokumentation ist hier . Es funktioniert und es ist leicht skriptfähig.

1
AlanObject

Wenn Sie unter Linux arbeiten, probieren Sie dieses kleine Befehlszeilentool CutyCapt aus, das nur von Qt und QtWebkit abhängt, und exportieren Sie es in PDF.

Auch wenn dies nicht genau Ihre Anforderung ist, die nicht in PDF enthalten ist, ist es nur das Ziel, eine Offline-Kopie der Webseiten für eine spätere Überprüfung aufzubewahren. Wenn Sie diese als Webseite speichern, ist dies genau das Richtige.

Die große Einschränkung besteht darin, dass eine HTML-Datei und ein Ordner mit dem gesamten Medieninhalt auf der Seite erstellt werden und nicht ein einzelnes Dokument.

In Chrome und Firefox können Sie eine Seite speichern, indem Sie mit der rechten Maustaste darauf klicken und Speichern unter ... auswählen. In Internet Explorer können Sie sie unter Datei -> Speichern unter speichern (drücken Sie die Alt-Taste, damit die Menüs angezeigt werden).

0
Pyheme

Versuchen Sie diesen Service. Erstellt ein PDF von einer Website, wie Sie es im Browser sehen. https://lomotoh.com/ (Ich bin mit dieser Site verbunden)

0
David Herse

Zumindest der gesamte Text auf einigen Seiten kann durchsucht, ausgewählt, ausgeschnitten und eingefügt werden. Ich versuchte es mit einer Seite, die von einem Computer aus Text und Pixeln roboterhaft zusammengeklebt wurde und die alles zu einem Bild zusammenfügte.

Ich habe diese Dinge jahrelang benutzt. Unter Linux erziele ich die besten Ergebnisse, indem ich die Seite in einem XX Word Ihrer Wahl neu erstelle und das Ergebnis als PDF exportiere. Ich kann zu beträchtlichen Kosten bekommen, was ich will. Aus meiner begrenzten Nutzung Arch ivin Die Website David Herse https://lomotoh.com/ (Ich bin NICHT mit dieser Site verbunden) funktioniert so gut wie alle, die ich jemals benutzt habe. Ich werde mich auf die Suche nach Ressourcen machen, um Webseiten mit PDFs zu versehen, bis ich sie besser finde, oder es kostet mich zu viel, aus meiner eigenen dünnen Geldbörse zu bezahlen.

0
Gordon Couger