GNU/Linux >> LINUX-Kenntnisse >  >> Linux

Gibt es eine Art PDF-zu-Text-Konverter?

Ich brauche PDF-Dateien als Text, damit ich sie in großen Mengen von der Befehlszeile aus durchsuchen kann. Gibt es einen Konverter für Ubuntu, OBSD oder ähnliche Distributionen?

Vielleicht verwandter Beitrag, OCR mit Ubuntu hier.

Akzeptierte Antwort:

Sie haben viele Möglichkeiten!

pdftotext von poppler wurde bereits erwähnt.

Es gibt ein Haskell-Programm namens pdf2line was gut funktioniert.

ebook-convert von Calibre Kommandozeilenprogramm (oder Calibre selbst) ist eine weitere Option; es kann PDF in reinen Text oder andere eBook-Formate (RTF, ePub) konvertieren, meiner Meinung nach erzeugt es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.

ebook-convert file.pdf file.txt

AbiWord kann zwischen allen Formaten konvertieren, die es von der Kommandozeile kennt, und hat zumindest optional ein PDF-Import-Plugin:

abiword --to=txt file.pdf

Eine weitere Option ist podofotextextract aus der Podofo PDF-Tools-Bibliothek. Ich habe das nicht wirklich versucht.

Wenn Sie die beiden Ghostscript-Tools kombinieren, wird pdf2ps und ps2ascii , haben Sie noch eine weitere Option.

Mir fallen tatsächlich noch ein paar weitere Methoden ein, aber ich belasse es erstmal dabei. 😉


Linux
  1. Awk Einzeiler und Skripte, die Ihnen beim Sortieren von Textdateien helfen

  2. Sysadmin-Toolbox:Verwenden des Sortierbefehls zum Verarbeiten von Text in Linux

  3. Gibt es „esoterische“ (schräge), aber standardkonforme C-Compiler oder Runtimes?

  4. Eine eingehende Mail von Text/plain zu Text/html ändern?

  5. PDF-Dateien mit numerischer Sortierung zusammenführen

Geany Texteditor - eine Art Flaschengeist

PDF-Viewer mit auswählbarem Text?

Tools zum Extrahieren von Text aus Powerpoint PPTX unter Linux?

Gibt es eine Möglichkeit, Text in htop zu kopieren?

Textdateien mit mehreren Zeilen als Reihe sortieren

Gibt es einen spezialisierten PDF-Viewer für Latex-Beamer-Präsentationen unter Linux?