Ich brauche PDF-Dateien als Text, damit ich sie in großen Mengen von der Befehlszeile aus durchsuchen kann. Gibt es einen Konverter für Ubuntu, OBSD oder ähnliche Distributionen?
Vielleicht verwandter Beitrag, OCR mit Ubuntu hier.
Akzeptierte Antwort:
Sie haben viele Möglichkeiten!
pdftotext
von poppler wurde bereits erwähnt.
Es gibt ein Haskell-Programm namens pdf2line
was gut funktioniert.
ebook-convert
von Calibre Kommandozeilenprogramm (oder Calibre selbst) ist eine weitere Option; es kann PDF in reinen Text oder andere eBook-Formate (RTF, ePub) konvertieren, meiner Meinung nach erzeugt es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.
ebook-convert file.pdf file.txt
AbiWord kann zwischen allen Formaten konvertieren, die es von der Kommandozeile kennt, und hat zumindest optional ein PDF-Import-Plugin:
abiword --to=txt file.pdf
Eine weitere Option ist podofotextextract
aus der Podofo PDF-Tools-Bibliothek. Ich habe das nicht wirklich versucht.
Wenn Sie die beiden Ghostscript-Tools kombinieren, wird pdf2ps
und ps2ascii
, haben Sie noch eine weitere Option.
Mir fallen tatsächlich noch ein paar weitere Methoden ein, aber ich belasse es erstmal dabei. 😉