Ich brauche PDF-Dateien als Text, damit ich sie in großen Mengen von der Befehlszeile aus durchsuchen kann. Gibt es einen Konverter für Ubuntu, OBSD oder ähnliche Distributionen?
Vielleicht verwandter Beitrag, OCR mit Ubuntu hier.
Akzeptierte Antwort:
Sie haben viele Möglichkeiten!
 pdftotext von poppler wurde bereits erwähnt.
 Es gibt ein Haskell-Programm namens pdf2line was gut funktioniert.
 ebook-convert von Calibre Kommandozeilenprogramm (oder Calibre selbst) ist eine weitere Option; es kann PDF in reinen Text oder andere eBook-Formate (RTF, ePub) konvertieren, meiner Meinung nach erzeugt es bessere Ergebnisse als pdftotext, obwohl es erheblich langsamer ist.
 ebook-convert file.pdf file.txt 
AbiWord kann zwischen allen Formaten konvertieren, die es von der Kommandozeile kennt, und hat zumindest optional ein PDF-Import-Plugin:
 abiword --to=txt file.pdf 
 Eine weitere Option ist podofotextextract aus der Podofo PDF-Tools-Bibliothek. Ich habe das nicht wirklich versucht.
 Wenn Sie die beiden Ghostscript-Tools kombinieren, wird pdf2ps und ps2ascii , haben Sie noch eine weitere Option.
Mir fallen tatsächlich noch ein paar weitere Methoden ein, aber ich belasse es erstmal dabei. 😉