Sie müssen zwei verschiedene Befehlszeilentools verwenden, je nachdem, ob Sie mit dem .doc- oder .docx-Format arbeiten.
Verwenden Sie für .doc catdoc:
catdoc foo.doc > foo.txt
Verwenden Sie für .docx docx2txt:
docx2txt foo.docx
Letzteres erzeugt eine Datei namens foo.txt im selben Verzeichnis wie das Original.
Ich bin mir nicht sicher, welche Linux-Distribution Sie verwenden, aber sowohl catdoc als auch docx2txt sind in den Ubuntu-Repositories verfügbar, zum Beispiel:
apt-get install docx2txt
Oder mit Homebrew auf dem Mac:
brew install docx2txt
Hier ist ein Perl-Projekt, das behauptet, es zu tun. Vieles davon habe ich auch von Hand gemacht, indem ich XSLT auf der document.xml verwendet habe. Die Docx-Datei selbst ist nur eine Zip-Datei, Sie können sie entpacken und die Elemente überprüfen. Ich werde sagen, dass dies für bestimmte Dateien nicht schwer zu tun ist, aber im allgemeinen Fall sehr schwierig ist, wegen der fehlenden Dokumentation darüber, wie Word Dinge intern speichert, und der Varianz der internen Darstellung.