Das übliche Tool zum Konvertieren von Microsoft Office-Dokumenten in HTML oder andere Formate war mswordview, das inzwischen in vwWare umbenannt wurde.
Wenn Sie nach einem Befehlszeilentool suchen, empfehlen sie tatsächlich die Verwendung von AbiWord, um die Konvertierung durchzuführen:
AbiWord --to=txt
Wenn Sie nach einer Bibliothek suchen, beginnen Sie auf der wvWare-Übersichtsseite. Sie führen auch eine Liste von Bibliotheken und Tools, die MS Office-Dokumente lesen.
Ich würde mich für die Befehlszeilenlösung entscheiden (und dann das Python-Subprozessmodul verwenden, um die Tools von Python auszuführen).
Konverter für msword (catdoc ), Excel (xls2csv ) und ppt (catppt ) finden Sie (in Quellform) hier:http://vitus.wagner.pp.ru/software/catdoc/.
Ich kann die Nützlichkeit von catppt nicht wirklich kommentieren, aber catdoc und xls2csv funktionieren großartig!
Aber stellen Sie sicher, dass Sie zuerst Ihre Distributions-Repositories durchsuchen ... Auf Ubuntu zum Beispiel ist catdoc nur ein schnelles apt-get weg.
Sie können über die Python-API auf OpenOffice zugreifen.
Versuchen Sie, dies als Basis zu verwenden:http://wiki.services.openoffice.org/wiki/Odt2txt.py