Wenn Sie die Dateien in bash
verarbeiten können , entpackt dieser Einzeiler den gesamten Text:
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Übergeben Sie ihm einfach die pptx-Datei als $1
, und es wird den Text in die Datei $2
schreiben . Der Inhalt jeder Folie wird nicht in der Präsentationsreihenfolge angezeigt, und es gibt keine Beschriftungen oder ähnliches. Sie benötigen also ein paar weitere Zeilen Skript und ein temporäres Verzeichnis, um eine besser lesbare Auflistung zu erhalten.
Da Sie Abiword installiert haben, können Sie einfach zuerst ein PDF erstellen
libreoffice --headless --convert-to pdf filename.pptx
Und dann verwenden Sie abiword, um das PDF in TXT umzuwandeln
abiword --to=txt filename.pdf