GNU/Linux >> LINUX-Kenntnisse >  >> Linux

Tools zum Extrahieren von Text aus Powerpoint PPTX unter Linux?

Wenn Sie die Dateien in bash verarbeiten können , entpackt dieser Einzeiler den gesamten Text:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

Übergeben Sie ihm einfach die pptx-Datei als $1 , und es wird den Text in die Datei $2 schreiben . Der Inhalt jeder Folie wird nicht in der Präsentationsreihenfolge angezeigt, und es gibt keine Beschriftungen oder ähnliches. Sie benötigen also ein paar weitere Zeilen Skript und ein temporäres Verzeichnis, um eine besser lesbare Auflistung zu erhalten.


Da Sie Abiword installiert haben, können Sie einfach zuerst ein PDF erstellen

libreoffice --headless --convert-to pdf filename.pptx

Und dann verwenden Sie abiword, um das PDF in TXT umzuwandeln

abiword --to=txt filename.pdf 

Linux
  1. Eine eingehende Mail von Text/plain zu Text/html ändern?

  2. Linux – Daten aus /etc/shadow extrahieren?

  3. gImageReader – Extrahieren Sie Text aus Bildern und PDFs unter Linux

  4. Wie kann man unter Linux Binärdateien von Textdateien unterscheiden?

  5. Wie extrahiert man Text mit OCR aus einem PDF unter Linux?

So erstellen Sie Verzeichnisse aus einer Textdatei unter Linux

So entfernen Sie ein Passwort aus einer PDF-Datei unter Linux

So zeigen Sie Daten aus einer Textdatei in Linux an

Linux-Tools:du vs. df

So extrahieren Sie E-Mail-Adressen aus einer Textdatei unter Linux

So führen Sie PDF-Dateien mit GUI- und CLI-Tools unter Linux zusammen