GNU/Linux >> LINUX-Kenntnisse >  >> Linux

HTML in unformatierten Klartext?

Verwenden Sie w3m -dump <page.html> .

Es gibt Ihnen die Textdarstellung der HTML-Datei.

Aus der Manpage:

-dump  dump formatted page into stdout

Obwohl dort formatted steht , die Ausgabe ist nur einfacher Text.


html2text ist ein Python-Skript, das eine HTML-Seite in äquivalenten Text mit Markdown-Struktur konvertiert. html2text kann heruntergeladen und in jedem Betriebssystem ausgeführt werden, auf dem Python installiert ist. Das Programm html2text befindet sich in den Repositories vieler Linux-Distributionen und kann wie folgt über die Befehlszeile ausgeführt werden:

html2text -style pretty input.html  

Dieser Befehl wandelt nicht nur die ursprüngliche HTML-Datei in Text um, sondern macht auch die reine Textausgabe gut lesbar. Die Überschriften sehen aus wie Überschriften, die Listen sehen aus wie Listen usw.

Wenn Sie Probleme mit der automatischen Konvertierung von Tabellen von Webseiten in unformatierten Text haben, können Sie dies ganz einfach mit einem modernen Markdown-Editor wie Typora oder Mark Text GUI-Anwendungen für Windows/Mac/Linux tun. Vergleich dieser beiden Anwendungen Mark Text ist besser als Typora darin, alles auf einer Webseite genau zu erfassen, und Typora hat einen benutzerfreundlicheren Editor, daher verwende ich beide Anwendungen. Ich verwende Mark Text als Webseiten-Grabber, und dann kopiere ich den Markdown-Text, den ich erfasst habe, in Typora und verwende Typora, um ihn zu bearbeiten.


Wie von Gombai Sándor in einem Kommentar zur Antwort von NZD erwähnt:

lynx -dump -nolist -nomargins

Wenn es über die Befehlszeile mit einer URL ausgeführt wird, schreibt es die Ausgabe nach stdout. Das scheint sehr gut zu funktionieren. -nomargins wird möglicherweise nicht unterstützt, wenn man nur Zugriff auf eine ältere Version von lynx hat (z. B. Lynx Version 2.8.5rel.5 (29. Okt. 2005) auf einem alten UNIX).

Die Ausgabe erscheint ziemlich frei von Markup und Links, mit einigen möglichen Ausnahmen (die folgende Liste ist möglicherweise nicht typisch oder vollständig):

  • Zusätzliche Leerzeichen scheinen in tabellarischen Daten aufzutreten, und zumindest in einigen Fällen scheint es, dass Leerzeichen zwar normalerweise beim Extrahieren der tabellarischen Daten hilfreich sind, aber gelegentlich in einer Weise inkonsistent sind, die das Parsen erschwert.
  • Während Links nicht gedumpt werden, kann sichtbarer Text ausgegeben werden. Beispielsweise können Fußnotenverweise als Sternchen dargestellt werden, oder in einem Wiki können anklickbare Elemente als äquivalenter Klartext (ohne zugrunde liegende URL) dargestellt werden.
  • Einige Referenzen können den alternativen Text erweitern und ausgeben.
  • Dump von ungeordneten Listen mit Sternchen und Einrückung.
  • Ordnungslisten-Dump mit Zahlen und Einrückung.
  • Eingabefelder können als Unterstriche erscheinen

Linux
  1. Python Konvertieren Sie Microsoft Office-Dokumente unter Linux in reinen Text

  2. Wie konvertiere ich die Shell-Ausgabe von Linux in HTML?

  3. Wie können wir ein anderes Passwort als Klartext speichern?

  4. Wie gebe ich farbigen Text auf einem Linux-Terminal aus?

  5. Abrufen von HTML-Quelltext oder Rich-Text aus der X-Zwischenablage

Pingen Sie mehrere Server an und zeigen Sie die Ausgabe in einer Top-ähnlichen Text-Benutzeroberfläche an

So speichern Sie die Linux-Befehlsausgabe in einem Bild oder einer Textdatei

Bash-Scripting:So schreiben Sie Daten in Textdateien

Text auf der Terminalausgabe suchen?

Bash-Skripting:So geben Sie Text in der Linux-Shell aus und formatieren ihn

Beste Linux-Texteditoren:Die 20 überprüften Text- und HTML-Editoren