GNU/Linux >> LINUX-Kenntnisse > >> Linux

Warum schlägt sed mit internationalen Zeichen fehl und wie kann man das beheben?

sed ist nicht sehr gut für Nicht-ASCII-Text eingerichtet. Sie können jedoch (fast) denselben Code in perl verwenden und erhalten Sie das gewünschte Ergebnis:

perl -pe 's/.*\| //' x

Ich denke, der Fehler tritt auf, wenn sich die Eingabecodierung der Datei von der bevorzugten Codierung Ihrer Umgebung unterscheidet.

Beispiel:in ist UTF-8

$ LANG=de_DE.UTF-8 sed 's/.*| //' < in
X
Y
$ LANG=de_DE.iso88591 sed 's/.*| //' < in
X 
Y

UTF-8 kann getrost als ISO-8859-1 interpretiert werden, man bekommt seltsame Zeichen, aber ansonsten ist alles in Ordnung.

Beispiel:in ist ISO-8859-1

$ LANG=de_DE.UTF-8 sed 's/.*| //' < in
X
Gras Och Stenar Trad - From MöY
$ LANG=de_DE.iso88591 sed 's/.*| //' < in
X 
Y

ISO-8859-1 kann nicht als UTF-8 interpretiert werden, die Dekodierung der Eingabedatei schlägt fehl. Die seltsame Übereinstimmung ist wahrscheinlich darauf zurückzuführen, dass sed versucht, sich zu erholen, anstatt vollständig zu versagen.

Die Antwort basiert auf Debian Lenny/Sid und sed 4.1.5.

Machen Sie einen Screenshot über ein Python-Skript unter Linux

Was bedeutet die Zahl in Klammern hinter Unix-Befehlsnamen in Manpages?

Linux

Was ist der Grep-Befehl unter Linux? Warum wird es verwendet und wie funktioniert es?

Wann sollte ich /dev/shm/ verwenden und wann sollte ich /tmp/?

So ersetzen Sie mehrere Leerzeichen durch einen Tabulator

Wie kann man Zeichen rekursiv durch sed ersetzen?

So richten Sie passwortloses SSH mit RSA-Schlüsseln ein

Wie benenne ich alle Dateien mit Sonderzeichen und Leerzeichen in einem Verzeichnis um?