Windowspage - WSL - Zeichenkonvertierung (Zeichensatz) von Texten / Textdateien (ab 1703)

Detailbeschreibung

Betriebssystem: Windows 10, Windows 11

Je nach Land / Region und Betriebssystem (DOS, UNIX, Windows) werden verschiedene Zeichensätze bzw. Zeichencodierungen für die Anzeige sowie Speicherung von Texten verwendet. Die Zeichenkodierungen sind teilweise untereinander nicht kompatibel. Insbesondere Sonderzeichen (z. B. Ä, Ü. Ö) werden bei einer anderen Zeichencodierung (oder einer anderen Länder-/Regionseinstellung) mit einem anderen Zeichen dargestellt. Einige Programme können verschiedene Zeichencodierungen anzeigen und speichern. In allen Linux-Distributionen ist ein kleines Programm enthalten, mit welchem sich ein Text oder eine Textdatei von einer gängigen Zeichencodierung in eine andere Codierung umwandeln lässt.
Hinweis: Das Programm ändert zwar die Zeichensatzkodierung, jedoch nicht die Art des Zeilenumbruchs (Unix / Windows). Hierzu kann nachfolgender Syntax verwendet werden:

DOS-/Windows-Zeilenende zu Unix-Zeilenende: "sed -i 's/\x0D$//' [Dateiname]"
Unix-Zeilenende zu DOS-/Windows-Zeilenende: "sed -i 's/$/\r/' [Dateiname]"

So geht's:

Starten Sie die entsprechende Linux-Distribution (z. B. "Debian" oder "Ubuntu").
Als Befehl geben Sie den Syntax "iconv -f [Quellkodierung] -t [Zielkodierung] [Quelldatei] -o [Zieldatei]" ein.
Z. B.: "iconv -f ISO-8859-1 -t UTF-8 windowspage_iso.txt -o windowspage_utf.txt'"
Drücken Sie die Eingabetaste.
Die Zeichenkonvertierung wird durchgeführt.

iconv -f ISO-8859-1 -t UTF-8 windowspage_iso.txt -o windowspage_utf.txt

Tabelle der Befehlsparameter (Auszug):

Parameter	Kurzbeschreibung
-c	Alle Zeichen, die nicht umgewandelt werden können, werden verworfen.
-f [Quellkodierung]	Die angegebene Quellkodierung für die Zeichen der Eingabe wird verwendet.
-l	Listet alle bekannten / unterstützen Zeichensatzkodierungen auf.
-o [Ausgabedatei]	Die angegebene Ausgabedatei für die Ausgabe wird verwendet.
-t [Zielkodierung]	Die angegebene Zielkodierung für die Zeichen der Ausgabe wird verwendet.

Tabelle der Kodierungen (Auszug):

Kodierung	Kurzbeschreibung
ASCII	American Standard Code for Informaion Interchange
CP437	MS-DOS Englisch
CP850	MS-DOS Westeuropäisch
CP852	MS-DOS Mitteleuropäisch
CP858	MS-DOS Westeuropäisch mit Euro
CP860	MS-DOS Portugiesisch
CP865	MS-DOS Nordisch
CP866	MS-DOS Griechisch
IBM437	OEM United States
IBM850	DOS Westeuropäisch
IBM852	DOS Mitteleuropäisch
IBM1142	IBM EBCDIC (Deutsch mit Euro)
IBM1147	ICM EBCDIC (Französisch mit Euro)
ISO-8859-1	Latin-1, Westeuropäisch
ISO-8859-2	Latin-2, Mitteleuropäisch
ISO-8859-3	Latin-3, Südeuropäisch
ISO-8859-4	Latin-4, Nordeuropäisch
ISO-8859-15	Latin-9, Westeuropäisch
ISO-8859-16	Latin 10, Südosteuropäisch
UTF-7	Unicode (7-Bit)
UTF-8	Unicode (8-Bit)
UTF-16	Unicode (16 Bit)
UTF-32	Unicode (32 Bit)
Windows-1250	Windows Mitteleuropäisch
Windows-1252	Windows Westeuropäisch
[Kodierung]//IGNORE	Wird die Zeichenkette an die Zielkodierung angehängt, dann werden nicht umwandelbare Zeichen verworfen.
[Kodierung]//TRANSLIT	Wird die Zeichenkette an die Zielkodierung angehängt, dann werden die Zeichen umgeschrieben. Zeichen die nicht umgeschrieben werden können, werden mit einem Fragezeichen (?) ausgegeben.

Beispiele:

Die Datei "windowspage_utf.txt" von UTF-8 in ASCII umwandeln, falls notwendig, Zeichen umschreiben und als "windowspage_ascii.txt" speichern:
"iconv -f UTF-8 -t ASCII//TRANSLIT windowspage_utf.txt -o windowspage_ascii.txt"
Die Datei "windowspage_utf.txt" von UTF-8 in die DOS-Codepage 850 umwandeln, alle nicht umwandelbaren Zeichen verwerfen und als "windowspage_850.txt" speichern:
"iconv -c -f UTF-8 -t CP850 windowspage_utf.txt -o windowspage_850.txt"
Alle Kodierungen (inkl. Aliasnamen) ausgeben:
"iconv -l"

Hinweis:

Weitere Optionen zur Textbearbeitung können mit dem Befehl "iconv --help" ausgegeben werden.

Versionshinweis:

Die Linux-Distributionen benötigen mindestens Windows 10 Version 1703.

Zum Seitenanfang

E-Mail

Drucken