zurück Home

Codes, Formate

Allgemeines

Da ein Computer letzlich nur Zahlen verarbeitet, sind Vereinbarungen erforderlich, wie ein Buchstabe, ein Bild oder eine Tabelle kodiert wird.
Zeichen - Codierung Zur Eingabe und Wiedergabe von Texten werden umkehrbar eindeutige Codes für Schriftzeichen und Glyphen benötigt.
Character Schriftzeichen sind große und kleine Buchstaben, Leer- und Satzzeichen, Zeichensatzsymbole ($,@, &, §) und Steuerzeichen.
Glyphe Spezielle graphische Darstellung eines Zeichens (Font, kursiv, fett, Kapitälchen). Änder nicht die Bedeutung sondern nur die Darstellung des Zeichens.
Ligatur Darstellung eines Schriftzeichens mit 2 Buchstaben. Z.B. O + E ergibt Œ, a + e ergibt æ
Font Spezielle Schriftart, Typeface, Zuordnung von Textzeichen zu graphischen Abbildungen.
Code -Manipulation Kompression Verschlüsselung Fehlerkorrektur Autentifizierung
Zeichensatz Character Encoding Scheme. Zuordnung von Zahlenwerten zu Textzeichen ASCII ANSI
Zeichen - Codierung
  • ASCII
  • EBCDIC
  • ANSI
  • ISO Latin-1, ISO 8859-1
  • Codepage 850
  • ISO Latin-2
  • Unicode
  • UCS 2 (UTF-16)
  • UTF-8
  • UCS 4  (UTF-32)
EBCDIC Extended Binary Coded Decimal Interchange Code 8 Bit-Zeichensatz
von IBM entwickelt vor allem auf Mainframes von IBM enthält keine Sonderzeichen
ANSI In den Windows-Betriebssystemen von Microsoft bis Windows 98 sowie im Amiga verwendet.
HTML In HTML werden Sonderzeichen durch eine Buchstaben- oder Ziffernfolge dargestellt, die mit & beginnt und mit ";" endet. Z.B. α -> α
ISO Latin-1 = ISO-8859-1 = Codepage 850
  • lateinische Buchstaben
  • arabische Ziffern
  • zahlreiche Interpunktionszeichen
  • Sonderzeichen romanischer Sprachen
  • Sonderzeichen germanischen Sprachen
Die ersten 128 Zeichen von ISO Latin-1 stimmen mit ASCII überein.
ISO Latin-2 = ISO-8859-2 = Codepage 852
  • lateinische Buchstaben
  • diakritische Zeichen für ost-europäische Sprachen
  • Für kyrillische Schrift eigene Zeichensätze
DBCS Double Byte Character Set 16 Bit - Zeichensätzen (2 Byte) können 65.536 verschiedene Zeichen kodieren.
Unicode Enthält alle weltweit bekannten Textzeichen Buchstaben, Silbenzeichen, Piktogramme, Ideogramme, Satzzeichen, Sonderzeichen, Ziffern lateinisch, griechisch, kyrillisch, arabisch, hebräisch, thailändisch,japanisch(Katakana, Hiragana), chinesisch (Kanji) und koreanisch (Hangul). mathematische, kaufmännische und technische Sonderzeichen
Barcode Strichcode zur Auszeichnung von Waren EAN: European Article Number

QR-Code

Quick Response-Code Wird von Smart-Phones eingelesen QR-Code
Unicode, UCS UCS: Universal Character Set Der UCS ist in mehrere Planes unterteilt. UCS-2: 2 Byte - Verschlüsselung. Basic Multilingual Plane höhere Ebenen des UCS: 32 Bit
UTF-16, UCS-2 UTF-16: UCS Transformation Format 16 Bit = 2 Byte UCS-2: 2 Byte - Verschlüsselung Andere Bezeichnung: BMP, Basic Multilingual Plane
Mit 16 Bit sind 65.536 Zeichen möglich. Scripten des UCS-2
  •  lateinische Alphabet
  •  griechische
  •  kyrillische
  •  hebräische
  •  arabische
  •  Satzzeichen und Symbole
  •  asiatische Zeichen
CJK: chinesisch, japanisch, koreanisch
  • japanisch: Hiragana, Katakana
  • koreanisch: Hangul
  • chinesisch
  • jeweils 31.000 Schriftzeichen
  •  10.000 Schriftzeichen stimmen in der japanischen und chinesischen Schrift  überein
  • Im Unicode  21.000 ost-asiatische Schriftzeichen festgelegt
UTF-8 USC Transformation Formats 8 Zeichen ein Byte, 8 Bit Die ersten 256 Zeichen im Unicode entsprechen dem "ISO Latin-1"-Zeichensatz. Im UCS-2 (16 Bit) werden nicht benutzte Stellen durch Leerstellen aufgefüllt. Z.B. Buchstabe A in ASCII 41 hex, in Unicode 0041
UCS 4 Universal Character Set 4: 4 Byte UTF-32, UCS Transformation Format: 32 Bit 94.140 Zeichen definiert, Runen, Hieroglyphen 4.294.967.296 verschiedene Zeichen möglich Java, Windows NT arbeiten intern mit Unicode, Darstellung problematisch

Impressum                                 Zuletzt geändert am 28.07.2015 8:29