UTF-8 standard, české a esperantské znaky

UTF-8 je zkratka pro UCS Transformation Format. UTF-8 je definováno v ISO 10646-1:2000 Annex D, v RFC 3629 a v Unicode 4.1.

Přirozené kódování znaků Unicode/UCS do 2 nebo 4 byte se nazývá UCS-2 a UCS-4. Pokud se nespecifikuje jinak, ukládá se nejprve nejvýznamnější byte. S takto uloženými řetězci je spojeno několik problémů:

Z těchto důvodů není formát UCS-2 a UCS-4 vhodný pro ukládání řetězců do souborů.

Tyto problémy řeší kódování UTF-8, které má následující vlastnosti:

Tabulka českých znaků Unicode

znak HTML dec hex UTF-8 znak HTML dec hex UTF-8
Á Á &#193 Á %C3%81 á á á á %C3%A1
Č Č Č Č %C4%8C č č č č %C4%8D
Ď Ď Ď Ď %C4%8E ď ď ď ď %C4%8F
É É É É %C3%89 é é é é %C3%A9
Ě Ě Ě Ě %C4%9A ě ě ě ě %C4%9B
Í Í Í Í %C3%8D í í í í %C3%AD
Ň Ň Ň Ň %C5%87 ň ň ň ň %C5%88
Ó Ó Ó Ó %C3%93 ó ó ó ó %C3%B3
Ř Ř Ř Ř %C5%98 ř ř ř ř %C5%99
Š Š Š Š %C5%A0 š š š š %C5%A1
Ť Ť Ť Ť %C5%A4 ť ť ť ť %C5%A5
Ú Ú Ú Ú %C3%9A ú ú ú ú %C3%BA
Ů Ů Ů Ů %C5%AE ů ů ů ů %C5%AF
Ý Ý Ý Ý %C3%9D ý ý ý ý %C3%BD
Ž Ž Ž Ž %C5%BD ž ž ž ž %C5%BE

Esperantské znaky v UTF-8 kódování:


znak HTML DEC HEX UTF-8
ĉ ĉ ĉ %c4%89
ŝ ŝ ŝ %c5%9d
ĵ ĵ ĵ %c4%b5
ĥ ĥ ĥ %c4%a5
ĝ ĝ ĝ %c4%9d
ŭ ŭ ŭ %c5%ad
Ĉ Ŭ Ĉ %c4%88
Ŝ Ŝ Ŝ %c5%9c
Ĵ Ĵ Ĵ %c4%b4
Ĥ Ĥ Ĥ %c4%a4
Ĝ Ĝ Ĝ %c4%9c
Ŭ Ŭ Ŭ %c5%ac

Pro psaní esperantských znaků doporučuji používat výhradně kódování UTF-8, nyní UTF-8 standard  unicode 4.1, RFC 3629
Pokud je někdo nucen psát stránky například v kódové stránce windows-1250, pak pro správné zobrazování esperantských znaků stačí psát do zdrojového kódu např.: ĉio - zobrazí se - ĉio atd. Podle mne je to lepší než již překonané spřezky cx, sx atd.

ĉ zobrazí ĉ = cx
Ĉ zobrazí Ĉ = CX
ŝ zobrazí ŝ = sx
Ŝ zobrazí Ŝ = SX
ĵ zobrazí ĵ = jx
Ĵ zobrazí Ĵ = JX
ĥ zobrazí ĥ = hx
Ĥ zobrazí Ĥ = HX
ĝ zobrazí ĝ = gx
Ĝ zobrazí Ĝ = GX
ŭ zobrazí ŭ = ux
Ŭ zobrazí Ŭ = UX