UTF-8 je zkratka pro UCS Transformation Format. UTF-8 je definováno v ISO 10646-1:2000 Annex D, v RFC 3629 a v Unicode 4.1.
Přirozené kódování znaků Unicode/UCS do 2 nebo 4 byte se nazývá UCS-2 a UCS-4. Pokud se nespecifikuje jinak, ukládá se nejprve nejvýznamnější byte. S takto uloženými řetězci je spojeno několik problémů:
Z těchto důvodů není formát UCS-2 a UCS-4 vhodný pro ukládání řetězců do souborů.
Tyto problémy řeší kódování UTF-8, které má následující vlastnosti:
znak | HTML | dec | hex | UTF-8 | znak | HTML | dec | hex | UTF-8 |
---|---|---|---|---|---|---|---|---|---|
Á | Á | Á | Á | %C3%81 | á | á | á | á | %C3%A1 |
Č | Č | Č | Č | %C4%8C | č | č | č | č | %C4%8D |
Ď | Ď | Ď | Ď | %C4%8E | ď | ď | ď | ď | %C4%8F |
É | É | É | É | %C3%89 | é | é | é | é | %C3%A9 |
Ě | Ě | Ě | Ě | %C4%9A | ě | ě | ě | ě | %C4%9B |
Í | Í | Í | Í | %C3%8D | í | í | í | í | %C3%AD |
Ň | Ň | Ň | Ň | %C5%87 | ň | ň | ň | ň | %C5%88 |
Ó | Ó | Ó | Ó | %C3%93 | ó | ó | ó | ó | %C3%B3 |
Ř | Ř | Ř | Ř | %C5%98 | ř | ř | ř | ř | %C5%99 |
Š | Š | Š | Š | %C5%A0 | š | š | š | š | %C5%A1 |
Ť | Ť | Ť | Ť | %C5%A4 | ť | ť | ť | ť | %C5%A5 |
Ú | Ú | Ú | Ú | %C3%9A | ú | ú | ú | ú | %C3%BA |
Ů | Ů | Ů | Ů | %C5%AE | ů | ů | ů | ů | %C5%AF |
Ý | Ý | Ý | Ý | %C3%9D | ý | ý | ý | ý | %C3%BD |
Ž | Ž | Ž | Ž | %C5%BD | ž | ž | ž | ž | %C5%BE |
znak | HTML | DEC | HEX | UTF-8 |
ĉ | ĉ | ĉ | %c4%89 | |
ŝ | ŝ | ŝ | %c5%9d | |
ĵ | ĵ | ĵ | %c4%b5 | |
ĥ | ĥ | ĥ | %c4%a5 | |
ĝ | ĝ | ĝ | %c4%9d | |
ŭ | ŭ | ŭ | %c5%ad | |
Ĉ | Ŭ | Ĉ | %c4%88 | |
Ŝ | Ŝ | Ŝ | %c5%9c | |
Ĵ | Ĵ | Ĵ | %c4%b4 | |
Ĥ | Ĥ | Ĥ | %c4%a4 | |
Ĝ | Ĝ | Ĝ | %c4%9c | |
Ŭ | Ŭ | Ŭ | %c5%ac |
Pro psaní esperantských znaků doporučuji používat výhradně kódování UTF-8, nyní UTF-8 standard unicode 4.1, RFC 3629
Pokud je někdo nucen psát stránky například v kódové stránce
windows-1250, pak pro správné zobrazování esperantských znaků stačí
psát do zdrojového kódu např.: ĉio - zobrazí se - ĉio
atd. Podle mne je to lepší než již překonané spřezky cx, sx atd.
ĉ
zobrazí ĉ = cx
Ĉ zobrazí Ĉ = CX
ŝ zobrazí ŝ = sx
Ŝ zobrazí Ŝ = SX
ĵ zobrazí ĵ = jx
Ĵ zobrazí Ĵ = JX
ĥ zobrazí ĥ = hx
Ĥ zobrazí Ĥ = HX
ĝ zobrazí ĝ = gx
Ĝ zobrazí Ĝ = GX
ŭ zobrazí ŭ = ux
Ŭ zobrazí Ŭ = UX