Unicode

Unicode je technická norma pro oblast výpočetní techniky definující jednotnou znakovou sadu a konzistentní kódování znaků pro reprezentaci a zpracovávání textů použitelné pro většinu písem používaných v současnosti na Zemi. Unicode je vyvíjen v součinnosti s ISO/IEC 10646 a je publikován elektronicky jako The Unicode Standard. Nejnovější verze obsahuje repertoár více než 140 000 znaků pokrývajících 159 moderních a historických písem a mnoho sad symbolů. Standard sestává ze sady tabulek pro vizuální referenci, popisu metod kódování, sady referenčních datových souborů a dalších položek, jako například vlastností znaků, pravidel pro normalizaci textů, dekompozici, řazení, vykreslování a zobrazování obousměrného textu (pro správné zobrazení textu obsahující písma psaná zprava doleva i zleva doprava, jako například arabské a hebrejské písmo).^[1] Poslední verze je Unicode 16.0 ze září roku 2024. Normu udržuje Unicode Consortium.

Úspěch Unicode v unifikaci znakových sad vedl k jeho rozšíření a převládajícímu používání pro internacionalizaci a lokalizaci počítačového softwaru. Unicode je implementován mnoha technologiemi, včetně moderních operačních systémů, XML, programovacím jazykem Java a .NET Frameworkem firmy Microsoft.

Unicode definuje několik způsobů reprezentace textů různými znakovými kódy. K nejpoužívanějším kódováním patří UTF-8, UTF-16 a zastaralé UCS-2. UTF-8 používá jeden bajt pro libovolný ASCII znak, přičemž všechny ASCII znaky mají v UTF-8 stejné kódové hodnoty jako ASCII a dva až čtyři bajty pro jiné znaky. UCS-2 používá 16bitové kódové jednotky (dva 8bitové bajty) pro každý znak, ale neumožňuje kódovat všechny znaky v aktuálním standardu Unicode. UTF-16 je rozšíření UCS-2, které pomocí dvou 16bitových jednotek (4 × 8 bit) umožňuje kódovat všechny znaky z Unicode. V Číně se používá kódování GB18030, které přebírá celý znakový repertoár Unicode, proto je také jedním ze způsobů kódování Unicode. Mapování GB18030 na UTF-32 je však netriviální (potřebuje převodní tabulku).

Umožňuje současně používat různá písma při vícejazyčném zpracování textu v počítači a kóduje široké portfolio znaků pro profesionální zpracování textů v prakticky jakémkoli moderním i historickém jazyce. Nevýhodou unicode může být složitější zpracování, stejný text zabírá více prostoru na disku nebo v operační paměti počítače. Ovšem výhody univerzální znakové sady drtivě převažují, což je vidět mj. na tom, že starší osmibitové znakové sady jsou dnes definované jako podmnožiny Unicode.

[1]

BOM (hexa)	Velikost prostoru Unicode	Kódování	velikost atomu (B,1B=8b)	počet atomů	maximální délka znaku (B,1B=8b)
EF BB BF	21b, větší než BMP	UTF-8	1B	1 až 4	4B
FE FF	21b, větší než BMP	UTF-16, varianta UTF-16BE, (big-endian)	2B	1 až 2	4B
FF FE	21b, větší než BMP	UTF-16, varianta UTF-16LE, (little-endian)	2B	1 až 2	4B
00 00 FE FF	32b, větší než BMP	UTF-32, varianta UTF-32BE, (big-endian)	2B	2	4B
FF FE 00 00	32b, větší než BMP	UTF-32, varianta UTF-32LE, (little-endian)	2B	2	4B
EF BB BF	31b, větší než BMP	UTF-8, rozšíření	1B	1 až 6	6B
FE FF	16b, právě BMP	UCS-2, varianta UCS-2BE, (big-endian)	2B	1	2B
FF FE	16b, právě BMP	UCS-2, varianta UCS-2LE, (little-endian)	2B	1	2B
-	8b, menší než BMP	ASCII + code page	1B	1	1B
-	7b, menší než BMP	ASCII	1B	1	1B

znak	HTML entita	dec	hex	UTF-8 v URL	znak	HTML entita	dec	hex	UTF-8 v URL
Á	Á	193	U+00C1	%C3%81	á	á	225	U+00E1	%C3%A1
Č	&Ccaron;	268	U+010C	%C4%8C	č	&ccaron;	269	U+010D	%C4%8D
Ď	&Dcaron;	270	U+010E	%C4%8E	ď	&dcaron;	271	U+010F	%C4%8F
É	É	201	U+00C9	%C3%89	é	é	233	U+00E9	%C3%A9
Ě	&Ecaron;	282	U+011A	%C4%9A	ě	&ecaron;	283	U+011B	%C4%9B
Í	Í	205	U+00CD	%C3%8D	í	í	237	U+00ED	%C3%AD
Ň	&Ncaron;	327	U+0147	%C5%87	ň	&ncaron;	328	U+0148	%C5%88
Ó	Ó	211	U+00D3	%C3%93	ó	ó	243	U+00F3	%C3%B3
Ř	&Rcaron;	344	U+0158	%C5%98	ř	&rcaron;	345	U+0159	%C5%99
Š	&Scaron;	352	U+0160	%C5%A0	š	&scaron;	353	U+0161	%C5%A1
Ť	&Tcaron;	356	U+0164	%C5%A4	ť	&tcaron;	357	U+0165	%C5%A5
Ú	Ú	218	U+00DA	%C3%9A	ú	ú	250	U+00FA	%C3%BA
Ů	&Uring;	366	U+016E	%C5%AE	ů	&uring;	367	U+016F	%C5%AF
Ý	Ý	221	U+00DD	%C3%9D	ý	ý	253	U+00FD	%C3%BD
Ž	&Zcaron;	381	U+017D	%C5%BD	ž	&zcaron;	382	U+017E	%C5%BE

Znak	Unicode jméno	České jméno	Kód
´	COMBINING ACUTE ACCENT	čárka nad písmenem	U+0301
ˇ	COMBINING CARON	háček	U+030C
˚	COMBINING RING ABOVE	kroužek	U+030A

Unicode

Historie

Historie verzí Unicode

Principy standardu Unicode

Architektura Unicode

Basic Multilingual Plane

Roviny Unicode

Náhradní páry

Skupiny Unicode

Mapa Unicode

Kódování

UTF-32

UTF-16

UTF-8

UCS-2

Další kódování

Využití

Operační systémy

Aplikace

Web

Čeština

Tabulka českých znaků Unicode

Odkazy

Wikiwand - on