Уникод

Уникод
	Логото на Уникодниот конзорциум
Именувања	Универзален збир на кодни знаци (UCS)
Јазик(ци)	Меѓународен
Стандард	Уникоден стандард
Кодирачки формати	UTF-8, UTF-16, GB18030; поретко во употреба: UTF-32, BOCU, SCSU
Претходно	ISO 8859, и други
	п; р; у;

Уникод е стандард во компјутерската индустрија за доследно кодирање, претставување и ракување со текстови, изразени во повеќето од светските системи за пишување. Најновата верзија содржи збирка од 136.755 знаци, кои опфаќаат 139 современи и историски скрипти, како и повеќе сетови од симболи. Стандардот Уникод се одржува во врска со ISO/IEC 10646, и обата се код-за-код идентични.

Кратки факти Именувања, Јазик(ци) ...

Затвори

Уникод стандардот се состои од колекција на код графици за визуелна презентација, метод на кодирање и колекција на стандардни знаци за кодирање, колекција од референтни датотеки со податоци и голем број поврзани елементи, како што се својствата на знакот, правилата за нормализација, декомпозицијата, споредувањето, рендерирањето и двонасочниот ред на прикажување (за правилно прикажување на текст кој ги содржи и двата вида на системи за пишување, од десно кон лево системот за пишување, како што е арапското и хебрејското и од лево кон десно системот за пишување). Од јуни 2017 година, најновата верзија е Уникод 10.0. Стандардот го одржува Уникод конзорциумот.^[1]

Успехот на Уникод во обединувањето на колекциите од знаци, довел до негова широка распространетост и примарна употреба во интернационализацијата и локализацијата на компјутерскиот софтвер. Стандардот бил имплементиран во многу нови технологии, вклучувајќи ги и модерните оперативни системи, XML, Јава (и други програмски јазици) како и .NET Framework.

Уникодот може да биде имплементиран со различни знаци за кодирање. Уникод стандардот ги дефинира UTF-8, UTF-16 и UTF-32, како и неколку други кодирања кои се во употреба. Најчесто користени кодирања се UTF-8, UTF-16 и UCS-2, претходникот на UTF-16.

UTF-8, доминантно користен од мрежните места (преку 90%),^[2] користи еден бајт за првите 128 кодни точки, и најмногу до 4 бајти за другите знаци.^[3] Првите 128 Уникод точки се ASCII знаци, што значи дека секој ASCII текст, е исто така и UTF-8 текст.

UCS-2 користи два бајта (16 бита) за секој знак, но може да ги кодира првите 65.536 кодни точки, т.н. Основно Повеќејазично Ниво (ОПН). Со 1.114.112 кодни точки на 17 нивоа што се можни, и со над 137.000 кодни точки дефинирани досега, многу Уникод знаци се надвор од дофатот на UCS-2. Затоа UCS-2 е застарен, иако сè уште се користи во софтверот. UTF-16 го проширува UCS-2, користејќи го истото 16-битно кодирање како и UCS-2 за Основното Повеќејазично Ниво и 4-бајтно кодирање за другите нивоа. Сè додека не содржи кодни точки во задржаниот опсег U+0D800-U+0DFFF, UCS-2 текстот е важечки UTF-16 текст.

UTF-32 (исто така се нарекува и UCS-4) користи четири бајти за секој знак. Како и UCS-2, бројот на бајти по знак е фиксен, олеснувајќи го индексирањето на знаците; но за разлика од UCS-2, UTF-32 може да ги кодира сите Уникод кодни точки. Меѓутоа, бидејќи секој знак користи четири бајти, UTF-32 зема значително повеќе простор во однос на другите кодирања, и не е широко користен.

[1]

[2]

[3]

Верзија	Дата	Одговарачка ИСО/ИЕЦ 10646 верзија	Скрипти	Знаци
Верзија	Дата	Одговарачка ИСО/ИЕЦ 10646 верзија	Скрипти	Вкупно	Значајни дополнувања
1.0.0	October 1991		24	7,161	Initial repertoire covers these scripts: Arabic, Armenian, Bengali, Bopomofo, Cyrillic, Devanagari, Georgian, Greek and Coptic, Gujarati, Gurmukhi, Hangul, Hebrew, Hiragana, Kannada, Katakana, Lao, Latin, Malayalam, Oriya, Tamil, Telugu, Thai, and Tibetan.^[12]
1.0.1	June 1992		25	28,359	The initial set of 20,902 CJK Unified Ideographs is defined.^[12]
1.1	June 1993	ISO/IEC 10646-1:1993	24	34,233	4,306 more Hangul syllables added to original set of 2,350 characters. Tibetan removed.^[12]
2.0	July 1996	ISO/IEC 10646-1:1993 plus Amendments 5, 6 and 7	25	38,950	Original set of Hangul syllables removed, and a new set of 11,172 Hangul syllables added at a new location. Tibetan added back in a new location and with a different character repertoire. Surrogate character mechanism defined, and Plane 15 and Plane 16 Private Use Areas allocated.^[12]
2.1	May 1998	ISO/IEC 10646-1:1993 plus Amendments 5, 6 and 7, as well as two characters from Amendment 18	25	38,952	Euro sign and Object Replacement Character added.^[12]
3.0	September 1999	ISO/IEC 10646-1:2000	38	49,259	Cherokee, Ethiopic, Khmer, Mongolian, Burmese, Ogham, Runic, Sinhala, Syriac, Thaana, Unified Canadian Aboriginal Syllabics, and Yi Syllables added, as well as a set of Braille patterns.^[12]
3.1	March 2001	ISO/IEC 10646-1:2000 ISO/IEC 10646-2:2001	41	94,205	Deseret, Gothic and Old Italic added, as well as sets of symbols for Western music and Byzantine music, and 42,711 additional CJK Unified Ideographs.^[12]
3.2	March 2002	ISO/IEC 10646-1:2000 plus Amendment 1 ISO/IEC 10646-2:2001	45	95,221	Philippine scripts Buhid, Hanunó'o, Tagalog, and Tagbanwa added.^[12]
4.0	April 2003	ISO/IEC 10646:2003	52	96,447	Cypriot syllabary, Limbu, Linear B, Osmanya, Shavian, Tai Le, and Ugaritic added, as well as Hexagram symbols.^[12]
4.1	March 2005	ISO/IEC 10646:2003 plus Amendment 1	59	97,720	Buginese, Glagolitic, Kharoshthi, New Tai Lue, Old Persian, Syloti Nagri, and Tifinagh added, and Coptic was disunified from Greek. Ancient Greek numbers and musical symbols were also added.^[12]
5.0	July 2006	ISO/IEC 10646:2003 plus Amendments 1 and 2, as well as four characters from Amendment 3	64	99,089	Balinese, Cuneiform, N'Ko, Phags-pa, and Phoenician added.^[12]
5.1	April 2008	ISO/IEC 10646:2003 plus Amendments 1, 2, 3 and 4	75	100,713	Carian, Cham, Kayah Li, Lepcha, Lycian, Lydian, Ol Chiki, Rejang, Saurashtra, Sundanese, and Vai added, as well as sets of symbols for the Phaistos Disc, Mahjong tiles, and Domino tiles. There were also important additions for Burmese, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of Capital ẞ.^[12]
5.2	October 2009	ISO/IEC 10646:2003 plus Amendments 1, 2, 3, 4, 5 and 6	90	107,361	Avestan, Bamum, Egyptian hieroglyphs (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, Javanese, Kaithi, Lisu, Meetei Mayek, Old South Arabian, Old Turkic, Samaritan, Tai Tham and Tai Viet added. 4,149 additional CJK Unified Ideographs (CJK-C), as well as extended Jamo for Old Hangul, and characters for Vedic Sanskrit.^[12]
6.0	October 2010	ISO/IEC 10646:2010 plus the Indian rupee sign	93	109,449	Batak, Brahmi, Mandaic, playing card symbols, transport and map symbols, alchemical symbols, emoticons and emoji. 222 additional CJK Unified Ideographs (CJK-D) added.^[12]
6.1	January 2012	ISO/IEC 10646:2012	100	110,181	Chakma, Meroitic cursive, Meroitic hieroglyphs, Miao, Sharada, Sora Sompeng, and Takri.^[12]
6.2	September 2012	ISO/IEC 10646:2012 plus the Turkish lira sign	100	110,182	Turkish lira sign.^[12]
6.3	September 2013	ISO/IEC 10646:2012 plus six characters	100	110,187	5 bidirectional formatting characters.^[1]
7.0	June 2014	ISO/IEC 10646:2012 plus Amendments 1 and 2, as well as the Ruble sign	123	113,021	Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats.^[12]
8.0	June 2015	ISO/IEC 10646:2014 plus Amendment 1, as well as the Lari sign, nine CJK unified ideographs, and 41 emoji characters^[6]	129	120,737	Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers^[12]
9.0	June 2016	ISO/IEC 10646:2014 plus Amendments 1 and 2, as well as Adlam, Newa, Japanese TV symbols, and 74 emoji and symbols^[6]	135	128,237	Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji^[12]^[13]
10.0	June 2017	ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters^[6]	139	136,755	Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, and 56 emoji

Ред	Ќелии	Опсег
00	20–7E	Basic Latin (00–7F)
00	A0–FF	Latin-1 Supplement (80–FF)
01	00–13, 14–15, 16–2B, 2C–2D, 2E–4D, 4E–4F, 50–7E, 7F	Latin Extended-A (00–7F)
01	8F, 92, B7, DE-EF, FA–FF	Latin Extended-B (80–FF ...)
02	18–1B, 1E–1F	Latin Extended-B (... 00–4F)
	59, 7C, 92	IPA Extensions (50–AF)
	BB–BD, *C6, C7,* C9, D6, D8–DB, DC, DD,** DF, EE	Spacing Modifier Letters (B0–FF)
03	74–75, 7A, 7E, 84–8A, 8C, 8E–A1, A3–CE, D7, DA–E1	Greek (70–FF)
04	00–5F, 90–91, 92–C4, C7–C8, CB–CC, D0–EB, EE–F5, F8–F9	Cyrillic (00–FF)
1E	02–03, 0A–0B, 1E–1F, 40–41, 56–57, 60–61, 6A–6B, 80–85, 9B, F2–F3	Latin Extended Additional (00–FF)
1F	00–15, 18–1D, 20–45, 48–4D, 50–57, 59, 5B, 5D, 5F–7D, 80–B4, B6–C4, C6–D3, D6–DB, DD–EF, F2–F4, F6–FE	Greek Extended (00–FF)
20	*13–14, 15,* 17, 18–19, 1A–1B, 1C–1D, 1E, 20–22, 26, 30, 32–33, 39–3A, 3C, 3E, 44,** 4A	General Punctuation (00–6F)
	7F, 82	Superscripts and Subscripts (70–9F)
	A3–A4, A7, AC, AF	Currency Symbols (A0–CF)
21	*05, 13, 16, 22, 26,* 2E**	Letterlike Symbols (00–4F)
	5B–5E	Number Forms (50–8F)
	90–93, 94–95, A8	Arrows (90–FF)
22	00, 02, 03, 06, 08–09, 0F, 11–12, 15, 19–1A, 1E–1F, 27–28, 29, 2A, 2B, 48, 59, 60–61, 64–65, 82–83, 95, 97	Mathematical Operators (00–FF)
23	02, 0A, 20–21, 29–2A	Miscellaneous Technical (00–FF)
25	00, 02, 0C, 10, 14, 18, 1C, 24, 2C, 34, 3C, 50–6C	Box Drawing (00–7F)
	80, 84, 88, 8C, 90–93	Block Elements (80–9F)
	A0–A1, AA–AC, B2, BA, BC, C4, CA–CB, CF, D8–D9, E6	Geometric Shapes (A0–FF)
26	*3A–3C, 40, 42, 60, 63, 65–66, 6A,* 6B**	Miscellaneous Symbols (00–FF)
F0	(01–02)	Private Use Area (00–FF ...)
FB	01–02	Alphabetic Presentation Forms (00–4F)
FF	FD	Specials

Уникод

Потекло и развој

Историја

Архитектура и терминологија

Нивоа на кодни точки и блокови

Општи својства на категоријата

Апстрактни знаци

Уникод Конзорциум

Верзии

Покриени пишувања

Мапирање и кодирање

Уникод Трансформациски Формат и Универзална колекција на кодирани знаци

Готови наспроти сложени знаци

Лигатури

Стнадардизирани подколекции

Пребарување на кодна точка

Усвојување

Оперативни системи

Влезни методи

Е-пошта

Мрежа

Фонтови

Нова линија (Знак за крај на ред или текст и старт на нов)

Проблеми

Филозофска критика и критика на комплетност

Мапирање на наследените колекции на знаци

Индиски системи за пишување

Комбинирање на знаци

Аномалии

Поврзано

Дополнителна литература

Наводи

Надворешни врски

Wikiwand - on