一組中文,日文和韓文統一碼區段符號 来自维基百科,自由的百科全书
中日韩统一表意文字(英语:CJK Unified Ideograph),又称统汉码、统一汉字集(英语:Unihan),是指在 ISO 10646 与统一码标准中经过“汉字等同”处理的汉字。 [2] 汉字等同(英语:Han unification[3]) 是指将中文、日文、韩文、越南文、壮文、琉球文等书写系统共通的汉字赋予相同编码的做法; [5] 被合并编码的汉字,往往起源相同、本义相通、形状大同小异。 [6] 整理出来的中日韩统一表意文字,由统一码联盟建置的Unihan数据库维护。
上级分类 | 汉字字元 ![]() |
---|---|
所属实体 | 通用字符集 ![]() |
话题方面 | 汉字统合 ![]() |
官方网站 | https://unicode.org/charts/unihan.html ![]() |
除了“中日韩统一表意文字”,CJK Unified Ideograph 还有以下中文译名:
除了“汉字等同”,Han Unification 又译为:
1978年,日本产业规格制订了基于ISO/IEC 2022的JIS C 6226,为全世界最早的汉字编码,包含6349汉字。1980年代,台湾(中文资讯交换码、中文标准交换码)、中国大陆(GB 2312)、韩国(KS C 5601)开始制订了各自的编码规范。这些规范彼此之间并无连系。若要在一份文件中同时使用,则要以转义字符的方式来交换。
1980年,日本的国立国会图书馆的高桥德太郎以书目学的观点指出,统一的东亚汉字编码系统有必要。同年,台湾制定了三字节的中文资讯交换码,这是第一款期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此标准,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文字编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC 97/SC 2/WG 2)。这编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对,并在1989年提出各国汉字统合集合(Han Character Collection,HCC)的构想。
1990年完成了ISO 10646的初版草案(DIS 10646)。汉字用32位表示,并将各国的汉字编码原封不动加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后能顺利讨论汉字编码及处理有关方针,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文字小组的前身),以持续讨论。
另一方面,1987年,施乐的Joe Becker和Lee Collins开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为16位。于是,中、日、韩的汉字统合了。基本方针以16位处理所有文字。1990年完成了基于此方针的最终草案。1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩类似的汉字使用约二万多字。为了未来扩展,保留了三万汉字以供其它用途。
1991年,各国希望能以一致的方式处理文字,否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自定义定规范、制作ISO 10646和统一码的统一汉字编码。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但发现一些缺失,之后修正。
1993年5月正式制订最初的“中日韩统一表意文字”位于U+4E00-U+9FFF,共20902字;不过汉字“〇”(U+3007)误当数字放入符号和标点区。一个月后制订了统一码1.1。
1999年,依据ISO/IEC 10646的第17修正案(Amendment 17)订定扩展区A,于U+3400-U+4DFF加入6582汉字。
2001年,依据ISO/IEC 10646-2新增扩展区B,于U+20000-U+2A6FF有42711汉字;但短时间内增加大量汉字,产生许多重复字形。
2005年,依据ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文种平面增加U+9FA6-U+9FBB,共22汉字。
2009年,统一码5.2扩展区C增加U+2A700-U+2B734,基本多文种平面增加U+9FC4-U+9FCB。
2010年,统一码6.0扩展区D增加U+2B740-U+2B81F。
2012年,统一码7.0基本多文种平面增加1汉字:U+9FCC。
2015年,统一码8.0扩展区E增加U+2B820-U+2CEAF,基本多文种平面增加U+9FCD-U+9FD5。
2017年,统一码10.0扩展区F增加U+2CEB0-U+2EBEF,基本多文种平面增加U+9FD6-U+9FEA。
2018年,统一码11.0基本多文种平面末尾增加5汉字:U+9FEB-U+9FEF。
2020年,统一码13.0增加4969汉字,其中4939字位于第三平面的扩展区G,码位为U+30000-U+3134A。同时,亦在基本区增加13字:U+9FF0-U+9FFC,在扩展A区增加10字:U+4DB6-U+4DBF,在扩展B区增加7字:U+2A6D7-U+2A6DD。
2021年,统一码14.0基本多文种平面末尾增加3汉字:U+9FFC-U+9FFF。同时,亦在扩展B区增加2字:U+2A6DE-U+2A6DF,在扩展C区增加4字:U+2B735-U+2B738。
2022年,统一码15.0增加4193汉字,其中4192字位于第三平面的扩展区H,码位为U+31350-U+323AF。同时,亦在扩展C区增加7字:U+2B739。
2023年,统一码15.1增加622汉字,位于第二平面的扩展区I,码位为U+2EBF0 - U+2EE5D。
另外,第三平面的U+38000至U+3AB9F预计放置篆书,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[11]。
ISO 10646版本 | 统一码版本 | 新增 | 置放平面 | 字数 | 累计
字数 |
---|---|---|---|---|---|
1993 | 1.1 | 中日韩统一表意文字(U+4E00-U+9FA5) | 基本多文种平面 | 20902 | 20915 |
1汉字(U+3007,〇),于中日韩符号和标点区 | 基本多文种平面 | 1 | |||
在“中日韩兼容表意文字”中但实则独一的汉字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[注 1] | 基本多文种平面 | 12 | |||
1999 | 3.0 | 中日韩统一表意文字扩展区A(U+3400-U+4DB5) | 基本多文种平面 | 6582 | 27497 |
2001 | 3.1 | 中日韩统一表意文字扩展区B(U+20000-U+2A6D6) | 第二辅助平面 | 42711 | 70208 |
2005 | 4.1 | HKSCS-2004未加入ISO 10646的汉字(U+9FA6-U+9FB3,龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB,龴龵龶龷龸龹龺龻) | 基本多文种平面 | 22 | 70230 |
2008 | 5.1 | 7日语汉字[13](U+9FBC-U+9FC2,龼龽龾龿鿀䜤鿂),U+4039䀹拆分为U+4039䀹和U+9FC3鿃[14] | 基本多文种平面 | 8 | 70238 |
2009 | 5.2 | 中日韩统一表意文字扩展区C(U+2A700-U+2B734) | 第二辅助平面 | 4149 | 74395 |
2009 | 2日语用汉字(ARIB #47、#95,U+9FC4鿄,U+9FC5鿅)、1新增汉字(ARIB #93,U+9FC6鿆)、HKSCS-2004推出后新增的5香港汉字[15](U+9FC7-U+9FCB,鿇鿈鿉鿊鿋) | 基本多文种平面 | 8 | ||
2010 | 6.0 | 中日韩统一表意文字扩展区D(U+2B740-U+2B81D) | 第二辅助平面 | 222 | 74617 |
2012 | 6.1 | 1汉字(U+9FCC鿌) | 基本多文种平面 | 1 | 74618 |
2015 | 8.0 | 中日韩统一表意文字扩展区E(U+2B820-U+2CEA1) | 第二辅助平面 | 5762 | 80389 |
“急用汉字”:《通用规范汉字表》余下未收入的3字(U+9FCD-U+9FCF,鿍鿎鿏),1个从U+4CA4(䲤)分离出来的字U+9FD0(䲤),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5,鿑鿒鿓鿔鿕) | 基本多文种平面 | 9 | |||
2017 | 10.0 | 中日韩统一表意文字扩展区F(U+2CEB0-U+2EBE0) | 第二辅助平面 | 7473 | 87883 |
21汉字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) | 基本多文种平面 | 21 | |||
2018 | 11.0 | 5汉字(U+9FEB-U+9FEF,鿫鿬鿭鿮鿯),前三字是新命名的化学元素用字,后两字来自日本 | 基本多文种平面 | 5 | 87888 |
2020 | 13.0 | 中日韩统一表意文字扩展区G(U+30000-U+3134A) | 第三辅助平面 | 4939 | 92857 |
急用科学与技术用字[16](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10个需分离的汉字[17][18][19](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) | 基本多文种平面 | 23 | |||
昆曲工尺谱用字[20](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) | 第二辅助平面 | 7 | |||
2021 | 14.0 | 3汉字(U+9FFD-U+9FFF,鿽鿾鿿) | 基本多文种平面 | 3 | 92866 |
2汉字(U+2A6DE-U+2A6DF,𪛞𪛟) | 第二辅助平面 | 2 | |||
4汉字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸) | 第二辅助平面 | 4 | |||
2022 | 15.0 | 中日韩统一表意文字扩展区H(U+31350–U323AF) | 第三辅助平面 | 4192 | 97059 |
1汉字(U+2B739,𫜹) | 第二辅助平面 | 1 | |||
2023 | 15.1 | 中日韩统一表意文字扩展区I(U+2EBF0-U+2EE5F) | 第二辅助平面 | 622 | 97681 |
最初期共20902统一汉字,范围为U+4E00-U+9FA5,收字来源包括以下字集[22]:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G0 | GB 2312-80 | 6763 |
G1 | GB 12345-90 | 2352(含58香港字和92吏读字,不包括和GB 2312重复的字) | |
G3 | GB 7589-87繁体版本 | 7237 | |
G5 | GB 7590-87繁体版本 | 7039 | |
G7 | 现代汉语通用字表 | 42(G0、1、3、5、8未包括的字) | |
G8 | GB 8565.2-89 | 290(G0、1、3、5未包括的字) | |
台湾源(T) | T1 | CNS 11643-1986第一字面 | 5401+9计量用汉字 |
T2 | CNS 11643-1986第二字面 | 7650 | |
TE | CNS 11643-1986第十四字面 | 6319+239中文资讯交换码特字+10施乐字符集(Xerox Character Code Standard,XCCS)特字 | |
日本源(J) | J0 | JIS X 0208-90 | 6335+非汉字1个(仝)[23] |
J1 | JIS X 0212-90 | 5801 | |
韩国源(K) | K0 | KS C 5601-87 | 4888(含268重见字[24]) |
K1 | KS C 5657-91 | 2856 | |
委员会源(U) | KS C 5601-1987(当中重复的汉字) | ||
美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[25] | |||
大五码 | |||
中文资讯交换码第一字面 | |||
GB 12052-89(汉字部分) | |||
JEF(富士通标准) | |||
中国大陆电报码 | |||
台湾电报码(CCDC) | |||
施乐中文编码 | |||
人名用汉字准用字体表(人名用汉字许容字体表;日本) | |||
IBM选取的日本和韩国表意文字 |
其中,统一码技术委员会源(U源)指,并非由表意文字小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用原字集分离原则(见稍后)。
Seamless Wikipedia browsing. On steroids.