中日韩统一表意文字

一組中文,日文和韓文統一碼區段符號 来自维基百科,自由的百科全书

中日韓統一表意文字

中日韩统一表意文字(英语:CJK Unified Ideograph),又称统汉码统一汉字集(英语:Unihan),是指在 ISO 10646统一码标准中经过“汉字等同”处理的汉字。 [2] 汉字等同(英语:Han unification[3]) 是指将中文日文韩文越南文壮文琉球文等书写系统共通的汉字赋予相同编码的做法; [5] 被合并编码的汉字,往往起源相同、本义相通、形状大同小异。 [6] 整理出来的中日韩统一表意文字,由统一码联盟建置的Unihan数据库维护。

事实速览 上级分类, 所属实体 ...
中日韩越统一表意文字
字母 (Unicode)
上级分类汉字字元 编辑
所属实体通用字符集 编辑
话题方面汉字统合 编辑
官方网站https://unicode.org/charts/unihan.html 编辑
关闭

涵盖范围

中日韩统一表意文字所含括的對象为汉字及其派生出来的语素文字,包括:

  • 中文汉字,包括繁体字简化字异体字
  • 日本汉字(日语:漢字/日语:かんじ
  • 韩国汉字(韩语:漢字/韩语:한자
  • 琉球汉字(冲绳语:漢字/冲绳语:ハンジ
  • 越南喃字𡨸喃越南语Chữ Nôm
  • 越南儒字𡨸儒越南语Chữ Nho
  • 方块壮字壮语𭨡壮语sawgun

名称

除了“中日韩统一表意文字”,CJK Unified Ideograph 还有以下中文译名:

  • 中日韩等同表意文字[7]
  • 中日韩认同表意文字[8]
  • 中日韩统一汉字集[9]
  • 中日韩统合汉字[10]

除了“汉字等同”,Han Unification 又译为:

  • 汉字认同
  • 汉字统一
  • 汉字统合

历史

1978年,日本产业规格制订了基于ISO/IEC 2022JIS C 6226,为全世界最早的汉字编码,包含6349汉字。1980年代,台湾(中文信息交换码中文标准交换码)、中国大陆(GB 2312)、韩国(KS C 5601)开始制订了各自的编码规范。这些规范彼此之间并无连系。若要在一份文件中同时使用,则要以转义字符的方式来交换。

1980年,日本的国立国会图书馆的高桥德太郎以书目学的观点指出,统一的东亚汉字编码系统有必要。同年,台湾制定了三字节的中文信息交换码,这是第一款期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此标准,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC 97/SC 2/WG 2)。这编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对,并在1989年提出各国汉字统合集合(Han Character Collection,HCC)的构想。

1990年完成了ISO 10646的初版草案(DIS 10646)。汉字用32位表示,并将各国的汉字编码原封不动加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后能顺利讨论汉字编码及处理有关方针,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文字小组的前身),以持续讨论。

另一方面,1987年,施乐的Joe Becker和Lee Collins开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为16位。于是,中、日、韩的汉字统合了。基本方针以16位处理所有文字。1990年完成了基于此方针的最终草案。1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩类似的汉字使用约二万多字。为了未来扩展,保留了三万汉字以供其它用途。

1991年,各国希望能以一致的方式处理文字,否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自定义定规范、制作ISO 10646和统一码的统一汉字编码。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但发现一些缺失,之后修正。

1993年5月正式制订最初的“中日韩统一表意文字”位于U+4E00-U+9FFF,共20902字;不过汉字“”(U+3007)误当数字放入符号和标点区。一个月后制订了统一码1.1。

1999年,依据ISO/IEC 10646的第17修正案(Amendment 17)订定扩展区A,于U+3400-U+4DFF加入6582汉字。

2001年,依据ISO/IEC 10646-2新增扩展区B,于U+20000-U+2A6FF有42711汉字;但短时间内增加大量汉字,产生许多重复字形。

2005年,依据ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文种平面增加U+9FA6-U+9FBB,共22汉字。

2009年,统一码5.2扩展区C增加U+2A700-U+2B734,基本多文种平面增加U+9FC4-U+9FCB。

2010年,统一码6.0扩展区D增加U+2B740-U+2B81F。

2012年,统一码7.0基本多文种平面增加1汉字:U+9FCC。

2015年,统一码8.0扩展区E增加U+2B820-U+2CEAF,基本多文种平面增加U+9FCD-U+9FD5。

2017年,统一码10.0扩展区F增加U+2CEB0-U+2EBEF,基本多文种平面增加U+9FD6-U+9FEA。

2018年,统一码11.0基本多文种平面末尾增加5汉字:U+9FEB-U+9FEF。

2020年,统一码13.0增加4969汉字,其中4939字位于第三平面扩展区G,码位为U+30000-U+3134A。同时,亦在基本区增加13字:U+9FF0-U+9FFC,在扩展A区增加10字:U+4DB6-U+4DBF,在扩展B区增加7字:U+2A6D7-U+2A6DD。

2021年,统一码14.0基本多文种平面末尾增加3汉字:U+9FFC-U+9FFF。同时,亦在扩展B区增加2字:U+2A6DE-U+2A6DF,在扩展C区增加4字:U+2B735-U+2B738。

2022年,统一码15.0增加4193汉字,其中4192字位于第三平面的扩展区H,码位为U+31350-U+323AF。同时,亦在扩展C区增加7字:U+2B739。

2023年,统一码15.1增加622汉字,位于第二平面的扩展区I,码位为U+2EBF0 - U+2EE5D。

另外,第三平面的U+38000至U+3AB9F预计放置篆书,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[11]

版本

更多信息 ISO 10646版本, 统一码版本 ...
ISO 10646版本 统一码版本 新增 置放平面 字数 累计

字数

1993 1.1 中日韩统一表意文字(U+4E00-U+9FA5) 基本多文种平面 20902 20915
1汉字(U+3007,),于中日韩符号和标点 基本多文种平面 1
在“中日韩兼容表意文字”中但实则独一的汉字(U+FA0E、U+FA0F、U+FA11、U+FA13、U+FA14、U+FA1F、U+FA21、U+FA23、U+FA24、U+FA27、U+FA28、U+FA29[注 1] 基本多文种平面 12
1999 3.0 中日韩统一表意文字扩展区A(U+3400-U+4DB5) 基本多文种平面 6582 27497
2001 3.1 中日韩统一表意文字扩展区B(U+20000-U+2A6D6) 第二辅助平面 42711 70208
2005 4.1 HKSCS-2004未加入ISO 10646的汉字(U+9FA6-U+9FB3,)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB, 基本多文种平面 22 70230
2008 5.1 7日语汉字[13](U+9FBC-U+9FC2,龿),U+4039䀹拆分为U+4039和U+9FC3[14] 基本多文种平面 8 70238
2009 5.2 中日韩统一表意文字扩展区C(U+2A700-U+2B734) 第二辅助平面 4149 74395
2009 2日语用汉字(ARIB #47、#95,U+9FC4,U+9FC5)、1新增汉字(ARIB #93,U+9FC6)、HKSCS-2004推出后新增的5香港汉字[15](U+9FC7-U+9FCB, 基本多文种平面 8
2010 6.0 中日韩统一表意文字扩展区D(U+2B740-U+2B81D) 第二辅助平面 222 74617
2012 6.1 1汉字(U+9FCC 基本多文种平面 1 74618
2015 8.0 中日韩统一表意文字扩展区E(U+2B820-U+2CEA1) 第二辅助平面 5762 80389
“急用汉字”:《通用规范汉字表》余下未收入的3字(U+9FCD-U+9FCF,),1个从U+4CA4()分离出来的字U+9FD0(),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5, 基本多文种平面 9
2017 10.0 中日韩统一表意文字扩展区F(U+2CEB0-U+2EBE0) 第二辅助平面 7473 87883
21汉字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文种平面 21
2018 11.0 5汉字(U+9FEB-U+9FEF,鿮鿯),前三字是新命名的化学元素用字,后两字来自日本 基本多文种平面 5 87888
2020 13.0 中日韩统一表意文字扩展区G(U+30000-U+3134A) 第三辅助平面 4939 92857
急用科学与技术用字[16](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10个需分离的汉字[17][18][19](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) 基本多文种平面 23
昆曲工尺谱用字[20](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) 第二辅助平面 7
2021 14.0 3汉字(U+9FFD-U+9FFF,鿿 基本多文种平面 3 92866
2汉字(U+2A6DE-U+2A6DF,𪛞𪛟 第二辅助平面 2
4汉字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸 第二辅助平面 4
2022 15.0 中日韩统一表意文字扩展区H(U+31350–U323AF) 第三辅助平面 4192 97059
1汉字(U+2B739,𫜹 第二辅助平面 1
2023 15.1 中日韩统一表意文字扩展区I(U+2EBF0-U+2EE5F) 第二辅助平面 622 97681
关闭

成员机构

收字来源

总计

更多信息 提交源(类别), 提交量 ...
中日韩统一表意文字来源[注 2]
提交源(类别) 提交量
中国大陆(国标源) 65941
 香港 17654
 澳门 344
台湾 58597
 日本 16148
 韩国 20739
 朝鲜 23795
 越南 13278
 英国 2503
大藏经文本数据库委员会 3455
统一码协会 1019
总计 223653
关闭

最初期统一汉字

最初期共20902统一汉字,范围为U+4E00-U+9FA5,收字来源包括以下字集[22]

更多信息 类别, 来源代码 ...
类别 来源代码 名称 字数
中国大陆
国标源(G)
G0 GB 2312-80 6763
G1 GB 12345-90 2352(含58香港字和92吏读字,不包括和GB 2312重复的字)
G3 GB 7589-87繁体版本 7237
G5 GB 7590-87繁体版本 7039
G7 现代汉语通用字表 42(G0、1、3、5、8未包括的字)
G8 GB 8565.2-89 290(G0、1、3、5未包括的字)
台湾源(T) T1 CNS 11643-1986第一字面 5401+9计量用汉字
T2 CNS 11643-1986第二字面 7650
TE CNS 11643-1986第十四字面 6319+239中文信息交换码特字+10施乐字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6335+非汉字1个(仝)[23]
J1 JIS X 0212-90 5801
韩国源(K) K0 KS C 5601-87 4888(含268重见字[24]
K1 KS C 5657-91 2856
委员会源(U) KS C 5601-1987(当中重复的汉字)
美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[25]
大五码
中文信息交换码第一字面
GB 12052-89(汉字部分)
JEF(富士通标准)
中国大陆电报码
台湾电报码(CCDC)
施乐中文编码
人名用汉字准用字体表(人名用汉字许容字体表;日本)
IBM选取的日本和韩国表意文字
关闭

其中,统一码技术委员会源(U源)指,并非由表意文字小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用原字集分离原则(见稍后)。

汉字等同

统汉字数据库

批评

已统一汉字

未统一汉字

技术问题

注释

参考文献

外部链接

参见

Wikiwand - on

Seamless Wikipedia browsing. On steroids.