中文標準交換碼

中文标准交换码（Chinese Standard Interchange Code，简称CSIC），是中华民国国家标准11643号，简称CNS 11643，旧名通用汉字标准交换码（Chinese Ideographic Standard Code for Information Interchange，简称CISCII），是中华民国政府为中文资讯处理制定的字元编码方案，与许多学术图书馆系统采用的中文资讯交换码同属于中文交换码。中文标准交换码基于ISO 2022定义，和ASCII相容，其EUC版本为EUC-TW。

事实速览 别名, 语言 ...

CNS 11643
别名	中文标准交换码
语言	繁体中文
标准	CNS 11643
分类	ISO 2022、双字节字元集、中日韩统一表意文字
编码格式	EUC-TW（所有字面） ISO-2022-CN-EXT（字面1–7） ISO-2022-CN（字面1和字面2）
其他相关编码	大五码、中文资讯交换码
查论编

关闭

简介

1980年9月，行政院国家科学委员会集合编码专家、学者在溪头举行会议，建立国家中文资讯标准交换码的编码原则，并报请行政院核定。隔年，行政院函令国科会、教育部、中央标准局及主计处电子处理资料中心组成专案作业小组，推动编码工作。经多次会商，于1983年10月底完成“通用汉字标准交换码”的试用版，试行二年。试用期满后，国科会与主计处电资中心邀集相关单位与业者组成技术小组，检讨试用结果，并根据检讨结果修订编码原则予以重编。1986年8月4日由经济部中央标准局（后改名为标准检验局）正式公布，取名“通用汉字标准交换码”，其内容包括第一字面、第二字面共13,051字^[1]。

1980年代万“码”奔腾，业界使用各种不同的字符编码，如大五码、王安码、IBM 5550码、公会码、电信码^[2]、倚天码等；CNS11643与大五码字数相同（大五码有13,053字，但有两个重码）。借由此国家标准交换码的公布与使用，做为各种不同内码间的桥梁，使得不同的内码也可以互相沟通和交换，资料可共享。

为因应各界对扩大中文字元集的需求，中央标准局于1990年委托资讯工业策进会进行扩编。CNS 11643于1992年使用至第七字面，共48,027字，并更名为“中文标准交换码”。2003年，标准检验局委托中文数字化技术推广基金会再次扩编，于2004年推出新版的CNS11643，将编码空间由原先规定的十六字面增加到八十字面，并使用至第十五字面。2014年，使用第十七、十九字面。2021年，使用第二十四字面。CNS11643现有两个细部标准，“中文字基础部件及部件属性”（CNS11643-2 ）以及“ 中文字笔画分类”（CNS11643-3）^[3]^[4]。

“CNS11643中文交换码全字库”为1999年时，由主计处电资中心委托中文数字化技术推广基金会建置，用以解决中文码查询、转码与缺字问题。为配合2012年的行政院组织改造，全字库改由研考会办理，自2014年又由继承研考会业务的国家发展委员会管理。2022年8月27日数位发展部成立后，网站管理机构调整为数位部^[5]。全字库目前已收纳10万8,800多个文字及符号。若扣除第八和第九字面中的非汉字字元以及第一字面中的符号、注音、部首、汉字构件等字元，以有仓颉码属性的字来计算，大约有9万6,600多个汉字^[6]^[7]。

版本

更多信息 年份, 标准名称 ...

年份	标准名称	更改
1983	CNS11643-1983	通用汉字标准交换码试用版推出，包括13,053字及441个符号，12月推出的大五码，字集与字序与交换码试用版完全相同，仅字码定义不同。
1986	CNS11643-1986	通用汉字标准交换码正式版发行，包括13,051个字（删除2个重复字，调整20个字顺序）与441个符号，其余均与试用版相同。
1988	CNS11643-1986	增加第十四字面使用者加字区交换码，共增加6,148字。
1989	CNS11643-1986	再增加第十四字面使用者加字区交换码，共增加157字。
1992	CNS11643-1992	扩充第3至7字面，增加部首和数字符号，并更换名称为中文标准交换码，总共包括48,027个字与684个符号。
2002	CNS14649	国际标准ISO 10646／Unicode的中文版“CNS 14649广用多八位元编码字元集”推出，包括中、日、韩、越等20,902个汉字，及全球使用的字元。
2004	CNS11643-2004	编码架构扩充至八十字面。
2008	CNS11643-2008	扩充版发行，增加了户政用字与异体字等。

关闭

编码格式

CNS 11643遵循ISO/IEC 2022所规定的七位元94个图形字元（英语：Graphic character）多字节延伸编码格式^[4]，以2个字节（byte）为中文码编码单位，以十六进位制之文数字表示，并且避开控制字元所在的范围。字面字集之排列，大抵以使用频率为次序，第一字面以常用字为主，第二字面以次常用字为主，第三字面以部分罕用字及较常用异体字为主，其后的字面大多以罕用字、异体字、教育部闽客语用字及户政、役政、地政等机关用字为主。在每一字面中，依先笔画后部首排列顺序来编订字码（每一字面均以文字笔画总数为第一次序，笔划数同则按照部首为次序，部首同再按照笔顺为次序）^[8]。

CNS 11643采用多字面编码结构，并借助ISO/IEC 2022所规定的逸出顺序（escape sequence）和调用控制符切换字面。因此，同样的正规字元码在CNS 11643的不同字面会代表不同的汉字（例如：第1字面字元码454A为中文字“日”，而第2字面的454A是中文字“碇”）。CNS 11643在新版中规定了延伸字元码，作为任一字元的唯一字元码。中文标准交换码延伸字元码是在正规字元码前，附加该字元所属字面的字面指示码^[4]。

终结字元

目前CNS11643的1至7字面之终结字元（最后字元、最终字节）[F]已获国际标准组织ISO正式登记为47至4D，亦可使用于字集之指定^[8]^[9]。依据ISO 237之规定，各国的国家标准若要成为国际间之中文资讯交换标准，必须向国际标准组织申请注册，并由国际标准组织正式公布，如此全球各国即可依国际标准公布之终结字元进行资料交换。

CNS 11643-1992所包括的七个字面，每个字面均分别向ISO秘书处欧洲计算机制造商协会申请相对应之终结字元。经由资讯工业策进会之协助申请，1993年2月1日CNS 11643第一、第二字面正式获得终结字元：47和48，1994年3月25日CNS 11643第三至第七字面也正式获得终结字元：49–4D。

更多信息 CNS字面, CNS暂用终结字元 ...

CNS字面	CNS暂用终结字元	ISO正式终结字元
第一字面	30	47
第二字面	31	48
第三字面	32	49
第四字面	33	4A
第五字面	34	4B
第六字面	35	4C
第七字面	36	4D

关闭

与大五码关系

大五码为资讯工业策进会与台湾十三家资讯业者签约，共同为“五大软件专案”所设计的中文字符编码。该字符编码于1983年12月推出，共收录13,053个汉字（有两字重复编码，故实际上只有13,051个字）、408个符号、33个控制字元^[13]，其字元的范围与顺序都和1983年10月推出的“通用汉字标准交换码”试用版相同，但码位不同。“通用汉字标准交换码”在1986年推出正式版，删除试用版的2个重复编码字，调整了20个字的顺序。

大五码后来成为繁体中文社群最常用的电脑汉字字集标准，然而所涵盖的字数不敷实际需求，造成厂商各自增删，衍生成多种不同版本。2003年中文数字化技术推广基金会接受经济部标准检验局委托，召集国内业者代表、专家和学者，就大五码字元表的原始版本和业界主要版本予以重整，称为Big5-2003^[14]。重整后的版本，去除了重复编码，并新增7个中文字，以及370个符号，包括30个数字符号、24个部首、14个罕用符号、268个日本假名，以及34个表格符号^[13]。其成果最后收录至CNS 11643的附录之中^[15]。

比较

中央标准局所公布的《通用汉字标准交换码》（后更名为《中文标准交换码》，CNS11643）与1984年发布的业界事实标准五大码（Big5）有共同之处：两者都使用国字标准字体表为基础，但是《中文标准交换码》所定义的码位更符合国字标准字体表所选定的字形。国字标准字体表本身并未定义字形的码位，而是依赖于其他标准将字形赋予码位。

其中，五大码与现在的《中文标准交换码》有部分收字差异：

更多信息 国字, 字表序号[17] ...

五大码与《中文标准交换码》(CNS11643)的差异^[16]
国字	字表序号^[17]	CNS 11643	Big5收录异体	备注
彝（U+5F5E）	A01266	1-7641	彝（C255，U+5F5D）
叁（U+53C4）	B00287	3-3455		五大码未收录
噍（U+564D）	B00439	3-4B43		五大码未收录
㚷（U+36B7）	B00635	3-2847		五大码未收录
嬎（U+5B0E）	B00715	3-4B5F	嬔（E955，U+5B14）	CNS 11643第二字面2-565F疑似误收“嬔”（U+5B14）字，但是显示为无点的“嬎”（U+5B0E）
尔（U+5C14）	B00760	3-223F		五大码未收录
㮣（U+3BA3）	B01783	3-4167		五大码未收录
礴（U+7934）	B03027	2-662B	礡（F2A1，U+7921）	Unicode统合时错误对应到统合汉字“礡”（U+7921）上，已于2023年11月3日修正2-662B字形，并在2-7245增加正确的“礴”（U+7934）
緵（U+7DF5）	B03452	3-4E2B	繌（EDDB，U+7E4C）	CNS 11643第二字面2-5E48疑似误收“繌”（U+7E4C）字
阸（U+9638）	B05531	4-2833		五大码未收录
䲡（U+9C0C）	B05989	3-5D76		五大码未收录

关闭

参看

资料来源

Loading content...

外部链接

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

简介

版本

编码格式

终结字元

最新版本

与大五码关系

比较

参看

资料来源

外部链接