Loading AI tools
来自维基百科,自由的百科全书
中文标准交换码(Chinese Standard Interchange Code,简称CSIC),是中华民国国家标准11643号,简称CNS 11643,旧名通用汉字标准交换码(Chinese Ideographic Standard Code for Information Interchange,简称CISCII),是中华民国政府为中文资讯处理制定的字元编码方案,与许多学术图书馆系统采用的中文资讯交换码同属于中文交换码。中文标准交换码基于ISO 2022定义,和ASCII相容,其EUC版本为EUC-TW。
别名 | 中文标准交换码 |
---|---|
语言 | 繁体中文 |
标准 | CNS 11643 |
分类 | ISO 2022、双字节字元集、中日韩统一表意文字 |
编码格式 |
|
其他相关编码 | 大五码、中文资讯交换码 |
1980年9月,行政院国家科学委员会集合编码专家、学者在溪头举行会议,建立国家中文资讯标准交换码的编码原则,并报请行政院核定。隔年,行政院函令国科会、教育部、中央标准局及主计处电子处理资料中心组成专案作业小组,推动编码工作。经多次会商,于1983年10月底完成“通用汉字标准交换码”的试用版,试行二年。试用期满后,国科会与主计处电资中心邀集相关单位与业者组成技术小组,检讨试用结果,并根据检讨结果修订编码原则予以重编。1986年8月4日由经济部中央标准局(后改名为标准检验局)正式公布,取名“通用汉字标准交换码”,其内容包括第一字面、第二字面共13,051字[1]。
1980年代万“码”奔腾,业界使用各种不同的字符编码,如大五码、王安码、IBM 5550码、公会码、电信码[2]、倚天码等;CNS11643与大五码字数相同(大五码有13,053字,但有两个重码)。借由此国家标准交换码的公布与使用,做为各种不同内码间的桥梁,使得不同的内码也可以互相沟通和交换,资料可共享。
为因应各界对扩大中文字元集的需求,中央标准局于1990年委托资讯工业策进会进行扩编。CNS 11643于1992年使用至第七字面,共48,027字,并更名为“中文标准交换码”。2003年,标准检验局委托中文数字化技术推广基金会再次扩编,于2004年推出新版的CNS11643,将编码空间由原先规定的十六字面增加到八十字面,并使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面。CNS11643现有两个细部标准,“中文字基础部件及部件属性”(CNS11643-2 )以及“ 中文字笔画分类”(CNS11643-3)[3][4]。
“CNS11643中文交换码全字库”为1999年时,由主计处电资中心委托中文数字化技术推广基金会建置,用以解决中文码查询、转码与缺字问题。为配合2012年的行政院组织改造,全字库改由研考会办理,自2014年又由继承研考会业务的国家发展委员会管理。2022年8月27日数位发展部成立后,网站管理机构调整为数位部[5]。全字库目前已收纳10万8,800多个文字及符号。若扣除第八和第九字面中的非汉字字元以及第一字面中的符号、注音、部首、汉字构件等字元,以有仓颉码属性的字来计算,大约有9万6,600多个汉字[6][7]。
年份 | 标准名称 | 更改 |
---|---|---|
1983 | CNS11643-1983 | 通用汉字标准交换码试用版推出,包括13,053字及441个符号,12月推出的大五码,字集与字序与交换码试用版完全相同,仅字码定义不同。 |
1986 | CNS11643-1986 | 通用汉字标准交换码正式版发行,包括13,051个字(删除2个重复字,调整20个字顺序)与441个符号,其余均与试用版相同。 |
1988 | CNS11643-1986 | 增加第十四字面使用者加字区交换码,共增加6,148字。 |
1989 | CNS11643-1986 | 再增加第十四字面使用者加字区交换码,共增加157字。 |
1992 | CNS11643-1992 | 扩充第3至7字面,增加部首和数字符号,并更换名称为中文标准交换码,总共包括48,027个字与684个符号。 |
2002 | CNS14649 | 国际标准ISO 10646/Unicode的中文版“CNS 14649广用多八位元编码字元集”推出,包括中、日、韩、越等20,902个汉字,及全球使用的字元。 |
2004 | CNS11643-2004 | 编码架构扩充至八十字面。 |
2008 | CNS11643-2008 | 扩充版发行,增加了户政用字与异体字等。 |
CNS 11643遵循ISO/IEC 2022所规定的七位元94个图形字元多字节延伸编码格式[4],以2个字节(byte)为中文码编码单位,以十六进位制之文数字表示,并且避开控制字元所在的范围。字面字集之排列,大抵以使用频率为次序,第一字面以常用字为主,第二字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,其后的字面大多以罕用字、异体字、教育部闽客语用字及户政、役政、地政等机关用字为主。在每一字面中,依先笔画后部首排列顺序来编订字码(每一字面均以文字笔画总数为第一次序,笔划数同则按照部首为次序,部首同再按照笔顺为次序)[8]。
CNS 11643采用多字面编码结构,并借助ISO/IEC 2022所规定的逸出顺序(escape sequence)和调用控制符切换字面。因此,同样的正规字元码在CNS 11643的不同字面会代表不同的汉字(例如:第1字面字元码454A为中文字“日”,而第2字面的454A是中文字“碇”)。CNS 11643在新版中规定了延伸字元码,作为任一字元的唯一字元码。中文标准交换码延伸字元码是在正规字元码前,附加该字元所属字面的字面指示码[4]。
目前CNS11643的1至7字面之终结字元(最后字元、最终字节)[F]已获国际标准组织ISO正式登记为47至4D,亦可使用于字集之指定[8][9]。依据ISO 237之规定,各国的国家标准若要成为国际间之中文资讯交换标准,必须向国际标准组织申请注册,并由国际标准组织正式公布,如此全球各国即可依国际标准公布之终结字元进行资料交换。
CNS 11643-1992所包括的七个字面,每个字面均分别向ISO秘书处欧洲计算机制造商协会申请相对应之终结字元。经由资讯工业策进会之协助申请,1993年2月1日CNS 11643第一、第二字面正式获得终结字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式获得终结字元:49–4D。
CNS字面 | CNS暂用终结字元 | ISO正式终结字元 |
---|---|---|
第一字面 | 30 | 47 |
第二字面 | 31 | 48 |
第三字面 | 32 | 49 |
第四字面 | 33 | 4A |
第五字面 | 34 | 4B |
第六字面 | 35 | 4C |
第七字面 | 36 | 4D |
2021年版CNS 11643字面配置如下:
大五码为资讯工业策进会与台湾十三家资讯业者签约,共同为“五大软件专案”所设计的中文字符编码。该字符编码于1983年12月推出,共收录13,053个汉字(有两字重复编码,故实际上只有13,051个字)、408个符号、33个控制字元[13],其字元的范围与顺序都和1983年10月推出的“通用汉字标准交换码”试用版相同,但码位不同。“通用汉字标准交换码”在1986年推出正式版,删除试用版的2个重复编码字,调整了20个字的顺序。
大五码后来成为繁体中文社群最常用的电脑汉字字集标准,然而所涵盖的字数不敷实际需求,造成厂商各自增删,衍生成多种不同版本。2003年中文数字化技术推广基金会接受经济部标准检验局委托,召集国内业者代表、专家和学者,就大五码字元表的原始版本和业界主要版本予以重整,称为Big5-2003[14]。重整后的版本,去除了重复编码,并新增7个中文字,以及370个符号,包括30个数字符号、24个部首、14个罕用符号、268个日本假名,以及34个表格符号[13]。其成果最后收录至CNS 11643的附录之中[15]。
中央标准局所公布的《通用汉字标准交换码》(后更名为《中文标准交换码》,CNS11643)与1984年发布的业界事实标准五大码(Big5)有共同之处:两者都使用国字标准字体表为基础,但是《中文标准交换码》所定义的码位更符合国字标准字体表所选定的字形。国字标准字体表本身并未定义字形的码位,而是依赖于其他标准将字形赋予码位。
其中,五大码与现在的《中文标准交换码》有部分收字差异:
国字 | 字表序号[17] | CNS 11643 | Big5收录异体 | 备注 |
---|---|---|---|---|
彝(U+5F5E) | A01266 | 1-7641 | 彝(C255,U+5F5D) | |
叁(U+53C4) | B00287 | 3-3455 | 五大码未收录 | |
噍(U+564D) | B00439 | 3-4B43 | 五大码未收录 | |
㚷(U+36B7) | B00635 | 3-2847 | 五大码未收录 | |
嬎(U+5B0E) | B00715 | 3-4B5F | 嬔(E955,U+5B14) | CNS 11643第二字面2-565F疑似误收“嬔”(U+5B14)字,但是显示为无点的“嬎”(U+5B0E) |
尔(U+5C14) | B00760 | 3-223F | 五大码未收录 | |
㮣(U+3BA3) | B01783 | 3-4167 | 五大码未收录 | |
礴(U+7934) | B03027 | 2-662B | 礡(F2A1,U+7921) | 疑似Unicode统合时错误对应到统合汉字“礡”(U+7921)上 |
緵(U+7DF5) | B03452 | 3-4E2B | 繌(EDDB,U+7E4C) | CNS 11643第二字面2-5E48疑似误收“繌”(U+7E4C)字 |
阸(U+9638) | B05531 | 4-2833 | 五大码未收录 | |
䲡(U+9C0C) | B05989 | 3-5D76 | 五大码未收录 |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.