Remove ads
来自维基百科,自由的百科全书
中文标准交换码(Chinese Standard Interchange Code,简称CSIC),是中华民国国家标准11643号,简称CNS 11643,旧名通用汉字标准交换码(Chinese Ideographic Standard Code for Information Interchange,简称CISCII),是中华民国政府为中文资讯处理制定的字元编码方案,与许多学术图书馆系统采用的中文资讯交换码同属于中文交换码。中文标准交换码基于ISO 2022定义,和ASCII相容,其EUC版本为EUC-TW。
别名 | 中文标准交换码 |
---|---|
语言 | 繁体中文 |
标准 | CNS 11643 |
分类 | ISO 2022、双字节字元集、中日韩统一表意文字 |
编码格式 |
|
其他相关编码 | 大五码、中文资讯交换码 |
1980年9月,行政院国家科学委员会集合编码专家、学者在溪头举行会议,建立国家中文资讯标准交换码的编码原则,并报请行政院核定。隔年,行政院函令国科会、教育部、中央标准局及主计处电子处理资料中心组成专案作业小组,推动编码工作。经多次会商,于1983年10月底完成“通用汉字标准交换码”的试用版,试行二年。试用期满后,国科会与主计处电资中心邀集相关单位与业者组成技术小组,检讨试用结果,并根据检讨结果修订编码原则予以重编。1986年8月4日由经济部中央标准局(后改名为标准检验局)正式公布,取名“通用汉字标准交换码”,其内容包括第一字面、第二字面共13,051字[1]。
1980年代万“码”奔腾,业界使用各种不同的字符编码,如大五码、王安码、IBM 5550码、公会码、电信码[2]、倚天码等;CNS11643与大五码字数相同(大五码有13,053字,但有两个重码)。借由此国家标准交换码的公布与使用,做为各种不同内码间的桥梁,使得不同的内码也可以互相沟通和交换,资料可共享。
为因应各界对扩大中文字元集的需求,中央标准局于1990年委托资讯工业策进会进行扩编。CNS 11643于1992年使用至第七字面,共48,027字,并更名为“中文标准交换码”。2003年,标准检验局委托中文数字化技术推广基金会再次扩编,于2004年推出新版的CNS11643,将编码空间由原先规定的十六字面增加到八十字面,并使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面[3][4]。
“CNS11643中文交换码全字库”为1999年时,由主计处电资中心委托中文数字化技术推广基金会建置,用以解决中文码查询、转码与缺字问题。为配合2012年的行政院组织改造,全字库改由研考会办理,自2014年又由继承研考会业务的国家发展委员会管理。2022年8月27日数位发展部成立后,网站管理机构调整为数位部[5]。全字库目前已收纳10万8,800多个文字及符号。若扣除第八和第九字面中的非汉字字元以及第一字面中的符号、注音、部首、汉字构件等字元,以有仓颉码属性的字来计算,大约有9万6,600多个汉字[6][7]。
年份 | 标准名称 | 更改 |
---|---|---|
1983 | CNS11643-1983 | 通用汉字标准交换码试用版推出,包括13,053字及441个符号,12月推出的大五码,字集与字序与交换码试用版完全相同,仅字码定义不同。 |
1986 | CNS11643-1986 | 通用汉字标准交换码正式版发行,包括13,051个字(删除2个重复字,调整20个字顺序)与441个符号,其余均与试用版相同。 |
1988 | CNS11643-1986 | 增加第十四字面使用者加字区交换码,共增加6,148字。 |
1989 | CNS11643-1986 | 再增加第十四字面使用者加字区交换码,共增加157字。 |
1992 | CNS11643-1992 | 扩充第3至7字面,增加部首和数字符号,并更换名称为中文标准交换码,总共包括48,027个字与684个符号。 |
2002 | CNS14649 | 国际标准ISO 10646/Unicode的中文版“CNS 14649广用多八位元编码字元集”推出,包括中、日、韩、越等20,902个汉字,及全球使用的字元。 |
2004 | CNS11643-2004 | 编码架构扩充至八十字面。 |
2008 | CNS11643-2008 | 扩充版发行,增加了户政用字与异体字等。 |
CNS 11643遵循ISO/IEC 2022所规定的七位元94个图形字元多字节延伸编码格式[4],以2个字节 (byte)为中文码编码单位,以十六进位制之文数字表示,并且避开控制码所在的范围。字面字集之排列,大抵以使用频率为次序,第一字面以常用字为主,第二字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,其后的字面大多以罕用字、异体字、教育部闽客语用字及户政、役政、地政等机关用字为主。在每一字面中,依先笔画后部首排列顺序来编订字码(每一字面均以文字笔画总数为第一次序,笔划数同则按照部首为次序,部首同再按照笔顺为次序)[8]。
CNS 11643采用多字面编码结构,并借助ISO/IEC 2022所规定的逸出顺序(escape sequence)和调用控制符切换字面。因此,同样的正规字元码在CNS 11643的不同字面会代表不同的汉字(例如:第1字面字元码454A为中文字“日”,而第2字面的454A是中文字“碇”)。CNS 11643在新版中规定了延伸字元码,作为任一字元的唯一字元码。中文标准交换码延伸字元码是在正规字元码前,附加该字元所属字面的字面指示码[4]。
目前 CNS11643 的1~7 字面之终结字元(最后字元、最终字节) [F] 已获国际标准组织 ISO 正式登记为 47 至 4D ,亦可使用于字集之指定[8][9]。依据ISO 237之规定,各国的国家标准若要成为国际间之中文资讯交换标准,必须向国际标准组织申请注册,并由国际标准组织正式公布,如此全球各国即可依国际标准公布之终结字元进行资料交换。
CNS 11643-1992所包括的七个字面,每个字面均分别向ISO秘书处欧洲计算机制造商协会申请相对应之终结字元。经由资讯工业策进会之协助申请,1993年2月1日CNS 11643第一、第二字面正式获得终结字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式获得终结字元:49 - 4D。
CNS字面 | CNS暂用终结字元 | ISO正式终结字元 |
---|---|---|
第一字面 | 30 | 47 |
第二字面 | 31 | 48 |
第三字面 | 32 | 49 |
第四字面 | 33 | 4A |
第五字面 | 34 | 4B |
第六字面 | 35 | 4C |
第七字面 | 36 | 4D |
2021年版CNS 11643字面配置如下:
大五码为资讯工业策进会与台湾十三家资讯业者签约,共同为“五大软件专案”所设计的中文字符编码。该字符编码于1983年12月推出,共收录13,053个汉字(有两字重复编码,故实际上只有13,051个字)、408个符号、33个控制字元[13],其字元的范围与顺序都和1983年10月推出的“通用汉字标准交换码”试用版相同,但码位不同。“通用汉字标准交换码”在1986年推出正式版,删除试用版的2个重复编码字,调整了20个字的顺序。
大五码后来成为繁体中文社群最常用的电脑汉字字集标准,然而所涵盖的字数不敷实际需求,造成厂商各自增删,衍生成多种不同版本。2003年中文数字化技术推广基金会接受经济部标准检验局委托,召集国内业者代表、专家和学者,就大五码字元表的原始版本和业界主要版本予以重整,称为Big5-2003[14]。重整后的版本,去除了重复编码,并新增7个中文字,以及370个符号,包括30个数字符号、24个部首、14个罕用符号、268个日本假名,以及34个表格符号[13]。其成果最后收录至CNS 11643的附录之中[15]。
中央标准局所公布的《通用汉字标准交换码》(后更名为《中文标准交换码》,CNS11643)与1984年发布的业界事实标准五大码 (Big5) 有些许共同之处:两者都使用国字标准字体表为基础,但是《中文标准交换码》所定义的码位更符合国字标准字体表所选定的字形。国字标准字体表本身并未定义字形的码位,而是依赖于其他标准将字形赋予码位。
其中,五大码与现在的《中文标准交换码》有部分收字差异:
国字 | 字表序号[17] | CNS11643 | Big5收录异体 | 备注 |
---|---|---|---|---|
U+5F5E彝 | A01266 | 1-7641 | C255,U+5F5D彝 | |
U+53C4叁 | B00287 | 3-3455 | 五大码未收录 | |
U+564D噍 | B00439 | 3-4B43 | 五大码未收录 | |
U+36B7㚷 | B00635 | 3-2847 | 五大码未收录 | |
U+5B0E嬎 | B00715 | 3-4B5F | E955,U+5B14嬔 | CNS11643 第二字面 2-565F 疑似误收 U+5B14嬔 字,但是显示为无点的 U+5B0E嬎 |
U+5C14尔 | B00760 | 3-223F | 五大码未收录 | |
U+3BA3㮣 | B01783 | 3-4167 | 五大码未收录 | |
U+7934礴 | B03027 | 2-662B | F2A1,U+7921礡 | 疑似 Unicode 统合时错误对应到统合汉字 U+7921礡 上 |
U+7DF5緵 | B03452 | 3-4E2B | EDDB,U+7E4C繌 | CNS11643 第二字面 2-5E48 疑似误收 U+7E4C繌 字 |
U+9638阸 | B05531 | 4-2833 | 五大码未收录 | |
U+9C0C䲡 | B05989 | 3-5D76 | 五大码未收录 |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.