中文標準交換碼

中文標準交換碼（Chinese Standard Interchange Code，簡稱CSIC），是中華民國國家標準11643號，簡稱CNS 11643，舊名通用漢字標準交換碼（Chinese Ideographic Standard Code for Information Interchange，簡稱CISCII），是中華民國政府為中文資訊處理制定的字元編碼方案，與許多學術圖書館系統採用的中文資訊交換碼同屬於中文交換碼。中文標準交換碼基于ISO 2022定义，和ASCII相容，其EUC版本為EUC-TW。

事实速览 别名, 语言 ...

CNS 11643
别名	中文標準交換碼
语言	繁體中文
标准	CNS 11643
分类	ISO 2022、雙位元組字元集、中日韓統一表意文字
编码格式	EUC-TW（所有字面） ISO-2022-CN-EXT（字面1–7） ISO-2022-CN（字面1和字面2）
其他相关编码	大五碼、中文資訊交換碼
查论编

关闭

簡介

1980年9月，行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議，建立國家中文資訊標準交換碼的編碼原則，並報請行政院核定。隔年，行政院函令國科會、教育部、中央標準局及主計處電子處理資料中心組成專案作業小組，推動編碼工作。經多次會商，於1983年10月底完成「通用漢字標準交換碼」的試用版，試行二年。試用期滿後，國科會與主計處電資中心邀集相關單位與業者組成技術小組，檢討試用結果，並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局（後改名為標準檢驗局）正式公佈，取名「通用漢字標準交換碼」，其內容包括第一字面、第二字面共13,051字^[1]。

1980年代萬「碼」奔騰，業界使用各種不同的字符編碼，如大五碼、王安碼、IBM 5550碼、公會碼、電信碼^[2]、倚天碼等；CNS11643與大五碼字數相同（大五碼有13,053字，但有兩個重碼）。藉由此國家標準交換碼的公布與使用，做為各種不同內碼間的橋梁，使得不同的內碼也可以互相溝通和交換，資料可共享。

為因應各界對擴大中文字元集的需求，中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面，共48,027字，並更名為「中文標準交換碼」。2003年，標準檢驗局委託中文數位化技術推廣基金會再次擴編，於2004年推出新版的CNS11643，將編碼空間由原先規定的十六字面增加到八十字面，並使用至第十五字面。2014年，使用第十七、十九字面。2021年，使用第二十四字面。CNS11643現有兩個細部標準，「中文字基礎部件及部件屬性」（CNS11643-2 ）以及「中文字筆畫分類」（CNS11643-3）^[3]^[4]。

「CNS11643中文交換碼全字庫」為1999年時，由主計處電資中心委託中文數位化技術推廣基金會建置，用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造，全字庫改由研考會辦理，自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後，網站管理機構調整為數位部^[5]。全字庫目前已收納10萬8,800多個文字及符號。若扣除第八和第九字面中的非漢字字元以及第一字面中的符號、注音、部首、漢字構件等字元，以有倉頡碼屬性的字來計算，大約有9萬6,600多個漢字^[6]^[7]。

版本

更多信息 年份, 標準名稱 ...

年份	標準名稱	更改
1983	CNS11643-1983	通用漢字標準交換碼試用版推出，包括13,053字及441個符號，12月推出的大五碼，字集與字序與交換碼試用版完全相同，僅字碼定義不同。
1986	CNS11643-1986	通用漢字標準交換碼正式版發行，包括13,051個字（刪除2個重複字，調整20個字順序）與441個符號，其餘均與試用版相同。
1988	CNS11643-1986	增加第十四字面使用者加字區交換碼，共增加6,148字。
1989	CNS11643-1986	再增加第十四字面使用者加字區交換碼，共增加157字。
1992	CNS11643-1992	擴充第3至7字面，增加部首和數字符號，並更換名稱為中文標準交換碼，總共包括48,027個字與684個符號。
2002	CNS14649	國際標準ISO 10646／Unicode的中文版「CNS 14649廣用多八位元編碼字元集」推出，包括中、日、韓、越等20,902個漢字，及全球使用的字元。
2004	CNS11643-2004	編碼架構擴充至八十字面。
2008	CNS11643-2008	擴充版發行，增加了戶政用字與異體字等。

关闭

編碼格式

CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元（英语：Graphic character）多位元組延伸編碼格式^[4]，以2個字节（byte）為中文碼編碼單位，以十六進位制之文數字表示，並且避開控制字元所在的範圍。字面字集之排列，大抵以使用頻率為次序，第一字面以常用字為主，第二字面以次常用字為主，第三字面以部分罕用字及較常用異體字為主，其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中，依先筆畫後部首排列順序來編訂字碼（每一字面均以文字筆畫總數為第一次序，筆劃數同則按照部首為次序，部首同再按照筆順為次序）^[8]。

CNS 11643採用多字面編碼結構，並藉助ISO/IEC 2022所規定的逸出順序（escape sequence）和調用控制符切換字面。因此，同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字（例如：第1字面字元碼454A為中文字「日」，而第2字面的454A是中文字「碇」）。CNS 11643在新版中規定了延伸字元碼，作為任一字元的唯一字元碼。中文標準交換碼延伸字元碼是在正規字元碼前，附加該字元所屬字面的字面指示碼^[4]。

終結字元

目前CNS11643的1至7字面之終結字元（最後字元、最終位元組）[F]已獲國際標準組織ISO正式登記為47至4D，亦可使用於字集之指定^[8]^[9]。依據ISO 237之規定，各國的國家標準若要成為國際間之中文資訊交換標準，必須向國際標準組織申請註冊，並由國際標準組織正式公佈，如此全球各國即可依國際標準公佈之終結字元進行資料交換。

CNS 11643-1992所包括的七個字面，每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請，1993年2月1日CNS 11643第一、第二字面正式獲得終結字元：47和48，1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元：49–4D。

更多信息 CNS字面, CNS暫用終結字元 ...

CNS字面	CNS暫用終結字元	ISO正式終結字元
第一字面	30	47
第二字面	31	48
第三字面	32	49
第四字面	33	4A
第五字面	34	4B
第六字面	35	4C
第七字面	36	4D

关闭

與大五碼關係

大五碼為資訊工業策進會與臺灣十三家資訊業者簽約，共同為「五大軟體專案」所設計的中文字符編碼。該字符編碼於1983年12月推出，共收錄13,053個漢字（有兩字重複編碼，故實際上只有13,051個字）、408個符號、33個控制字元^[13]，其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同，但碼位不同。「通用漢字標準交換碼」在1986年推出正式版，刪除試用版的2個重複編碼字，調整了20個字的順序。

大五碼後來成為繁體中文社群最常用的電腦漢字字集標準，然而所涵蓋的字數不敷實際需求，造成廠商各自增刪，衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託，召集國內業者代表、專家和學者，就大五碼字元表的原始版本和業界主要版本予以重整，稱為Big5-2003^[14]。重整後的版本，去除了重複編碼，並新增7個中文字，以及370個符號，包括30個數字符號、24個部首、14個罕用符號、268個日本假名，以及34個表格符號^[13]。其成果最後收錄至CNS 11643的附錄之中^[15]。

比較

中央標準局所公佈的《通用漢字標準交換碼》（後更名為《中文標準交換碼》，CNS11643）与1984年发布的业界事实标准五大碼（Big5）有共同之处：两者都使用國字標準字體表为基础，但是《中文標準交換碼》所定义的码位更符合國字標準字體表所选定的字形。國字標準字體表本身并未定义字形的码位，而是依赖于其他标准将字形赋予码位。

其中，五大碼与现在的《中文標準交換碼》有部分收字差异：

更多信息 國字, 字表序號[17] ...

五大碼与《中文標準交換碼》(CNS11643)的差异^[16]
國字	字表序號^[17]	CNS 11643	Big5收录异体	備註
彞（U+5F5E）	A01266	1-7641	彝（C255，U+5F5D）
叄（U+53C4）	B00287	3-3455		五大碼未收录
噍（U+564D）	B00439	3-4B43		五大碼未收录
㚷（U+36B7）	B00635	3-2847		五大碼未收录
嬎（U+5B0E）	B00715	3-4B5F	嬔（E955，U+5B14）	CNS 11643第二字面2-565F疑似誤收「嬔」（U+5B14）字，但是显示为无点的「嬎」（U+5B0E）
尔（U+5C14）	B00760	3-223F		五大碼未收录
㮣（U+3BA3）	B01783	3-4167		五大碼未收录
礴（U+7934）	B03027	2-662B	礡（F2A1，U+7921）	疑似Unicode統合時錯誤對應到統合漢字「礡」（U+7921）上
緵（U+7DF5）	B03452	3-4E2B	繌（EDDB，U+7E4C）	CNS 11643第二字面2-5E48疑似誤收「繌」（U+7E4C）字
阸（U+9638）	B05531	4-2833		五大碼未收录
鰌（U+9C0C）	B05989	3-5D76		五大碼未收录

关闭

參看

資料來源

[1]
余保倫. 與文字共舞－中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. （原始内容存档 (PDF)于2022-12-16）.
[2]
陳冠州. 電信碼. 國家教育研究院樂詞網. 1995-12 [2024-04-29]. （原始内容存档于2024-04-29）.
[3]
存档副本. [2015-03-28]. （原始内容存档于2015-04-02）.
[4]
曾士熊. 認識中文字元碼：十、中文標準交換碼（CNS 11643）. [2022-12-16]. （原始内容存档于2022-05-28）.
[5]
全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. （原始内容存档于2022-12-16）.
[6]
全字庫現況. [2022-12-16]. （原始内容存档于2023-01-27）.
[7]
全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. （原始内容存档于2022-12-17）. 現有字數：現行全字庫中，戶政與地政部分用字經檢查為認同字，因而刪除該碼位資料，但仍保留該碼位的位置，現有字數即去除這些被認同掉的字碼，所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字，所以沒有注音、倉頡等屬性資料碼位個數
[8]
認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.
[9]
附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. （原始内容存档 (PDF)于2022-12-17）.
[10]
存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.
[11]
存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.
[12]
存档副本. [2021-12-12]. （原始内容存档于2022-07-10）.
[13]
曾士熊. 認識中文字元碼：九、Big5和Big5E. [2022-12-17]. （原始内容存档于2022-05-28）.
[14]
認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.
[15]
謝東翰. 預覽「Big5 2003」. [2022-12-17]. （原始内容存档于2022-12-17）.
[16]
次常用國字標準字體表 - 字嗨！. zi-hi.com. [2023-04-25]. （原始内容存档于2021-05-14）.
[17]
国家教育研究院. 教育部异体字字典. [2021-05-14]. （原始内容存档于2021-05-15）（中文（臺灣））.

外部連結

CNS11643中文標準交換碼全字庫（页面存档备份，存于互联网档案馆）
CNS11643中文標準交換碼全字庫資料集（页面存档备份，存于互联网档案馆）
CNS 11643與Unicode對照表（页面存档备份，存于互联网档案馆）
曾士熊：認識中文字元碼 - 中文標準交換碼（CNS 11643）（页面存档备份，存于互联网档案馆）
依据各平面显示所有字符的PDF（舊資料）

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

簡介

版本

編碼格式

終結字元

最新版本

與大五碼關係

比較

參看

資料來源

外部連結