中文資訊交換碼

CCCII / EACC
漢字圓在CCCII中的位置和字型，包含了正體字、簡體字、異體字、日本漢字的寫法
語言	漢語、日語、韓語
標準	MARC-8（英語：MARC-8）（機讀編目格式標準）、ANSI/NISO Z39.64
現狀	主要為圖書館系統使用
分類	基於ISO/IEC 2022結構用於中日韓文字的三位元組字元集（TBCS）機讀編目格式標準的日、阿拉伯、中、韓、波斯、希伯來、意第緒文字（JACKPHY ）

CCCII / EACC

漢字圓在CCCII中的位置和字型，包含了正體字、簡體字、異體字、日本漢字的寫法

語言

漢語、日語、韓語

標準

MARC-8（英語：MARC-8）（機讀編目格式標準）、ANSI/NISO Z39.64

現狀

主要為圖書館系統使用

分類

基於ISO/IEC 2022結構用於中日韓文字的三位元組字元集（TBCS）
機讀編目格式標準的日、阿拉伯、中、韓、波斯、希伯來、意第緒文字（JACKPHY ）

簡介

1979年，加州史丹福大學召開一場籌劃東亞圖書館自動化的會議，希望訂定中文交換碼的標準作為自動化之根據，以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226，但由於日本漢字的數目、字型皆與中文有相當程度的差異，難以作為代表，經臺灣和美國東亞圖書館華裔與會者強力反對後，決定先擱置決議，由臺灣代表謝清俊在次年三月亞洲研究學會年會，提出臺灣方面的漢字編碼方案互作比較^[6]^[1]。

謝清俊教授返國後，上書政務委員李國鼎及國科會、中研院中美科學學術合作委員會（簡稱中美會）等單位，集合國內一批文字學家、圖書館學家及電腦科學家，組成「中文資訊處理研究用字小組」（1985年其國字整理組從中美會轉至文建會，改名為資訊應用國字整理小組），共同整理中文文字，並解決中文資訊處理的技術問題。其中，字碼編定的部份由謝清俊、張仲陶、楊鍵樵、黃克東教授負責，文字審查工作則有潘重規、周駿富、周何、何佑森、金祥恆等教授參與，並由王振鵠、張鼎鍾等教授擔任中文資訊交換碼審查小組的成員^[7]。

臺灣於次屆亞洲學會年會上，提出共4,808字的「中文資訊交換碼」；「中文資訊交換碼」的架構為美方接受，但要求擴大編碼字集。「國字整理小組」在1981年完成第二批，包括17,032個正體字、11,517個異體字；1987年再發表第三批，包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼，並完成64×64，32×32的機讀字型；此外，為了方便電腦上的文字處理，又編製了「中國文字資料庫」(Chinese Character Database，簡稱CCDB)，其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼^[6]。

CCCII後來獲得美國國會圖書館認可，稱為東亞文字碼（East Asian Character Code，EACC），並於1989年納入美國國家標準（編號：ANSI/NISO Z39.64）。CCCII並已被OCLC和RLIN（Research Libraries Information Network）用作中日韓文的書目字碼標準^[8]。

「國字整理小組」從1979至1989十年間，共計整理、蒐集了75,684個漢字（正體字44,167、異體字31,517）^[7]。隨着張仲陶教授在1997年去世，以及謝清俊教授將發展方向轉往漢字構形資料庫，CCCII已停止維護、更新^[9]^[10]。

編碼結構

該編碼以三個位元組來代表一個中文字，每位元組為7位元，並根據ISO 2022規格以94×94×94的編碼空間安放字符，最多可收納830,584個。

一個94×94的編碼空間稱為面（Plane）。CCCII共有94個面。以6個面組合成為1個層（Layer）。因此CCCII共有16個層，除第16層僅含4面外，其餘各層均含有6個面（即15×6+4=94）。這16個層相疊，形成一個向下延伸的三度空間，由此形成關聯。

第1個層放置正體字（正體字按常用、備用、罕用的順序分群並依序排列，各字群再按先部首、次筆畫數、最後筆順的次序排列）；第2至第13個層，放置異體字，其中第2層專放簡體字，第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易，如：強、强、彊三字的後兩個位元組是一樣的^[11]。

中文資訊交換碼

簡介

編碼結構

另見

註釋

外部連結

Wikiwand - on