中文資訊交換碼(Chinese Character Code for Information Interchange,簡稱CCCII),又名全漢字標準交換碼[1],是由中華民國政府發展的字符集和編碼方案,由獲得中研院中美科學學術合作委員會與文建會(後升格為文化部)贊助的「國字整理小組」(全名為:資訊應用國字整理小組)所提出[2]。開發目的是將其作為中文交換碼,使中文資訊交換更加便利。
此交換碼每個字用三個位元組存儲,在節約空間方面不如大五碼,又不像中文標準交換碼成為官方標準,所以未被電腦業界廣泛採納[3]。香港各大學圖書館在2003年由舊有的CCCII系統換成UTF-8[4][5]。故現僅臺灣和美國仍在使用,且只用於大學圖書館的線上目錄檢索系統。
簡介
1979年,加州史丹福大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226,但由於日本漢字的數目、字型皆與中文有相當程度的差異,難以作為代表,經臺灣和美國東亞圖書館華裔與會者強力反對後,決定先擱置決議,由臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較[6][1]。
謝清俊教授返國後,上書政務委員李國鼎及國科會、中研院中美科學學術合作委員會(簡稱中美會)等單位,集合國內一批文字學家、圖書館學家及電腦科學家,組成「中文資訊處理研究用字小組」(1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。其中,字碼編定的部份由謝清俊、張仲陶、楊鍵樵、黃克東教授負責,文字審查工作則有潘重規、周駿富、周何、何佑森、金祥恆等教授參與,並由王振鵠、張鼎鍾等教授擔任中文資訊交換碼審查小組的成員[7]。
臺灣於次屆亞洲學會年會上,提出共4,808字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」在1981年完成第二批,包括17,032個正體字、11,517個異體字;1987年再發表第三批,包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼,並完成64×64,32×32的機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼[6]。
CCCII後來獲得美國國會圖書館認可,稱為東亞文字碼(East Asian Character Code,EACC),並於1989年納入美國國家標準(編號:ANSI/NISO Z39.64)。CCCII並已被OCLC和RLIN(Research Libraries Information Network)用作中日韓文的書目字碼標準[8]。
「國字整理小組」從1979至1989十年間,共計整理、蒐集了75,684個漢字(正體字44,167、異體字31,517)[7]。隨着張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,CCCII已停止維護、更新[9][10]。
編碼結構
該編碼以三個位元組來代表一個中文字,每位元組為7位元,並根據ISO 2022規格以94×94×94的編碼空間安放字符,最多可收納830,584個。
一個94×94的編碼空間稱為面(Plane)。CCCII共有94個面。以6個面組合成為1個層(Layer)。因此CCCII共有16個層,除第16層僅含4面外,其餘各層均含有6個面(即15×6+4=94)。這16個層相疊,形成一個向下延伸的三度空間,由此形成關聯。
第1個層放置正體字(正體字按常用、備用、罕用的順序分群並依序排列,各字群再按先部首、次筆畫數、最後筆順的次序排列);第2至第13個層,放置異體字,其中第2層專放簡體字,第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易,如:強、强、彊三字的後兩個位元組是一樣的[11]。
另見
註釋
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.