中日韓統一表意文字(英語:CJK Unified Ideograph),又稱統漢碼、統一漢字集(英語:Unihan),是指在 ISO 10646 與統一碼標準中經過「漢字等同」處理的漢字。 [2] 漢字等同(英語:Han unification[3]) 是指將中文、日文、韓文、越南文、壯文、琉球文等書寫系統共通的漢字賦予相同編碼的做法; [5] 被合併編碼的漢字,往往起源相同、本義相通、形狀大同小異。 [6] 整理出來的中日韓統一表意文字,由統一碼聯盟建置的Unihan資料庫維護。
上級分類 | 漢字字元 |
---|---|
所屬實體 | 通用字符集 |
話題方面 | 漢字統合 |
涵蓋範圍
名稱
除了「中日韓統一表意文字」,CJK Unified Ideograph 還有以下中文譯名:
除了「漢字等同」,Han Unification 又譯為:
- 漢字認同
- 漢字統一
- 漢字統合
歷史
1978年,日本產業規格制訂了基於ISO/IEC 2022的JIS C 6226,為全世界最早的漢字編碼,包含6349漢字。1980年代,臺灣(中文資訊交換碼、中文標準交換碼)、中國大陸(GB 2312)、韓國(KS C 5601)開始制訂了各自的編碼規範。這些規範彼此之間並無連繫。若要在一份檔案中同時使用,則要以跳脫字元的方式來交換。
1980年,日本的國立國會圖書館的高橋德太郎以書目學的觀點指出,統一的東亞漢字編碼系統有必要。同年,臺灣制定了三位元組的中文資訊交換碼,這是第一款期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字元(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(Han Character Collection,HCC)的構想。
1990年完成了ISO 10646的初版草案(DIS 10646)。漢字用32位元表示,並將各國的漢字編碼原封不動加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後能順利討論漢字編碼及處理有關方針,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,施樂的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓的漢字統合了。基本方針以16位元處理所有文字。1990年完成了基於此方針的最終草案。1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓類似的漢字使用約二萬多字。為了未來擴充,保留了三萬漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646和統一碼的統一漢字編碼。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但發現一些缺失,之後修正。
1993年5月正式制訂最初的「中日韓統一表意文字」位於U+4E00-U+9FFF,共20902字;不過漢字「〇」(U+3007)誤當數字放入符號和標點區。一個月後制訂了統一碼1.1。
1999年,依據ISO/IEC 10646的第17修正案(Amendment 17)訂定擴充區A,於U+3400-U+4DFF加入6582漢字。
2001年,依據ISO/IEC 10646-2新增擴充區B,於U+20000-U+2A6FF有42711漢字;但短時間內增加大量漢字,產生許多重複字形。
2005年,依據ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文種平面增加U+9FA6-U+9FBB,共22漢字。
2009年,統一碼5.2擴充區C增加U+2A700-U+2B734,基本多文種平面增加U+9FC4-U+9FCB。
2010年,統一碼6.0擴充區D增加U+2B740-U+2B81F。
2012年,統一碼7.0基本多文種平面增加1漢字:U+9FCC。
2015年,統一碼8.0擴充區E增加U+2B820-U+2CEAF,基本多文種平面增加U+9FCD-U+9FD5。
2017年,統一碼10.0擴充區F增加U+2CEB0-U+2EBEF,基本多文種平面增加U+9FD6-U+9FEA。
2018年,統一碼11.0基本多文種平面末尾增加5漢字:U+9FEB-U+9FEF。
2020年,統一碼13.0增加4969漢字,其中4939字位於第三平面的擴充區G,碼位爲U+30000-U+3134A。同時,亦在基本區增加13字:U+9FF0-U+9FFC,在擴充A區增加10字:U+4DB6-U+4DBF,在擴充B區增加7字:U+2A6D7-U+2A6DD。
2021年,統一碼14.0基本多文種平面末尾增加3漢字:U+9FFC-U+9FFF。同時,亦在擴充B區增加2字:U+2A6DE-U+2A6DF,在擴充C區增加4字:U+2B735-U+2B738。
2022年,統一碼15.0增加4193漢字,其中4192字位於第三平面的擴充區H,碼位爲U+31350-U+323AF。同時,亦在擴充C區增加7字:U+2B739。
2023年,統一碼15.1增加622漢字,位於第二平面的擴充區I,碼位爲U+2EBF0 - U+2EE5D。
另外,第三平面的U+38000至U+3AB9F預計放置篆書,相關提案已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[11]。
版本
ISO 10646版本 | 統一碼版本 | 新增 | 置放平面 | 字數 | 累計
字數 |
---|---|---|---|---|---|
1993 | 1.1 | 中日韓統一表意文字(U+4E00-U+9FA5) | 基本多文種平面 | 20902 | 20915 |
1漢字(U+3007,〇),於中日韓符號和標點區 | 基本多文種平面 | 1 | |||
在「中日韓相容表意文字」中但實則獨一的漢字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[註 1] | 基本多文種平面 | 12 | |||
1999 | 3.0 | 中日韓統一表意文字擴充區A(U+3400-U+4DB5) | 基本多文種平面 | 6582 | 27497 |
2001 | 3.1 | 中日韓統一表意文字擴充區B(U+20000-U+2A6D6) | 第二輔助平面 | 42711 | 70208 |
2005 | 4.1 | HKSCS-2004未加入ISO 10646的漢字(U+9FA6-U+9FB3,龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB,龴龵龶龷龸龹龺龻) | 基本多文種平面 | 22 | 70230 |
2008 | 5.1 | 7日語漢字[13](U+9FBC-U+9FC2,龼龽龾龿鿀鿁鿂),U+4039䀹拆分為U+4039䀹和U+9FC3鿃[14] | 基本多文種平面 | 8 | 70238 |
2009 | 5.2 | 中日韓統一表意文字擴充區C(U+2A700-U+2B734) | 第二輔助平面 | 4149 | 74395 |
2009 | 2日語用漢字(ARIB #47、#95,U+9FC4鿄,U+9FC5鿅)、1新增漢字(ARIB #93,U+9FC6鿆)、HKSCS-2004推出後新增的5香港漢字[15](U+9FC7-U+9FCB,鿇鿈鿉鿊鿋) | 基本多文種平面 | 8 | ||
2010 | 6.0 | 中日韓統一表意文字擴充區D(U+2B740-U+2B81D) | 第二輔助平面 | 222 | 74617 |
2012 | 6.1 | 1漢字(U+9FCC鿌) | 基本多文種平面 | 1 | 74618 |
2015 | 8.0 | 中日韓統一表意文字擴充區E(U+2B820-U+2CEA1) | 第二輔助平面 | 5762 | 80389 |
「急用漢字」:《通用規範漢字表》餘下未收入的3字(U+9FCD-U+9FCF,鿍䃮䥑),1個從U+4CA4(鿐)分離出來的字U+9FD0(鿐),5個其他圖書用字及化學元素用字(U+9FD1-U+9FD5,鿑鿒鿓鎶鿕) | 基本多文種平面 | 9 | |||
2017 | 10.0 | 中日韓統一表意文字擴充區F(U+2CEB0-U+2EBE0) | 第二輔助平面 | 7473 | 87883 |
21漢字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) | 基本多文種平面 | 21 | |||
2018 | 11.0 | 5漢字(U+9FEB-U+9FEF,鿫鿬鉨鿮鿯),前三字是新命名的化學元素用字,後兩字來自日本 | 基本多文種平面 | 5 | 87888 |
2020 | 13.0 | 中日韓統一表意文字擴充區G(U+30000-U+3134A) | 第三輔助平面 | 4939 | 92857 |
急用科學與技術用字[16](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10個需分離的漢字[17][18][19](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) | 基本多文種平面 | 23 | |||
崑曲工尺譜用字[20](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) | 第二輔助平面 | 7 | |||
2021 | 14.0 | 3漢字(U+9FFD-U+9FFF,鿽鿾鿿) | 基本多文種平面 | 3 | 92866 |
2漢字(U+2A6DE-U+2A6DF,𪛞𪛟) | 第二輔助平面 | 2 | |||
4漢字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸) | 第二輔助平面 | 4 | |||
2022 | 15.0 | 中日韓統一表意文字擴充區H(U+31350–U323AF) | 第三輔助平面 | 4192 | 97059 |
1漢字(U+2B739,𫜹) | 第二輔助平面 | 1 | |||
2023 | 15.1 | 中日韓統一表意文字擴充區I(U+2EBF0-U+2EE5F) | 第二輔助平面 | 622 | 97681 |
成員機構
收字來源
最初期共20902統一漢字,範圍為U+4E00-U+9FA5,收字來源包括以下字集[22]:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G0 | GB 2312-80 | 6763 |
G1 | GB 12345-90 | 2352(含58香港字和92吏讀字,不包括和GB 2312重複的字) | |
G3 | GB 7589-87繁體版本 | 7237 | |
G5 | GB 7590-87繁體版本 | 7039 | |
G7 | 現代漢語通用字表 | 42(G0、1、3、5、8未包括的字) | |
G8 | GB 8565.2-89 | 290(G0、1、3、5未包括的字) | |
臺灣源(T) | T1 | CNS 11643-1986第一字面 | 5401+9計量用漢字 |
T2 | CNS 11643-1986第二字面 | 7650 | |
TE | CNS 11643-1986第十四字面 | 6319+239中文資訊交換碼特字+10施樂字元集(Xerox Character Code Standard,XCCS)特字 | |
日本源(J) | J0 | JIS X 0208-90 | 6335+非漢字1個(仝)[23] |
J1 | JIS X 0212-90 | 5801 | |
韓國源(K) | K0 | KS C 5601-87 | 4888(含268重見字[24]) |
K1 | KS C 5657-91 | 2856 | |
委員會源(U) | KS C 5601-1987(當中重複的漢字) | ||
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[25] | |||
大五碼 | |||
中文資訊交換碼第一字面 | |||
GB 12052-89(漢字部分) | |||
JEF(富士通標準) | |||
中國大陸電報碼 | |||
臺灣電報碼(CCDC) | |||
施樂中文編碼 | |||
人名用漢字准用字體表(人名用漢字許容字型表;日本) | |||
IBM選取的日本和韓國表意文字 |
其中,統一碼技術委員會源(U源)指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用原字集分離原則(見稍後)。
擴充A區包含有6592漢字,位置在U+3400-U+4DBF。這6千多漢字分別從以下字典或字集取得:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G_KX | 《康熙字典》 | 5357(獨有1892字) |
G_HZ | 《漢語大字典》 | 5888(獨有339字) | |
G3 | GB 7589-87繁體版本 | 2391 | |
G5 | GB 7590-87繁體版本 | 1226 | |
G7 | 現代漢語通用字表 | 120 | |
GS | 新加坡漢字 | 226 | |
臺灣源(T) | T3 | CNS 11643-1992第三字面(原為CNS 11643-1986第十四字面)新加入字元 | 2178 |
T4 | CNS 11643-1992第四字面 | 2917 | |
T5 | CNS 11643-1992第五字面 | 395 | |
T6 | CNS 11643-1992第六字面 | 197 | |
T7 | CNS 11643-1992第七字面 | 133 | |
TF | CNS 11643-1992第十五字面 | 86 | |
日本源(J) | JA | 日本資訊科技零售商統一當代表意文字(1993) | 574 |
韓國源(K) | K2 | PKS C 5700-1:1994 | |
K3 | PKS C 5700-2:1994 | 1834 | |
越南源(V) | V0 | TCVN 5773:1993 | 138 |
V1 | TCVN 6056:1995 |
擴充B區有42717漢字,位置在U+20000-U+2A6DD。根據IRG N777號檔案(頁面存檔備份,存於互聯網檔案館),這四萬多漢字分別從以下字典或字集中取得:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G_KX | 《康熙字典》 | 18486(包括在補遺篇出現的一字) |
G_HZ | 《漢語大字典》 | 28914 | |
G_CY | 《辭源》 | 66 | |
G_CH | 《辭海》 | 247 | |
G_HC | 《漢語大詞典》 | 553 | |
G_BK | 《中國大百科全書》 | 86 | |
G_FZ | 北大方正排版系統 | 65 | |
G_4K | 《四庫全書》 | 522 | |
香港源(H) | H | 香港增補字符集(HKSCS) | 1081 |
臺灣源(T) | T4 | CNS 11643-1992第四字面 | 3408 |
T5 | CNS 11643-1992第五字面 | 8111 | |
T6 | CNS 11643-1992第六字面 | 5934 | |
T7 | CNS 11643-1992第七字面 | 6299 | |
TF | CNS 11643-1992第十五字面 | 6401 | |
日本源(J) | J3 | JIS X 0213:2000,level 3 | 25 |
J3A | JIS X 0213:2004,level 3 | 1 | |
J4 | JIS X 0213:2000,level 4 | 277 | |
韓國源(K) | K4 | PKS 5700-3:1998 | 166 |
朝鮮源(KP) | KP0 | KPS 9566-97 | |
KP1 | KPS 10721-2000 | 5766 | |
越南源(V) | V2 | VHN 01:1998 | 2290 |
V3 | VHN 02:1998 | 425 |
這些漢字有不少重複,經整理後實際只有42711漢字。另外,U+2F800-U+2FA1D放了來自臺灣的542相容漢字。
為使統一碼向下相容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴充C區又遲遲未能出籠,4.1版引進了香港增補字符集的14用字和GB 18030的8用字。該22字編於U+9FA6-U+9FBB。
另外,U+FA70-U+FAD9放了來自北韓的106相容漢字。
2008年4月推出的統一碼5.1版收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[26],和鿃(大字加兩個入字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來統一碼3.0收錄了目字旁加夾(大字加兩個人字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論意義和發音均不同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[27]。
於2009年10月發佈的統一碼5.2涵蓋了擴充C區,共收錄4149漢字,包括來自中國大陸、澳門、臺灣、日本、越南等尚未編碼的漢字,在U+2A700-U+2B734。這四千多漢字分別從以下字典或字集取得:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G_BK | 《中國大百科全書》 | 74 |
G_FZ | 北京大學方正排版系統 | 1 | |
G_HZ | 《漢語大字典》 | 1 | |
G_HC | 《漢語大詞典》 | 14 | |
G_GH | 《古代漢語詞典》 | 50 | |
G_GJZ | 商務印書館用字 | 61 | |
G_XC | 《現代漢語詞典》 | 25 | |
G_CH | 《辭海》 | 264 | |
G_KX | 《康熙字典》及補遺 | 6 | |
G_CYY | 中國測繪科學研究院用字 | 55 | |
G_ZFY | 《漢語方言大辭典》 | 202 | |
G_ZJW | 《殷周金文集成引得》 | 366 | |
臺灣源(T) | TC | CNS 11643-1992第12字面 | 634 |
TD | CNS 11643-1992第13字面 | 767 | |
TE | CNS 11643-1992第14字面 | 350 | |
澳門源 | MAC | 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) | 16 |
日本源(J) | JK | 日本國字集(Japanese KOKUJI Collection) | 367 |
韓國源(K) | K5 | 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) | 404(當中主要包含古代字例) |
朝鮮源(KP) | KP1 | KPS 10721:2003 | 5357(獨有1892字) |
越南源(V) | V4 | 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] | |
《岱喃字字典》(Từ điển chữ Nôm Tày,Hoàng Triều Ân,2006) | |||
《沔南喃字榜查》(Bảng tra chữ Nôm miền Nam,Vũ Văn Kính,1994) | |||
委員會源(U) | ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯:夏威夷大學出版社) | ||
耶穌基督後期聖徒教會香港分會用字 | |||
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋:哈佛大學出版社) | |||
宋本《廣韻》 | |||
《中國鳥類系統檢索》(鄭作新等,北京:科學出版社,2000) | |||
段玉裁《說文解字注》 |
擴充D區包含的都是所謂的「急用漢字」,合共222新漢字,於2010下半年發佈的統一碼6.0中,編碼範圍為U+2B740-U+2B81F(實際有字元為U+2B740-U+2B81D)。
擴充D區原本計劃放置擴充C區未收錄的16000多漢字,但在2007年5月,臺灣撤消了6545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人已去世或移居外地[28],此後擴充D區縮減到大約10000字左右[29]。由於各種阻礙,協定先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。
擴充E區亦在2015年6月17日的統一碼8.0中發佈,放置於編碼範圍U+2B820-U+2CEAF。
擴充E區本應包含擴充D區未收錄的10000多個漢字,但在2008年11月,中國大陸以「難以逐個找證據」為理由,撤消了3215漢字[30],這些漢字主要用於地名、人名、姓氏,亦有數百個《中國大百科全書》中的文字。這是繼台灣撤消6545字之後的又一次大規模撤消。之後又經過長時間的檢查處理,E區最終定稿,共5762字[31]。
這些漢字來源如下:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G_BK | 《中國大百科全書》 | 15 |
G_CH | 《辭海》 | 112 | |
G_CY | 《辭源》 | 3 | |
G_CYY | 中國測繪科學院用字(地名用字) | 98 | |
G_DZ | 地質出版社用字 | 1 | |
G_GH | 《古代漢語詞典》 | 176 | |
G_HC | 《漢語大詞典》 | 7 | |
G_IDC | 公安部身份證系統人名和地名用字 | 36 | |
G_JZ | 商務印書館用字 | 147 | |
G_KX | 《康熙字典》 | 22 | |
G_RM | 人民日報用字 | 3 | |
G_WZ | 漢語大詞典出版社用字 | 12 | |
G_XC | 《現代漢語詞典》 | 57 | |
G_XH | 《新華字典》 | 4 | |
G_ZFY | 《漢語方言大辭典》 | 712 | |
G_ZJW | 《殷周金文集成引得》 | 1410 | |
臺灣源(T) | TC | CNS 11643-1992第12平面323字(台灣人名用字) | 323 |
TD | CNS 11643-1992第13平面595字(台灣人名用字) | 595 | |
TE | CNS 11643-1992第14平面339字(台灣人名用字) | 339 | |
日本源(J) | JK | 日本國字集 | 415 |
澳門源(M) | MAC | 澳門資訊系統字集 | 48 |
委員會源(U) | UTC | 從各處收集到的未收錄漢字 | 227 |
越南源(V) | V4 | 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] | 1028 |
《岱喃字字典》(Từ điển chữ Nôm Tày,Hoàng Triều Ân,2006) | |||
《沔南喃字榜查》(Bảng tra chữ Nôm miền Nam,Vũ Văn Kính,1994) |
「急用漢字」是擴充E區整理後期,各地新發現並急於使用,又等不及放入擴充F區的字;和擴充E區一起收入統一碼8.0,位置在U+9FCD-U+9FD5;當中中國大陸在此處申請收入三字,連同擴充E區的字,通用規範漢字表的8105字至此全部收入。
擴充F區在2017年6月20日的統一碼10.0發佈,編碼範圍為U+2CEB0-U+2EBEF。
擴充F區來源於新提交的一批漢字,主要包括一千多方塊壯字及數千個佛經、古籍中的用字以及日本戶籍用字,共有7473字。
這些漢字的來源如下:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G_CY | 《辭源》 | 122 |
G_FC | 《現代漢語規範詞典》 | 27 | |
G_IDC | 公安部身份證用字 | 1 | |
G_LGYJ | 《壯族嘹歌研究》 | 1 | |
G_OCD | 《牛津英漢漢英詞典》 | 2 | |
G_PGLG | 《壯族民歌文化叢書·平果嘹歌》 | 70 | |
G_XHZ | 《新華大字典》 | 51 | |
G_Z | 《古壯字字典》 | 995 | |
G_ZJW | 《殷周金文整合引得》 | 33 | |
G_ZYS | 《壯族人民的文化遺產——方塊壯字》《中國民族古文字研究》 | 2 | |
日本源(J) | JMJ | 日本文字資訊基礎工程 | 1645 |
韓國源(K) | KC | 韓國歷史情報統合系統 | 1793 |
澳門源(M) | MAC | 澳門資訊系統字集 | 22 |
大藏經研究組(SAT) | USAT | 《大正新修大藏經》(SAT版) | 2884 |
委員會源(U) | UTC | 從各處收集到的未收錄漢字 | 1 |
於2020年3月10日公佈的統一碼13.0中在第三輔助平面收錄擴充區G的4939漢字,碼位為U+30000-U+3134A[32][33]。
這些漢字的來源如下(部分字元來自多於一處來源,所以下表總數多於收錄總數4939字):
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G_HZR | 《漢語大字典》(第二版) | 878 |
G_PGLG | 《壯族民歌文化叢書·平果嘹歌》 | 13 | |
G_Z | 《古壯字字典》 | 1191 | |
韓國源(K) | KC | 韓國歷史情報統合系統(한국 역사 정보 통합 시스템) | 428 |
臺灣源(T) | T13 | CNS 11643第19字面(將設立的新平面) | 347 |
TB | CNS 11643第11字面 | 3 | |
TC | CNS 11643第12字面 | 2 | |
TD | CNS 11643第13字面 | 1 | |
英國源(UK) | UK | IRG N2107R2 | 1566 |
大藏經研究組(SAT) | USAT | 《大正新修大藏經》(SAT版) | 329 |
委員會源(U) | UTC | 從各處收集到的未收錄漢字 | 239 |
2022年9月13日公佈的統一碼15.0在第三輔助平面收錄擴充區H的4192漢字,碼位為U+31350-U+323AF。
這些漢字的來源如下(部分字元來自多於一處來源,下表總數多於收錄總數4192字):
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
GDM | 中華人民共和國公安部治安管理局地名漢字 | 128 |
GHC | 漢語大詞典 | 27 | |
GKJ | 全國科學技術名詞審定委員會術語定名用字 | 30 | |
GLGYJ | 壯族嘹歌研究 | 11 | |
GPGLG | 壯族民歌文化叢書•平果嘹歌 | 14 | |
GXM | 217 | ||
GZ | 古壯字字典 | 285 | |
GZA-1 | 生生不息的傳承•孝與壯族行孝歌之研究 | 6 | |
GZA-2 | 壯族倫理道德長詩傳揚歌譯註 | 38 | |
GZA-3 | 壯族民歌古籍整合•情歌(一)嘹歌 | 2 | |
GZA-4 | 壯族民歌古籍整合•情歌(二)歡𭪤 | 11 | |
GZA-6 | 中國壯族諺語 | 59 | |
GZA-7 | 遠古的追憶•壯族創世神話古歌研究 | 1 | |
韓國源(K) | KC | 韓國歷史情報統合系統 | 512 |
朝鮮源(KP) | KP1 | KPS 10721-2000 | 1 |
臺灣源(T) | T12 | TCA-CNS 11643第十八平面 | 7 |
T13 | TCA-CNS 11643第十九平面 | 696 | |
T4 | CNS 11643-1992第四平面 | 1 | |
T6 | CNS 11643-1992第六平面 | 1 | |
TB | CNS 11643-2007第十一平面 | 4 | |
TC | CNS 11643-2007第十二平面 | 3 | |
TE | CNS 11643-2007第十四平面 | 2 | |
英國源(UK) | UK | IRG N2232R | 917 |
越南源(V) | V0 | TCVN 5773:1193 | 6 |
V4 | 漢喃編碼字彙 | 74 | |
VN | 越南橫向擴充用字 | 851 | |
大藏經研究組(SAT) | 大藏經文字資料庫 | 241 | |
委員會源(U) | UTC | 161 |
2023年9月12日公佈的統一碼15.1在第二輔助平面收錄擴充區I的622個漢字,碼位為U+2EBF0-U+2EE5F。
這些漢字的來源如下:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
GIDC23 | 公安部身份證系統人名和地名用字2023版 | 622 |
漢字等同
東亞各國字形多有微妙的差異。如「房」字的第一筆,韓國傳統漢字字形、臺灣教育部標準字體作撇「房」;香港教育參考字形、中國大陸規範作點「房」;日本標準作橫「房」。又如「次」字的左旁,韓國採用傳統字形,首筆爲橫,次筆爲挑;臺灣教育部作兩橫;大陸、日本、香港等則作「冫」(俗稱兩點水)。這種程度的差異,理想是整併為一字為佳。否則,要是凡異體字都收進不同碼位裏,統一碼收錄的漢字就會過於臃腫,用戶搜尋時也會因異體問題而找不到想要的結果。
然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。例如,日本的JIS編碼同時收錄了「剣」與「劍」字,原本JIS檔案裏這兩字可以並存。如果採用整合字集後,它們會變成同一字,使用的時就會造成困擾。而且,如果將多個不同地區字形合併,會影響閱讀者,令用戶不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)。
於是,表意文字認同原則與原字集分離原則就應運而生。
按表意文字認同原則,統一碼「只對字(Character)而不對字形(Glyph)」編碼,會把同一字的不同字形(即異體字)合併。好像上述「次」字,統一碼會整併成一碼。又例如不同地區而有不同寫法的部首,如「⻌(中國大陸規範、日本新字體)、⻍(港臺舊字形、韓國、日本舊字體)、⻎(臺灣教育部)」、「礻(中國大陸規範、臺灣教育部)、礻(日本新字體)、⺬(日本舊字體、韓國、港臺舊字形)」、「爫(中國大陸、港臺新字形)、⺥(舊字形)」等,會合併編碼。這些部首的寫法差異就會交由字型處理。比如說,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體(如中易宋體、微軟雅黑體)便會出現「⻌、爫」;使用臺灣教育部標準字體(如微軟正黑體或新版細明體,但非舊版細明體[註 3])就會出現「⻎、爫」等字形,大大解決了因地區而異之部首寫法。
至於原字集分離原則是指,上述所列出之各種收字來源,若有任何字集同時收了兩種以上文字字形,中日韓統一表意文字也會臨時放棄認同原則,同時收錄這些字。這樣一來,現行各種原有字集與統一碼漢字可一一對應。比如「房」字,各地字集都沒有分別編碼,就只編進一碼位,部首第一筆的寫法交由字型處理。然而,「戶」、「户」、「戸」這三字,在一些地區標準裏是分別編碼的,統一碼則以三碼位分別收錄它們。上述的「剣」與「劍」也一樣安放到不同碼位。
基於上述運作,統一碼能大幅減少收錄漢字字數,同時讓地區編碼過渡至統一碼時,字集裏的字元不會流失,但原字集分離原則破壞了統一碼「只對字而不對字形」編碼之原則,某些漢字獲得兩位或以上編碼,亦遭受不少批評。
漢字等同有三個原則:[6]
注意第三個原則受原字集分離原則和起源不同原則的制約。
原字集分離原則(英語:Source Separation Rule):
兩個表意文字,如果在一個主要源標準中是不同的,就不視為等同。[34]
Source Separation Rule 又譯為「字源分離原則」、「來源字集分離原則」、「原規格分離原則」。
這個原則又名來回原則(英語:round-trip rule),因其旨在使字元數據在來回轉碼時不損失資訊;這裏「來回轉碼」是指在表意文字小組源標準與統一碼標準之間來回轉換編碼。 [35]
這個原則只適用於最初的中日韓統一表意文字區塊, 而「主要源標準」是指 G 源、T 源、J 源或 K 源(見最初期統一漢字)。 表意文字小組在 1992 年放棄了這個原則,將來也不會再用。 [36]
例如下表六個「劍」字,在標準「 JIS X 0208-1990 」中分開編碼,因而在統一碼中各佔一個碼位:
漢字 | Unicode | JIS |
---|---|---|
剣 | U+5263 | J0-3775 |
劍 | U+528D | J0-5178 |
剱 | U+5271 | J0-517B |
劔 | U+5294 | J0-5179 |
劒 | U+5292 | J0-517A |
釼 | U+91FC | J0-6E5F |
起源不同原則(英語:Noncognate Rule):
一般而言,兩個沒有歷史源流關係的表意文字,不視為等同。[38]
有些漢字雖然外形相近,但意義毫不相干,那麼也不能合併。 例如「土」和「士」雖然形似,但意義沒有關係,所以不可合併。然而,日本、韓國、中國大陸、香港等地的「寺」字,與臺灣教育部的「寺」字,兩者頂部分別是「土」和「士」,但它們音義全同,是同一字的異體,就不受此原則的限制。
起源不同原則只是一般性原則(「一般而言」),也允許有特殊情況。例如「同形字」,即一個字有不止一個讀音與字義,雖然字源不同,卻由同一字形表示。比如漢字「芸芸眾生」的「芸」,與日本漢字「藝」字的新字體「芸」,是同形字。要是這些同形字之字形確實相同而非相似(「芸」字的草頭雖然有三筆的「⺾」、四筆的「⺿」等不同寫法,但它們都指同一部件,沒有對立),就不會應用起源不同原則。
第三個等同原則:
每個表意文字,用二級分類法(如下所述)確定其抽象形體。兩個表意文字,若有相同的抽象形體,就視為等同,除非違反原字集分離原則或起源不同原則。[39]
下文介紹如何確定漢字的抽象形體。
統一碼發展了一個三維概念模型,考察漢字的三個屬性:語義、抽象形體、實際形體。分別用 X、Y、Z 表示這三個屬性,就能把漢字放在一個假想的三維空間裏:
- X:語義屬性區分漢字的意義和用法。
- Y:語義屬性相同的漢字,用 Y 軸所代表的抽象形體屬性可區分不同變體。
- Z:語義屬性和抽象形體屬性都相同的字,用 Z 軸所代表的實際形體屬性可區分不同的字體設計。[40]
用抽象形體(Y)及實際形體(Z)來區分漢字,就是二級分類法。[41]
如何分析漢字的抽象形體?對每個漢字,層層拆分,得到其部件結構樹,考察以下五方面的特徵:
- 部件的數量
- 部件在整個漢字裏的相對位置
- 對應部件的結構
- 在某個源字元集裏的處理
- 部件包含的部首
兩個漢字,如果以上所有特徵都相同,那麼就視為抽象形體相同,否則視為抽象形體不同。[41]抽象形體相同和不同的例子,可參見[41]。
統一碼一方面依據形體對異體字統一編碼,另一方面受原字集分離原則限制,所以對某些異體字的處理會不一致。 例如:
漢字 | 碼位 | 漢字 | 碼位 |
---|---|---|---|
青 | U+9752 | 靑 | U+9751 |
清 | U+6E05 | 淸 | U+6DF8 |
精 | U+7CBE | ⿰米靑 | U+FA1D |
靖 | U+9756 | ⿰立靑 | U+FA1C |
晴 | U+6674 | ⿰日靑 | U+FA12 |
請 | U+8ACB | ⿰言靑 | 無 |
情 | U+60C5 | ⿰忄靑 | 無 |
睛 | U+775B | ⿰目靑 | 無 |
原字集分離原則在 1992 年已停用。原因是個別地區提交了不少僅有十分輕微差異的字樣,比如台灣《異體字字典》裏的各種異體,要求統一碼分別編碼。然而,那些字樣所建基的地區編碼,並非該地區的通用編碼,例如是中文標準交換碼(台灣實際通行的編碼是 Big5 碼)。若統一碼全面採納,將會令統一碼對異體字的處理更混亂。[來源請求]
統一碼 3.2 引入了變體選擇符, [42] 從此可以用「變體序列」描述字元的變體。漢字的變體,可用「標準變體序列」或「表意文字變體序列」表示。中日韓相容表意文字和中日韓相容表意文字補充兩個字元塊的漢字,均已獲編配標準變體序列。 [43] [44] 另一方面,統一碼自 2007 年起維護「表意文字變體數據庫」,收錄了大量漢字變體;截至 2022 年 9 月 13 日,已收錄了 29437 個變體序列。 [45] [46] 例如:
統漢字資料庫
統漢字資料庫(英語:Unihan)是統一碼聯盟所維護的資料庫檔案,為統漢字的各漢字列出說明,內容有:
資料庫以以下方式發佈:
批評
有人對統一碼的原字集分離原則有不少批評,尤其是它令同一異體部件時而分離,時而合併,引伸許多日常使用的問題。擧例說,「青」和「靑」、「淸」和「清」都在正常區域中作分離編碼,獲得兩碼位;「晴」、「靖」、「精」雖也獲兩碼位,但其中一位在相容區,日常難以應用;「請」、「情」、「蜻」、「靜」更只有一碼位。或例如合併「直」和「直」、「植」和「植」而分離「値」和「值」作兩碼位。統一碼的做法沒有把有相同異體部件的字全都合併,也沒有把它們全都分離,結果字形經常不一致,或者用戶無法選擇他希望使用的字形[52]。
其他漢字使用地區也有類似聲音。如「戋」和「㦮」兩個偏旁,前者爲「戔」的大陸簡化字,後者爲「戔」的日本新字體,在「残」和「残」、「浅」和「浅」、「践」和「践」等組合裏,就整併起來。可是碰到「桟」和「栈」,卻不統合,分列U+685F與U+6808兩碼位。日本學者指這種情況爲統一碼的矛盾[53]。
事實上,統一碼本身在「中日韓統一表意文字」不同區域裏也用了不一致的併分尺度,因此早期異體字時常獲配正常碼位,後來常常只有相容區的暫存編碼,再後來則不時直接整併並交由變體選擇符處理。若不修正或更改早期編碼,類似問題將會持續存在。
合併異體字雖有助減少收錄字數,但研究學術時,如古籍、歷史及文字等,部份文獻卻要將字形不同之字同時並列。已合併的各字在這些文獻裏變得各有各意思。學者若使用統一碼,遇到這種情況,就要用不同電腦字型去顯示同一字碼,甚至要自行造字,或捨統一碼而用其他編碼。一來尋找、轉換電腦字型構成不便,二來有損統一碼記錄每一字之用意,三來不能以純文字交換,四來電腦字型或因授權條款之限,難以交換流傳。另外,這亦等於不能以統一碼準確記錄文獻,不利數碼文字。
不同字形之字合併後,若以字形爲本檢索,會產生混亂,難以檢索,如筆畫檢字,艸部之「艹頭」,中國、日本算作三畫,而傳統中文爲四畫,留有「艸」形者則爲六畫。統一碼同一字碼源於字形不同就有幾種筆畫,檢索混亂。即使檢出字,筆畫與顯示出來的字形也不相符。因此,批評者認爲,統一碼合併異體字並不可取。
但是另一方面,統一碼收錄不少幽靈漢字,其出處難以找到,它們在實際生活也極少機會使用,有些甚至是錯訛字,或者僅是某一人的名字用字,那人不見得是名人,甚至可能已去世,卻永久成爲標準裏的字元,佔用了一碼位。比如臺灣律師呂秋𧽚的「𧽚」字本應作「遠」,可是戶政人員誤聽他外公說的臺語,把「辵字邊」聽成「走馬邊」,外公又不敢更正。當事人長大後,才確認這是錯字[54],但這字已永久收進統一碼。又如香港增補字符集有許多人名用字,學者都指出乃屬訛寫,或是來歷不明的自創新字[55]。中文資訊界李祥在其專欄批評當局「解決不了增補字集中上千錯字、白字、生造字的讀音問題」,呼籲「不要把香港增補字符集與申請ISO強迫聯繫在一起」[56]。然而,這些人名訛字亦已經收進統一碼,構成了收字過多的爭議。
也有批評認為統一碼收入大量錯訛字及寫法高度相似的同一字的不同字形本身就不應該。電腦文字本身永遠不可能完全無失真地記錄文獻,且文獻本身也會因傳抄製版等原因略有不同,如果把每字的各種寫法全部編碼,會浪費空間。完全無失真地研究、記錄文獻只能通過檢視原本或照相影印版來完成,把無失真儲存轉嫁給編碼是錯誤的。
現時統一碼把一些異體字分別編碼,帶來了檢索困難。只要寫法稍有不同,就無法檢出,令使用戶檢索字詞時,必須反覆檢索其不同寫法,造成重複勞動,對研究文獻反而是種妨礙。例如統一碼將「兒」和「𠒇」字安放在不同的碼位裏。在檢索文獻時,檢索「兒」字時就找不到「雷莊𠒇」,檢索「𠒇」字時就找不到「雷莊兒」,反而造成困擾[57]。
統一碼對同一部件有分有合,原則不一,如「眞」和「真」、「塡」和「填」都分離編碼,但「縝」和「縝」就整併了;「直」和「直」、「植」和「植」皆整併作一碼,而「値」和「值」又分開,既令人混淆,亦令人無所適從。統一碼按原字集分離原則收字,只看各地區的既有編碼,不理會同一部件的文字學問題。可是用戶現實在電腦輸入文字時看到的是具體字形而不是編碼碼位,會讓人感到矛盾和困惑。
而且在統一碼「中日韓統一表意文字」的不同區域裏,官方也用了不一致的併分尺度。早期的異體字時常獲分配正常碼位;後來常常只有相容區的暫存編碼,使相容區的字元在輸入和顯示時經常碰到問題;再後來則不時直接整併並交由變體選擇符處理。於是統一碼的編碼矛盾就更突顯。
「〇」是則天文字之一,意同「星」,《集韻·卷四·十五青》收錄為「星」字的23韻之一,現代用作「零」的小寫。《漢語大字典》《中華字海》《現代漢語詞典》都收錄了此字。但在統一碼放入CJK符號和標點區,等同於數字0,在搜尋「〇」時會連帶搜尋出數字0,使用時頗為不便(搜尋漢字「一、二、三」不會搜尋出數字1、2、3)。此外,很多程式限定了漢字的範圍為統一碼各漢字區,區外不視為漢字,「〇」不在漢字區就無法處理,造成不便。
已統一漢字
ISO 10646原則只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是讀者的瀏覽器所彩現的字型,與瀏覽器的設置與裝置安裝的字型有關,未必代表該地區的標準寫法)。
- 例子
註:不是所有網頁瀏覽器均可分辨全部HTML的語言代碼(Language Code)並使用不同字形。如非某一地區的用戶看到的字形和當地通用的字形一樣,表示該用戶的瀏覽器不能分辨此標籤,或設置兩者以同一種字形顯示。
未統一漢字
有些字只是同一字在不同地區的寫法,理應統一,但因為原字集分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643有太多字形非常接近,按統一碼標準應該統一,但分開編碼的字。這些字只有正統的會編入正式字集(包括擴充區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。
範例:
統一碼 | 字 | 統一碼 | 字 | 統一碼 | 字 |
---|---|---|---|---|---|
U+4E1F | 丟 | U+4E22 | 丢 | ||
U+514C | 兌 | U+5151 | 兑 | ||
U+518A | 冊 | U+518C | 册 | ||
U+5433 | 吳 | U+5434 | 吴 | U+5449 | 呉 |
U+543F | 吿 | U+544A | 告 | ||
U+5965 | 奥 | U+5967 | 奧 | ||
U+5968 | 奨 | U+596C | 奬 | U+734E | 獎 |
U+5986 | 妆 | U+599D | 妝 | ||
U+59CD | 姍 | U+59D7 | 姗 | ||
U+5C13 | 尓 | U+5C14 | 尔 | ||
U+5F54 | 彔 | U+5F55 | 录 | ||
U+6236 | 戶 | U+6237 | 户 | U+6238 | 戸 |
U+63FA | 揺 | U+6416 | 搖 | U+6447 | 摇 |
U+66A8 | 暨 | U+66C1 | 曁 | ||
U+69D8 | 様 | U+6A23 | 樣 | ||
U+6A2A | 横 | U+6A6B | 橫 | ||
U+6B65 | 步 | U+6B69 | 歩 | ||
U+7155 | 煕 | U+7199 | 熙 | ||
U+7D55 | 絕 | U+7D76 | 絶 | ||
U+7DA0 | 綠 | U+7DD1 | 緑 | ||
U+9AEA | 髪 | U+9AEE | 髮 | ||
U+9EAA | 麪 | U+9EAB | 麫 | ||
U+9EBC | 麼 | U+9EBD | 麽 | ||
U+9EC3 | 黃 | U+9EC4 | 黄 | ||
U+9ED1 | 黑 | U+9ED2 | 黒 |
自上表發表後,WG2亦調查過其他漢字[58],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3。
技術問題
擴充B區用了輔助平面來擺放漢字,Microsoft Office 2000或之前的版本等不少文書處理軟件都不能支援,即使電腦有擴充B區漢字字體也只會顯示兩格方格。
另外,擴充B區整理有缺陷,收錄了以下本來應與其他漢字統一的5字[59]:
而WG2 N1155[58]檔案亦列出了152對可考慮統一的漢字。
註釋
參考文獻
外部連結
參見
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.