中日韓統一表意文字
一組中文,日文和韓文統一碼區段符號 来自维基百科,自由的百科全书
中日韓統一表意文字(英語:CJK Unified Ideograph),又稱統漢碼、統一漢字集(英語:Unihan),是指在 ISO 10646 與統一碼標準中經過「漢字等同」處理的漢字。 [2] 漢字等同(英語:Han unification[3]) 是指將中文、日文、韓文、越南文、壯文、琉球文等書寫系統共通的漢字賦予相同編碼的做法; [5] 被合併編碼的漢字,往往起源相同、本義相通、形狀大同小異。 [6] 整理出來的中日韓統一表意文字,由統一碼聯盟建置的Unihan資料庫維護。
中日韓越統一表意文字
上級分類 | 漢字字元 ![]() |
---|---|
所屬實體 | 通用字符集 ![]() |
話題方面 | 漢字統合 ![]() |
官方網站 | https://unicode.org/charts/unihan.html ![]() |
涵蓋範圍
名稱
除了「中日韓統一表意文字」,CJK Unified Ideograph 還有以下中文譯名:
除了「漢字等同」,Han Unification 又譯為:
- 漢字認同
- 漢字統一
- 漢字統合
歷史
1978年,日本產業規格制訂了基於ISO/IEC 2022的JIS C 6226,為全世界最早的漢字編碼,包含6349漢字。1980年代,臺灣(中文資訊交換碼、中文標準交換碼)、中國大陸(GB 2312)、韓國(KS C 5601)開始制訂了各自的編碼規範。這些規範彼此之間並無連繫。若要在一份檔案中同時使用,則要以跳脫字元的方式來交換。
1980年,日本的國立國會圖書館的高橋德太郎以書目學的觀點指出,統一的東亞漢字編碼系統有必要。同年,臺灣制定了三位元組的中文資訊交換碼,這是第一款期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字元(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(Han Character Collection,HCC)的構想。
1990年完成了ISO 10646的初版草案(DIS 10646)。漢字用32位元表示,並將各國的漢字編碼原封不動加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後能順利討論漢字編碼及處理有關方針,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,施樂的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓的漢字統合了。基本方針以16位元處理所有文字。1990年完成了基於此方針的最終草案。1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓類似的漢字使用約二萬多字。為了未來擴充,保留了三萬漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646和統一碼的統一漢字編碼。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但發現一些缺失,之後修正。
1993年5月正式制訂最初的「中日韓統一表意文字」位於U+4E00-U+9FFF,共20902字;不過漢字「〇」(U+3007)誤當數字放入符號和標點區。一個月後制訂了統一碼1.1。
1999年,依據ISO/IEC 10646的第17修正案(Amendment 17)訂定擴充區A,於U+3400-U+4DFF加入6582漢字。
2001年,依據ISO/IEC 10646-2新增擴充區B,於U+20000-U+2A6FF有42711漢字;但短時間內增加大量漢字,產生許多重複字形。
2005年,依據ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文種平面增加U+9FA6-U+9FBB,共22漢字。
2009年,統一碼5.2擴充區C增加U+2A700-U+2B734,基本多文種平面增加U+9FC4-U+9FCB。
2010年,統一碼6.0擴充區D增加U+2B740-U+2B81F。
2012年,統一碼7.0基本多文種平面增加1漢字:U+9FCC。
2015年,統一碼8.0擴充區E增加U+2B820-U+2CEAF,基本多文種平面增加U+9FCD-U+9FD5。
2017年,統一碼10.0擴充區F增加U+2CEB0-U+2EBEF,基本多文種平面增加U+9FD6-U+9FEA。
2018年,統一碼11.0基本多文種平面末尾增加5漢字:U+9FEB-U+9FEF。
2020年,統一碼13.0增加4969漢字,其中4939字位於第三平面的擴充區G,碼位爲U+30000-U+3134A。同時,亦在基本區增加13字:U+9FF0-U+9FFC,在擴充A區增加10字:U+4DB6-U+4DBF,在擴充B區增加7字:U+2A6D7-U+2A6DD。
2021年,統一碼14.0基本多文種平面末尾增加3漢字:U+9FFC-U+9FFF。同時,亦在擴充B區增加2字:U+2A6DE-U+2A6DF,在擴充C區增加4字:U+2B735-U+2B738。
2022年,統一碼15.0增加4193漢字,其中4192字位於第三平面的擴充區H,碼位爲U+31350-U+323AF。同時,亦在擴充C區增加7字:U+2B739。
2023年,統一碼15.1增加622漢字,位於第二平面的擴充區I,碼位爲U+2EBF0 - U+2EE5D。
另外,第三平面的U+38000至U+3AB9F預計放置篆書,相關提案已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[11]。
版本
ISO 10646版本 | 統一碼版本 | 新增 | 置放平面 | 字數 | 累計
字數 |
---|---|---|---|---|---|
1993 | 1.1 | 中日韓統一表意文字(U+4E00-U+9FA5) | 基本多文種平面 | 20902 | 20915 |
1漢字(U+3007,〇),於中日韓符號和標點區 | 基本多文種平面 | 1 | |||
在「中日韓相容表意文字」中但實則獨一的漢字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[註 1] | 基本多文種平面 | 12 | |||
1999 | 3.0 | 中日韓統一表意文字擴充區A(U+3400-U+4DB5) | 基本多文種平面 | 6582 | 27497 |
2001 | 3.1 | 中日韓統一表意文字擴充區B(U+20000-U+2A6D6) | 第二輔助平面 | 42711 | 70208 |
2005 | 4.1 | HKSCS-2004未加入ISO 10646的漢字(U+9FA6-U+9FB3,龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB,龴龵龶龷龸龹龺龻) | 基本多文種平面 | 22 | 70230 |
2008 | 5.1 | 7日語漢字[13](U+9FBC-U+9FC2,龼龽龾龿鿀鿁鿂),U+4039䀹拆分為U+4039䀹和U+9FC3鿃[14] | 基本多文種平面 | 8 | 70238 |
2009 | 5.2 | 中日韓統一表意文字擴充區C(U+2A700-U+2B734) | 第二輔助平面 | 4149 | 74395 |
2009 | 2日語用漢字(ARIB #47、#95,U+9FC4鿄,U+9FC5鿅)、1新增漢字(ARIB #93,U+9FC6鿆)、HKSCS-2004推出後新增的5香港漢字[15](U+9FC7-U+9FCB,鿇鿈鿉鿊鿋) | 基本多文種平面 | 8 | ||
2010 | 6.0 | 中日韓統一表意文字擴充區D(U+2B740-U+2B81D) | 第二輔助平面 | 222 | 74617 |
2012 | 6.1 | 1漢字(U+9FCC鿌) | 基本多文種平面 | 1 | 74618 |
2015 | 8.0 | 中日韓統一表意文字擴充區E(U+2B820-U+2CEA1) | 第二輔助平面 | 5762 | 80389 |
「急用漢字」:《通用規範漢字表》餘下未收入的3字(U+9FCD-U+9FCF,鿍䃮䥑),1個從U+4CA4(鿐)分離出來的字U+9FD0(鿐),5個其他圖書用字及化學元素用字(U+9FD1-U+9FD5,鿑鿒鿓鎶鿕) | 基本多文種平面 | 9 | |||
2017 | 10.0 | 中日韓統一表意文字擴充區F(U+2CEB0-U+2EBE0) | 第二輔助平面 | 7473 | 87883 |
21漢字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) | 基本多文種平面 | 21 | |||
2018 | 11.0 | 5漢字(U+9FEB-U+9FEF,鿫鿬鉨鿮鿯),前三字是新命名的化學元素用字,後兩字來自日本 | 基本多文種平面 | 5 | 87888 |
2020 | 13.0 | 中日韓統一表意文字擴充區G(U+30000-U+3134A) | 第三輔助平面 | 4939 | 92857 |
急用科學與技術用字[16](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10個需分離的漢字[17][18][19](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) | 基本多文種平面 | 23 | |||
崑曲工尺譜用字[20](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) | 第二輔助平面 | 7 | |||
2021 | 14.0 | 3漢字(U+9FFD-U+9FFF,鿽鿾鿿) | 基本多文種平面 | 3 | 92866 |
2漢字(U+2A6DE-U+2A6DF,𪛞𪛟) | 第二輔助平面 | 2 | |||
4漢字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸) | 第二輔助平面 | 4 | |||
2022 | 15.0 | 中日韓統一表意文字擴充區H(U+31350–U323AF) | 第三輔助平面 | 4192 | 97059 |
1漢字(U+2B739,𫜹) | 第二輔助平面 | 1 | |||
2023 | 15.1 | 中日韓統一表意文字擴充區I(U+2EBF0-U+2EE5F) | 第二輔助平面 | 622 | 97681 |
成員機構
收字來源
最初期共20902統一漢字,範圍為U+4E00-U+9FA5,收字來源包括以下字集[22]:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國大陸 國標源(G) |
G0 | GB 2312-80 | 6763 |
G1 | GB 12345-90 | 2352(含58香港字和92吏讀字,不包括和GB 2312重複的字) | |
G3 | GB 7589-87繁體版本 | 7237 | |
G5 | GB 7590-87繁體版本 | 7039 | |
G7 | 現代漢語通用字表 | 42(G0、1、3、5、8未包括的字) | |
G8 | GB 8565.2-89 | 290(G0、1、3、5未包括的字) | |
臺灣源(T) | T1 | CNS 11643-1986第一字面 | 5401+9計量用漢字 |
T2 | CNS 11643-1986第二字面 | 7650 | |
TE | CNS 11643-1986第十四字面 | 6319+239中文資訊交換碼特字+10施樂字元集(Xerox Character Code Standard,XCCS)特字 | |
日本源(J) | J0 | JIS X 0208-90 | 6335+非漢字1個(仝)[23] |
J1 | JIS X 0212-90 | 5801 | |
韓國源(K) | K0 | KS C 5601-87 | 4888(含268重見字[24]) |
K1 | KS C 5657-91 | 2856 | |
委員會源(U) | KS C 5601-1987(當中重複的漢字) | ||
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[25] | |||
大五碼 | |||
中文資訊交換碼第一字面 | |||
GB 12052-89(漢字部分) | |||
JEF(富士通標準) | |||
中國大陸電報碼 | |||
臺灣電報碼(CCDC) | |||
施樂中文編碼 | |||
人名用漢字准用字體表(人名用漢字許容字型表;日本) | |||
IBM選取的日本和韓國表意文字 |
其中,統一碼技術委員會源(U源)指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用原字集分離原則(見稍後)。
漢字等同
統漢字資料庫
批評
已統一漢字
未統一漢字
技術問題
註釋
參考文獻
外部連結
參見
Wikiwand - on
Seamless Wikipedia browsing. On steroids.