中日韓統一表意文字

一組中文,日文和韓文統一碼區段符號 来自维基百科,自由的百科全书

中日韓統一表意文字

中日韓統一表意文字(英語:CJK Unified Ideograph),又稱統漢碼統一漢字集(英語:Unihan),是指在 ISO 10646統一碼標準中經過「漢字等同」處理的漢字。 [2] 漢字等同(英語:Han unification[3]) 是指將中文日文韓文越南文壯文琉球文等書寫系統共通的漢字賦予相同編碼的做法; [5] 被合併編碼的漢字,往往起源相同、本義相通、形狀大同小異。 [6] 整理出來的中日韓統一表意文字,由統一碼聯盟建置的Unihan資料庫維護。

快速預覽 上級分類, 所屬實體 ...
中日韓越統一表意文字
字母 (Unicode)
上級分類漢字字元 編輯
所屬實體通用字符集 編輯
話題方面漢字統合 編輯
官方網站https://unicode.org/charts/unihan.html 編輯
關閉

涵蓋範圍

中日韓統一表意文字所含括的對象為漢字及其衍生出來的語素文字,包括:

  • 中文漢字,包括繁體字簡化字異體字
  • 日本漢字(日語:漢字/日語:かんじ
  • 韓國漢字(韓語:漢字/韓語:한자
  • 琉球漢字(沖繩語:漢字/沖繩語:ハンジ
  • 越南喃字𡨸喃越南語Chữ Nôm
  • 越南儒字𡨸儒越南語Chữ Nho
  • 方塊壯字壯語𭨡壯語sawgun

名稱

除了「中日韓統一表意文字」,CJK Unified Ideograph 還有以下中文譯名:

  • 中日韓等同表意文字[7]
  • 中日韓認同表意文字[8]
  • 中日韓統一漢字集[9]
  • 中日韓統合漢字[10]

除了「漢字等同」,Han Unification 又譯為:

  • 漢字認同
  • 漢字統一
  • 漢字統合

歷史

1978年,日本產業規格制訂了基於ISO/IEC 2022JIS C 6226,為全世界最早的漢字編碼,包含6349漢字。1980年代,臺灣(中文資訊交換碼中文標準交換碼)、中國大陸(GB 2312)、韓國(KS C 5601)開始制訂了各自的編碼規範。這些規範彼此之間並無連繫。若要在一份檔案中同時使用,則要以跳脫字元的方式來交換。

1980年,日本的國立國會圖書館的高橋德太郎以書目學的觀點指出,統一的東亞漢字編碼系統有必要。同年,臺灣制定了三位元組的中文資訊交換碼,這是第一款期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字元(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字用32位元表示,並將各國的漢字編碼原封不動加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後能順利討論漢字編碼及處理有關方針,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。

另一方面,1987年,施樂的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓的漢字統合了。基本方針以16位元處理所有文字。1990年完成了基於此方針的最終草案。1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓類似的漢字使用約二萬多字。為了未來擴充,保留了三萬漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646和統一碼的統一漢字編碼。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但發現一些缺失,之後修正。

1993年5月正式制訂最初的「中日韓統一表意文字」位於U+4E00-U+9FFF,共20902字;不過漢字「」(U+3007)誤當數字放入符號和標點區。一個月後制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17修正案(Amendment 17)訂定擴充區A,於U+3400-U+4DFF加入6582漢字。

2001年,依據ISO/IEC 10646-2新增擴充區B,於U+20000-U+2A6FF有42711漢字;但短時間內增加大量漢字,產生許多重複字形。

2005年,依據ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文種平面增加U+9FA6-U+9FBB,共22漢字。

2009年,統一碼5.2擴充區C增加U+2A700-U+2B734,基本多文種平面增加U+9FC4-U+9FCB。

2010年,統一碼6.0擴充區D增加U+2B740-U+2B81F。

2012年,統一碼7.0基本多文種平面增加1漢字:U+9FCC。

2015年,統一碼8.0擴充區E增加U+2B820-U+2CEAF,基本多文種平面增加U+9FCD-U+9FD5。

2017年,統一碼10.0擴充區F增加U+2CEB0-U+2EBEF,基本多文種平面增加U+9FD6-U+9FEA。

2018年,統一碼11.0基本多文種平面末尾增加5漢字:U+9FEB-U+9FEF。

2020年,統一碼13.0增加4969漢字,其中4939字位於第三平面擴充區G,碼位爲U+30000-U+3134A。同時,亦在基本區增加13字:U+9FF0-U+9FFC,在擴充A區增加10字:U+4DB6-U+4DBF,在擴充B區增加7字:U+2A6D7-U+2A6DD。

2021年,統一碼14.0基本多文種平面末尾增加3漢字:U+9FFC-U+9FFF。同時,亦在擴充B區增加2字:U+2A6DE-U+2A6DF,在擴充C區增加4字:U+2B735-U+2B738。

2022年,統一碼15.0增加4193漢字,其中4192字位於第三平面的擴充區H,碼位爲U+31350-U+323AF。同時,亦在擴充C區增加7字:U+2B739。

2023年,統一碼15.1增加622漢字,位於第二平面的擴充區I,碼位爲U+2EBF0 - U+2EE5D。

另外,第三平面的U+38000至U+3AB9F預計放置篆書,相關提案已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[11]

版本

更多資訊 ISO 10646版本, 統一碼版本 ...
ISO 10646版本 統一碼版本 新增 置放平面 字數 累計

字數

1993 1.1 中日韓統一表意文字(U+4E00-U+9FA5) 基本多文種平面 20902 20915
1漢字(U+3007,),於中日韓符號和標點 基本多文種平面 1
在「中日韓相容表意文字」中但實則獨一的漢字(U+FA0E、U+FA0F、U+FA11、U+FA13、U+FA14、U+FA1F、U+FA21、U+FA23、U+FA24、U+FA27、U+FA28、U+FA29[註 1] 基本多文種平面 12
1999 3.0 中日韓統一表意文字擴充區A(U+3400-U+4DB5) 基本多文種平面 6582 27497
2001 3.1 中日韓統一表意文字擴充區B(U+20000-U+2A6D6) 第二輔助平面 42711 70208
2005 4.1 HKSCS-2004未加入ISO 10646的漢字(U+9FA6-U+9FB3,)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB, 基本多文種平面 22 70230
2008 5.1 7日語漢字[13](U+9FBC-U+9FC2,龿),U+4039䀹拆分為U+4039和U+9FC3[14] 基本多文種平面 8 70238
2009 5.2 中日韓統一表意文字擴充區C(U+2A700-U+2B734) 第二輔助平面 4149 74395
2009 2日語用漢字(ARIB #47、#95,U+9FC4,U+9FC5)、1新增漢字(ARIB #93,U+9FC6)、HKSCS-2004推出後新增的5香港漢字[15](U+9FC7-U+9FCB, 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴充區D(U+2B740-U+2B81D) 第二輔助平面 222 74617
2012 6.1 1漢字(U+9FCC 基本多文種平面 1 74618
2015 8.0 中日韓統一表意文字擴充區E(U+2B820-U+2CEA1) 第二輔助平面 5762 80389
「急用漢字」:《通用規範漢字表》餘下未收入的3字(U+9FCD-U+9FCF,),1個從U+4CA4()分離出來的字U+9FD0(),5個其他圖書用字及化學元素用字(U+9FD1-U+9FD5, 基本多文種平面 9
2017 10.0 中日韓統一表意文字擴充區F(U+2CEB0-U+2EBE0) 第二輔助平面 7473 87883
21漢字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文種平面 21
2018 11.0 5漢字(U+9FEB-U+9FEF,鿮鿯),前三字是新命名的化學元素用字,後兩字來自日本 基本多文種平面 5 87888
2020 13.0 中日韓統一表意文字擴充區G(U+30000-U+3134A) 第三輔助平面 4939 92857
急用科學與技術用字[16](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10個需分離的漢字[17][18][19](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) 基本多文種平面 23
崑曲工尺譜用字[20](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) 第二輔助平面 7
2021 14.0 3漢字(U+9FFD-U+9FFF,鿿 基本多文種平面 3 92866
2漢字(U+2A6DE-U+2A6DF,𪛞𪛟 第二輔助平面 2
4漢字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸 第二輔助平面 4
2022 15.0 中日韓統一表意文字擴充區H(U+31350–U323AF) 第三輔助平面 4192 97059
1漢字(U+2B739,𫜹 第二輔助平面 1
2023 15.1 中日韓統一表意文字擴充區I(U+2EBF0-U+2EE5F) 第二輔助平面 622 97681
關閉

成員機構

收字來源

總計

更多資訊 提交源(類別), 提交量 ...
中日韓統一表意文字來源[註 2]
提交源(類別) 提交量
中國大陸(國標源) 65941
 香港 17654
 澳門 344
臺灣 58597
 日本 16148
 南韓 20739
 北韓 23795
 越南 13278
 英國 2503
大藏經文字數據庫委員會 3455
統一碼協會 1019
總計 223653
關閉

最初期統一漢字

最初期共20902統一漢字,範圍為U+4E00-U+9FA5,收字來源包括以下字集[22]

更多資訊 類別, 來源代碼 ...
類別 來源代碼 名稱 字數
中國大陸
國標源(G)
G0 GB 2312-80 6763
G1 GB 12345-90 2352(含58香港字和92吏讀字,不包括和GB 2312重複的字)
G3 GB 7589-87繁體版本 7237
G5 GB 7590-87繁體版本 7039
G7 現代漢語通用字表 42(G0、1、3、5、8未包括的字)
G8 GB 8565.2-89 290(G0、1、3、5未包括的字)
臺灣源(T) T1 CNS 11643-1986第一字面 5401+9計量用漢字
T2 CNS 11643-1986第二字面 7650
TE CNS 11643-1986第十四字面 6319+239中文資訊交換碼特字+10施樂字元集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6335+非漢字1個(仝)[23]
J1 JIS X 0212-90 5801
韓國源(K) K0 KS C 5601-87 4888(含268重見字[24]
K1 KS C 5657-91 2856
委員會源(U) KS C 5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[25]
大五碼
中文資訊交換碼第一字面
GB 12052-89(漢字部分)
JEF(富士通標準)
中國大陸電報碼
臺灣電報碼(CCDC)
施樂中文編碼
人名用漢字准用字體表(人名用漢字許容字型表;日本)
IBM選取的日本和韓國表意文字
關閉

其中,統一碼技術委員會源(U源)指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用原字集分離原則(見稍後)。

漢字等同

統漢字資料庫

批評

已統一漢字

未統一漢字

技術問題

註釋

參考文獻

外部連結

參見

Wikiwand - on

Seamless Wikipedia browsing. On steroids.