表意文字描述字符
来自维基百科,自由的百科全书
表意文字描述字符(英语:Ideographic Description Character,IDC)是一块收录描述表意文字(如汉字)结构的符号的Unicode区段,其中部分描述符号编码于其他区块。
目前大部分编码包含Unicode,处理汉字编码时大致是先搜集汉字,给予每个汉字一个数字编码。然而,汉字数量庞大,字集往往不完全;再加上汉字本身是开放组合,汉字的用户很可能自造新字,不可能有一个可以搜集到所有汉字的字集,所以用这些字符描述某“字”如何以较简单的部件组合起来。
码表
表意文字描述字符 Ideographic Description Characters [1][2] Unicode 联盟官方码表(PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+2FFx | ⿰ | ⿱ | ⿲ | ⿳ | ⿴ | ⿵ | ⿶ | ⿷ | ⿸ | ⿹ | ⿺ | ⿻ | | | | |
注释
|
表意文字描述序列
表意文字描述序列(英语:Ideographic Description Sequence,IDS)是Unicode标准定义的汉字结构描述语法,描述序列由描述字符与两个以上特定字符(主要为汉字)组合而成,表示汉字的抽象结构。
Unicode定义了16种组合字符:
编码 | 字符 | 意义 | 例字 | 序列 | 例字 | 序列 |
---|---|---|---|---|---|---|
U+2FF0 | ⿰ | 两部件由左至右组成 | 相 | ⿰木目 | 𠁢 | ⿰丨㇍ |
U+2FF1 | ⿱ | 两部件由上至下组成 | 杏 | ⿱木口 | 𠚤 | ⿱𠂊丶 |
U+2FF2 | ⿲ | 三部件由左至右组成 | 衍 | ⿲彳氵亍 | 𠂗 | ⿲丿夕乚 |
U+2FF3 | ⿳ | 三部件由上至下组成 | 京 | ⿳亠口小 | 𠋑 | ⿳亼目口 |
U+2FF4 | ⿴ | 两部件由外而内组成 | 回 | ⿴囗口 | 𠀬 | ⿴㐁人 |
U+2FF5 | ⿵ | 三面包围,下方开口 | 凰 | ⿵几皇 | 𧓉 | ⿵齊虫 |
U+2FF6 | ⿶ | 三面包围,上方开口 | 凶 | ⿶凵㐅 | 义 | ⿶乂丶 |
U+2FF7 | ⿷ | 三面包围,右方开口 | 匠 | ⿷匚斤 | 𧆬 | ⿷虎九 |
U+2FF8 | ⿸ | 两面包围,两部件由左上至右下组成 | 病 | ⿸疒丙 | 𤆯 | ⿸耂火 |
U+2FF9 | ⿹ | 两面包围,两部件由右上至左下组成 | 戒 | ⿹戈廾 | 𢧌 | ⿹或壬 |
U+2FFA | ⿺ | 两面包围,两部件由左下至右上组成 | 超 | ⿺走召 | 𥘶 | ⿺礼分 |
U+2FFB | ⿻ | 两部件重叠 | 巫 | ⿻工从 | 𣏃 | ⿻木⿻コ一 |
U+2FFC | | 三面包围,左方开口 | 㕚 | 叉丶 | 𬺹 | コ二 |
U+2FFD | | 两面包围,两部件由右下至左上组成 | 氷 | 水丶 | 斗 | ⺀十 |
U+2FFE | | 水平翻转 | 卐 | 卍 | 𣥄 | 正 |
U+2FFF | | 旋转 | 𠕄 | 凹 | 𠄔 | 予 |
另有两个描述符号并不在此区块内:
还有一个字符“⬚”,编码是U+2B1A,虽然名称只是“dotted square(点状虚线的正方形)”,但也常配合表意文字描述字符使用,指无法分割的整体字。
IDS的运算方式是前缀表示法,运算符在前,对应数量的操作数在后。这种方式不需使用括号等字符辅助即可无歧义地表示运算顺序。
统一码标准中,表意文字描述序列之定义如下:[5]
IDS := 漢字 | 部首 | 中日韓筆畫 | 私人造字區 | U+FF1F | IDS二元運算子 IDS IDS | IDS三元運算子 IDS IDS IDS
IDS二元運算子 := U+2FF0 | U+2FF1 | U+2FF4 | U+2FF5 | U+2FF6 | U+2FF7 | U+2FF8 | U+2FF9 | U+2FFA | U+2FFB
IDS三元運算子 := U+2FF2 | U+2FF3
按此,合规范的IDS必须由汉字、中日韩部首字符、中日韩笔画字符(U+31C0-U+31EF)、私人造字、全角问号字符(U+FF1F),以IDC连接而成。
限制
历史
另见
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.