文字 (Unicode)
来自维基百科,自由的百科全书
在Unicode中,一种文字(script)是字母和其他书面符号的一个集合,用于在一个或多个书写系统(writing system)中表示文本信息。[1]有些文字只支持一种书写系统和语言,例如亚美尼亚语。其他文字支持许多不同的书写系统:例如,拉丁文字支持英语、法语、德语、意大利语、越南语、拉丁语本身以及其他多种语言。一些语言有多种可选的书写系统,因而也就使用多种文字:例如,在土耳其语中,阿拉伯文字在20世纪之前使用,但在20世纪初过渡到拉丁文字。有关每种文字支持的语言列表,请参阅按文字列出的语言列表。符号和Unicode控制字符某种程度上与文字互补。
统一化后的变音字符和标点字符经常具有“通用”或“继承”的文字属性。然而,独立的文字往往有自己的标点和变音符号,以至于许多文字不仅包含字母,还包含变音符号等标记、标点、数字,甚至还有自己的特殊符号和空格字符。
Unicode 15.0定义了161种独立的文字,包括94种现代文字和67种古代或历史文字。[2][3]更多的文字正在编码过程中,有的已被临时分配予计划中的编码。[4]
定义和分类
当多种语言使用相同的文字时,经常会出现一些差异,特别是在变音符号和其他标记方面。例如,瑞典语和英语都使用拉丁文字。但是,瑞典语包括字符å(有时称为瑞典语的O),而英语没有这样的字符。英语也没有使用变音符号“组合用上圆圈”来表示任何字符。通常,共享相同文字的语言共享许多相同的字符。尽管瑞典语和英语书写系统存在这些外围差异,但它们被认为使用同一种拉丁文字。因而,Unicode对文字的抽象是一种基本的组织手段。不同字母或书写系统之间的差异仍然存在,并通过Unicode灵活的文字、组合标记和校对算法得到支持。
书写系统有时被视为文字的同义词。但是,它也可以指一种文字所支持的具体的具体书写系统。例如,拉丁文字支持越南语书写系统。一个书写系统也可能涵盖多种文字;例如,日本的书写系统使用汉字、平假名和片假名。
大多数书写系统可以大致分为几类:象形(logographic)、音节(syllabic)、字母(alphabetic,亦称segmental)、元音附标(abugida)、辅音音素(abjad)和特征(featural);然而,这些分类的所有特征都可能以不同的比例出现在任何给定的书写系统中,这导致通常很难对一个系统进行纯粹的分类。术语复杂系统有时用于分类有困难的混合系统。
Unicode通过其众多的文字支持所有这些类型的书写系统。Unicode还为字符添加了更多属性,以帮助区分各种字符以及它们在Unicode文本处理算法中的行为方式。
除了显式或特定的文字属性外,Unicode还使用三个特殊值:[5]
- 通用
- Unicode只能将通用字符集中的一个字符分配给一种文字。但是,许多字符(不属于正式的自然语言书写系统的一部分,或在许多书写系统中统一的字符)可能用于多种文字(例如货币符号、规约符号、数字和标点符号)。在这些情况下,Unicode将它们定义为属于“通用”文字(ISO 15924代码
Zyyy
)。 - 继承
- 许多变音符号和非间距组合字符可以应用于来自多种文字的字符。在这些情况下,Unicode 将它们分配给“继承”文字(ISO 15924 代码
Zinh
),这意味着它们属于与它们所组合的主要字符相同的文字类型,因此在不同的上下文中它们可能被视为属于不同的文字。例如,U+0308 ̈ COMBINING DIAERESIS(组合用分音符)既可以与U+0065 e LATIN SMALL LETTER E(小写拉丁字母E)组合为拉丁字母ë,也可以与U+0435 е CYRILLIC SMALL LETTER IE(小写西里尔字母IE)组合为西里尔字母ё。在前一个例子中,它继承了主要字符的拉丁文字属性,而在后一个例子中继承了西里尔文字属性。 - 未知
- “未知”文字值(ISO 15924 代码
Zzzz
)被赋予未分配的、私用的、非字符的以及代理用的码点。
文字中的字符类别
Unicode为每个字符提供了一个通用的类别属性。所以每个字符除了属于一种文字之外,还从属于一个类别。通常的文字由字母字符组成,包括:大写字母、小写字母和修饰字母。一些字符被认为是一些预组的连字的标题字母,例如Dz(U+01F2)。此类标题连字均采用拉丁语和希腊语文字,并且都是兼容字符,因此Unicode不鼓励使用它们。将来不太可能添加新的标题字母。
大多数书写系统不区分大小写字母。对于这些文字,所有字母都归类为“其他字母”或“修饰字母”。中日韩统一表意文字等表意文字也被归类为“其他字母”。然而,一些文字确实区分了大写和小写:拉丁文字、西里尔文字、希腊文字、亚美尼亚文字、格鲁吉亚文字和沙漠文字,但即使对于这些文字,也有一些字母既不是大写也不是小写。
文字还可以包含任何其他一般类别字符,例如标记(变音符号和其他)、数字(数字)、标点符号、分隔符(单词分隔符,例如空格)、符号和非图形格式字符。当它们仅被特定文字使用时,它们会包含在特定文字中,否则通常会被统一化并包含在标点符号或变音符号区块中。但是,任何文字(除了“通用”和“继承:文字)中的大部分字符都是字母。
Unicode中的文字列表
Unicode中缺少的文字
参见
参考资料
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.