电脑电信领域中,字符character)是一个信息单位。对使用字母系统音节文字自然语言,它大约对应为一个音位、类音位的单位或符号。简单来讲就是一个汉字、假名、韩文字……,或是一个英文、其他西方语言的字母。

Quick Facts 文字, 文字系统类型(维基数据所列:Q119520394) ...
Close

字符的例子有:字母数字系统标点符号。另外有所谓控制字符的概念,它是指:并不对应到自然语言中的某个特定符号,而是对应到语言中一些用来处理文句的概念(类似排版)。例子为打印机或其它显示设备的命令,如EnterTab

字符编码缘

电脑和通信设备会在表示字符时,会使用字符编码。是指将一个字符对应为某个东西。传统上,是代表整数比特序列,如此,则可透过网络来传输,同时亦便于存储。两个常用的例子是ASCII和用于Unicode编码UTF-8。根据谷歌的统计,UTF-8是目前最常用于网页的编码方式。(页面存档备份,存于互联网档案馆)相较于大部分的字符编码把字符对应到数字或位串,摩斯密码则是使用不定长度的电子脉冲的序列来表现字符。

术语

从历史来说,“字符”这个辞汇在工业专业中被广泛用来指一个编码过的字符(通常用于程序设计语言的API)。同样地,字符集则被广泛指为那些对应到特定比特序列的抽象字符的集合。随着Unicode编码等未指定比特形式的字符编码的到来。更精确的术语获得愈来愈多的认同。

对某些文件而言,区分一个字符是信息单位而非任何特定的视觉显示是很重要的。如aleph(א)这个希伯来字母常用于数学中,表示某种无穷,但它同时又用于原本的希伯来文件中。在统一码中,尽管这两种用法有一样外形,但它们是不同的字符,而且由不同的码位来区分。相对地,如“水”这个中文表意文字,在日文文件会和中文文件中有些微不一样的外观,这会反映在不同地区的字体。但它们仍代表相同的信息,即视为一样的字符,并且在统一码中使用一样的码位。

字形glyph)这个辞汇用于描述一个特定字符实质的外观。很多电脑字体包含许多字形,且由一个字符的统一码码位来对其字形做索引。

Unicode标准(Unicode standard)和通用字符集彼此定义“字符”和“抽象字符”为“用来组织、控制或表达资料的成分所组集合的成员之一”。统一码的定义则补充了一些解释用的注释,鼓励读者去区分字符、字位和字形。这个准则也区分抽象字符和“编码过的字符”,后者是指和数字编码成对,以利于电脑中的表示。

另见

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.