Unicode控制字符(英語:Unicode control characters)是用於控制文本解釋或者顯示,而不可見或不佔空間的Unicode字符。

ISO 6429控制字符(C0與C1)

控制字符U+0000‐U+001F 與U+007F來自ASCII。此外,ISO 8859字符集定義了U+0080‐U+009F。二者都定義在ISO 6429中,常被稱為C0與C1控制字符。

大部分這些字符在Unicode文本處理中沒有明確作用。字符U+0000 <control-0000> ,NUL、U+0009 <control-0009> ,HT、U+000A <control-000A> ,LF、U+000D <control-000D> ,CR、U+0085 <control-0085> ,NEL常用于格式化字符。

Unicode引入的分隔符

為了簡化幾種換行字符,Unicode引入了它自己的分隔符來格式化文本:

  • U+2028 LINE SEPARATOR ,HTML:&#8232;,LSEP
  • U+2029 PARAGRAPH SEPARATOR ,HTML:&#8233;,PSEP

語言標記

Unicode以前定義了標籤,包含了128個字符表示語言標籤,但現在已經過時了。這些字符實際上鏡像了128個ASCII字符。用於表示隨後的文本屬於IETF語言標籤(BCP 47)所指的特定語言。例如,表示隨後文本使用美國英語(en-us),用字符串開始為Language Tag character(U+E0001)後跟序列:Tag Small Letter e(U+E0065)、Tag Small Letter n(U+E006E)、Tag Hyphen-minus(U+E002D)、Tag Small Letter u(U+E0075)、Tag Small Letter s(U+E0073)。

這種語言標籤自身不會被顯示。但可提供用於文本處理的信息。例如,中日韓統一漢字的文本,指明是韓語而非日文,可以把一些字符用韓語特有的字形來表示。另一個例子,把數字0‐9用語言特定的字形表示。

語言標記字符U+E0001、U+E0020‐U+E007E、U+E007F 已經被Unicode 5.1(2008)宣佈過時,不再作為語言標記使用。[1]

Unicode 8.0(2015)宣佈U+E0020‐U+E007E不再是過時,用於未來表示除了語言標籤以外的的其他用途。[2](U+E0001 LANGUAGE TAG與U+E007F CANCEL TAG仍然過時)。

行間標註

3個格式化字符用於支持旁註標記(U+FFF9、U+FFFA、U+FFFB)。

雙向文本控制

Unicode支持從左到右、從右到左,或者其混合排版,而不需要任何特殊字符。但為了處理一些特殊情形,Unicode定義了12個字符(U+061C、U+200E、U+200F、U+202A、U+202B、U+202C、U+202D、U+202E、U+2066、U+2067、U+2068、U+2069)以幫助控制嵌入式雙向文本最大125層深。[3]

異體字選擇器

中日韓漢字、拉丁字母的雙拼連寫等等,在Unicode中被視作異體字。有些專名(如地名、姓名)必須使用某個異體字。為此,Unicode 3.2與4.0定義了256個異體字選擇器,可選擇前一個字符的最多256個可能的異體字。

控制字符的圖片

Unicode在Control Pictures塊中提供圖形表示C0控制字符以及其他控制符。

控制圖形[1][2]
官方Unicode Consortium碼位圖表 (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+240x
U+241x
U+242x
U+243x
Notes
1.^ Unicode版本11.0
2.^ 灰區指示未使用的碼位

參見

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.