內碼
From Wikipedia, the free encyclopedia
內碼,喺資訊處理,特別係喺中日韓書寫系統嘅資訊處理,係指某套電腦系統同應用程式實際用嘅編碼[1]:30,而今通常係某種形式嘅統一碼;統一碼喺微軟視窗內部用 UTF-16LE形式,而喺類Unix系統(包括MacOS)就係UTF-8形式[2]。內碼亦指某種內碼之下某字符嘅號碼。
概念上,內碼同交換碼相對[1]:29,但實際上,除咗喺例如圖書館學或者HZ碼等一啲個別領域之外,喺中文,就算係統一碼未廣泛採納之前,爾兩樣概念通常都重叠,即係可以話除咗少數例外情況之外,中文基本上從來都無真正嘅交換碼,而係就算跨系統都係用內碼,只係傳出去或者收到之後會轉內碼。相反,日文可以話以前ISO 2022係交換碼,即係話就算系統內部係用EUC或Shift-JIS,以前好多時都係轉咗做ISO 2022形式先傳出去或者寫入檔案。
統一碼未廣泛採納之前,唔同書寫系統嘅內碼並唔統一,而係通常各國有自己嘅內碼,中文好多時用嘅都係雙位元組編碼,漢字部分固定用兩位元組,英文部分就固定用一位元組。
未有五大碼之前,正體中文亦都曾經出現過直接用倉頡碼做內碼嘅情況,喺爾種系統,中文內碼視乎倉頡點拆字,位元組數量會介乎兩至六位元組不等[3]:19,有啲似而今UTF-8嘅情況。