大規模文字セット

ウィキペディアから

大規模文字セット(だいきぼもじセット)、大規模文字集合(だいきぼもじしゅうごう)とは、(符号化)文字集合(文字セット)のうち、一般に通用している規格より多くの文字を含むものをいう。

たとえば日本においては、JIS X 0208には約6000の文字が含まれていたが、過去の文学作品や現代の日本でも使われている地名、人名等の固有名詞を表すのに十分ではなく、使いたい文字が含まれていないことを不満に感じる人達が少なからずいた。

「大規模文字セット」[1][2][3]のほか「多漢字文字コード」[4]や「大文字セット」[5]などと呼ばれることもある。

大規模文字セットに必要な文字数

どのくらいの文字種の数があれば大規模文字セットと呼べるのかについては明確な基準があるわけではなく、その時々の普及している文字セットの文字数やどのくらいの文字数が必要であると考えられているのかといったことによって決まる。

実際に流通している漢字コードの規格が約6000の文字を収容しているJIS X 0208しかなかった時代には、1万を超える文字数があれば大規模と呼ばれた。また、諸橋大漢和辞典の収容文字数が約5万4千であることから、16ビットの限界である65536個のコードがあれば、なんとか必要な文字を収容できるという考え方もあり、16ビットの文字集合で全ての文字を網羅することを目指して開発された当初のUnicode(バージョン1.0)はこのような考え方を元にしている。

その後Unicodeおよびそれを元にしたISO/IEC 10646 (JIS X 0221)、JIS X 0213等の含まれる文字数の多い規格がいくつも制定された。

主な大規模文字セット

以下に、主な大規模文字セットを挙げる。(字数は2007年5月時点。(諸)とあるものは、諸橋大漢和相当の部分集合、約5万4000字を持つ。(住)とあるものは、住基ネット統一文字相当の部分集合、約1万9000字を持つ。(戸)とあるものは、戸籍統一文字相当の部分集合、5万6044字(2012年時点)[6]を持つ。)

  • Unicode - 現在約11万字 (うち漢字約8万字、ほか異体字約1万字)。
  • 今昔文字鏡 - 現在約18万字 (うち漢字16万字)。(諸)
  • e漢字 - 現在約24万字。中華字海の約8万6000字を含む。(諸)
  • GT - 現在約7万9000字。(諸)(住)[7]
  • JIS X 0213 - 現在約1万1000字。
  • Adobe-Japan1 - 現在約2万3000字。
  • MJ文字情報 - 現在約6万字収録。(住)(戸)
  • 登記統一文字 - 約6万8000字。(戸)

大規模文字セットを実装したフォント

電子書籍が普及した現在、多くのフォントはDTP用に開発された文字セットであるAdobe-Japan1-6を実装している。人名/地名用のフォントでは、経済産業省所管独立行政法人の情報処理推進機構(IPA)が、MJ文字情報に対応するIPAmj明朝フォントをオープンソースで頒布している。

他に、今昔文字鏡のindexfontや、GT書体プロジェクトによるGT書体及びTフォント[8]、UnicodeのCJK統合漢字拡張A~Fに完全対応する花園フォントなどが使われている。

脚注

関連項目

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.