Loading AI tools
ウィキペディアから
大規模文字セット(だいきぼもじセット)、大規模文字集合(だいきぼもじしゅうごう)とは、(符号化)文字集合(文字セット)のうち、一般に通用している規格より多くの文字を含むものをいう。
たとえば日本においては、JIS X 0208には約6000の文字が含まれていたが、過去の文学作品や現代の日本でも使われている地名、人名等の固有名詞を表すのに十分ではなく、使いたい文字が含まれていないことを不満に感じる人達が少なからずいた。
「大規模文字セット」[1][2][3]のほか「多漢字文字コード」[4]や「大文字セット」[5]などと呼ばれることもある。
どのくらいの文字種の数があれば大規模文字セットと呼べるのかについては明確な基準があるわけではなく、その時々の普及している文字セットの文字数やどのくらいの文字数が必要であると考えられているのかといったことによって決まる。
実際に流通している漢字コードの規格が約6000の文字を収容しているJIS X 0208しかなかった時代には、1万を超える文字数があれば大規模と呼ばれた。また、諸橋大漢和辞典の収容文字数が約5万4千であることから、16ビットの限界である65536個のコードがあれば、なんとか必要な文字を収容できるという考え方もあり、16ビットの文字集合で全ての文字を網羅することを目指して開発された当初のUnicode(バージョン1.0)はこのような考え方を元にしている。
その後Unicodeおよびそれを元にしたISO/IEC 10646 (JIS X 0221)、JIS X 0213等の含まれる文字数の多い規格がいくつも制定された。
以下に、主な大規模文字セットを挙げる。(字数は2007年5月時点。(諸)とあるものは、諸橋大漢和相当の部分集合、約5万4000字を持つ。(住)とあるものは、住基ネット統一文字相当の部分集合、約1万9000字を持つ。(戸)とあるものは、戸籍統一文字相当の部分集合、5万6044字(2012年時点)[6]を持つ。)
電子書籍が普及した現在、多くのフォントはDTP用に開発された文字セットであるAdobe-Japan1-6を実装している。人名/地名用のフォントでは、経済産業省所管独立行政法人の情報処理推進機構(IPA)が、MJ文字情報に対応するIPAmj明朝フォントをオープンソースで頒布している。
他に、今昔文字鏡のindexfontや、GT書体プロジェクトによるGT書体及びTフォント[8]、UnicodeのCJK統合漢字拡張A~Fに完全対応する花園フォントなどが使われている。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.