幽霊文字

JIS基本漢字に含まれる、典拠不明の文字の総称 ウィキペディアから

幽霊文字(ゆうれいもじ、:ghost character)は、JIS基本漢字に含まれる、典拠不明の文字漢字)の総称。幽霊漢字(ゆうれいかんじ)、幽霊字(ゆうれいじ)とも呼ぶ。

概説

要約
視点
Thumb
河内𡚴原地区(滋賀県犬上郡多賀町)の地名看板。幽霊漢字「」は「𡚴」の誤字である可能性が指摘されている。

1978年に当時の通商産業省が制定したJIS C 6226(後のJIS X 0208)では、いわゆるJIS第1・第2水準漢字として6349字が規定された。この漢字集合を「JIS基本漢字」と呼ぶ。このとき典拠として次の4つの漢字表に含まれる漢字が採用された[1]

  1. 標準コード用漢字表(試案): 情報処理学会漢字コード委員会(1971年
  2. 国土行政区画総覧: 国土地理協会1972年
  3. 日本生命収容人名漢字: 日本生命1973年、現存せず)
  4. 行政情報処理用基本漢字: 行政管理庁1975年

しかし、制定当時は各文字の典拠が規格の中に明示されなかったため、音義・使用例の不明な文字があることが指摘され、辞書類に収録されながら実用例のない単語を意味する「幽霊語」をもじって「幽霊文字」と呼ばれるようになった[2]。代表的なものに「」や「」などがあり、これらは古字書を網羅的に収録した『康熙字典』や『大漢和辞典』にも記載がなかった。

こうした状況を踏まえて、1997年制定の改定規格では、その原案作成委員会において委員長の芝野耕司国立国語研究所笹原宏之らが中心となり、1978年規格の原案作成時に参照された文献を調査した。その結果、幽霊文字とされてきたものの多くは、地名などに実際に使われていた漢字であることが明らかになった。

調査によると、1978年規格原案作成に先立って、行政管理庁は1974年に上記の1 - 3を含む8つの漢字表をとりまとめた『行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果』を作成しており、これには漢字表と元の典拠が併せて記載されている。当時のJIS基本漢字の選定の際には、元の典拠ではなくこの対応分析結果が参照されており、このうち『国土行政区画総覧』『日本生命収容人名漢字』を典拠とするものに幽霊文字が多く含まれていることが判明した。特に『日本生命収容人名漢字』は第1次規格の原案作成時点で既に原典が存在せず、内容に不備が指摘されている[3]

この結果を受け、改定規格の委員会は『国土行政区画総覧』の1972年版を校正履歴から復元したうえで、そこに現れる漢字を全ページにわたって照合し、用例を確認した。このほか、現存しない『日本生命収容人名漢字』に代わる人名用例として、NTT電電公社電話帳データベースを比較調査したり、30以上にわたる古今の字書を調査対象としたりするなど、徹底的な文献参照を行った。

しかしこうした綿密な調査を経てもなお、12の漢字については典拠不明のまま残される結果となった。この中には、資料の写し間違いが推察されるなどの手がかりが発見されたものも含まれる。また、典拠不明の文字の多くは古字書に同形衝突した文字が見えるが、唯一「」に関しては同形の文字を発見することはできなかった[4]。したがって、現在では本当に幽霊文字とみなされるのはこれら12文字、狭い意味では「彁」1文字のみである。

幽霊文字は既にUnicodeなどの国際規格に採用されており、これらの規格変更は互換性の問題を起こす可能性が高いため、幽霊文字の修正や削除は事実上不可能になっている。

幽霊文字とされた漢字の調査結果

要約
視点

前述の笹原宏之らによる調査の成果は、JIS X 0208:1997の附属書7「区点位置詳説」にまとめられている。本節ではその一部を抜粋する。

典拠が不明なもの

JIS X 0208:1997では、前述の4つの漢字表のうちいずれかを典拠とするものか確信を得られないため、下表の12文字について「典拠不詳」「不明」「同定不能」として扱っている。これらは規格制定上に参照された文献が特定できないものをすべて不明として扱ったものであり、前述の漢字表のいずれかの文字を誤収録した可能性が高い。また、その多くは偶然に同形のものが歴史的に存在していることが確認されている。

さらに見る 調査結果, 偶然に一致した(暗合)例 ...
調査結果 偶然に一致した(暗合)例
文字 区点 典拠字書読み・字義
52-55 対応分析結果になし(典拠不明)[注釈 1]集韻』鈔本にあるが誤写か 」の異体字
52-63 対応分析結果になし(典拠不明)[注釈 1]。「」の誤写か。倭玉篇』にあり 」の異体字
54-12 国土行政区画総覧典拠とあるが発見できず。「𡚴」の誤認か。字鏡集』などにあるが誤写か 」の異体字[注釈 2]
55-27 対応分析結果になし(典拠不明)[注釈 1]。「彊」などの誤写か。同定不能-
57-43 国土行政区画総覧典拠とあるが発見できず。「栩」の誤写か。中華字海』などにあり 読み:ウ、人名用途
58-83 国土行政区画総覧典拠とあるが発見できず。「杲」などの誤写か。法華三大部難字記』にあり 」の異体字
59-91 国土行政区画総覧典拠とあるが発見できず。「橳」の誤写か。一切経音義 (玄応)』にあり 」の異体字
60-57 国土行政区画総覧典拠とあるが発見できず。「橦」の誤写か。宋元以来俗字譜』などにあり 」の異体字
74-12 行政情報処理用基本漢字典拠(明治生命保険相互会社漢字コード表)とあるが用例なし[注釈 1]新撰字鏡』にあり 読み:もむ・せむ
74-57 国土行政区画総覧典拠とあるが発見できず。「祢」の誤写か。新撰字鏡』『類聚名義抄』などにあり 」の異体字
79-64 国土行政区画総覧典拠とあるが発見できず。「閏」の誤字か。宋版『広韻』の一部にあり[注釈 3] 」の異体字
81-50 日本生命人名表典拠とあるが原典不在。類聚名義抄』にあり 読み:シュウ、尻の白い馬
閉じる

誤写の可能性があるもの

典拠不明の文字のうち、典拠資料に存在しながら規格収録されなかった文字を誤写し、誤った字体で登録した可能性があるものとして、以下のものが挙げられる。

  • 」は、対応分析結果に含まれている「」がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[5]。「」はJIS X 0213にも収録されていない。
  • 」は、滋賀県犬上郡多賀町河内にある「𡚴原」(あけんばら)の「𡚴」(「山女(あけび)」の合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある。典拠である国土行政区画総覧において、版下作成時に異なる文字の一部を切って貼り合わせることで作字したと見られる重ね目の影のような印刷跡があり、それを横画と見誤って転記したものと推測されている[5][6]。「𡚴」はJIS X 0213に収録された。
  • 」は、群馬県前橋市にある「橳島」(ぬでじま)[7]の「」(植物のヌルデの別名カチノキの合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[5]。「橳」はJIS X 0213に収録された。

典拠が判明したもの

JIS X 0208:1997では、典拠の明らかになった文字のうち、諸橋『大漢和辞典』、角川『新字源』の両方に掲載されていないものを中心に典拠詳細をまとめている。附属書7で「原典典拠」と付された区点一覧には72文字が掲載されているが、詳説本文には「(82-60)」が記載されておらず、「幤(54-82)」が「原典典拠」と表示されているが、区点一覧には掲載っていない。

下表にその一部を例示した。この中には、原典による誤字と判明しているものも含まれる。

さらに見る 文字, 区点 ...
文字 区点 典拠・用例
51-85国土行政区画総覧に用例あるが現存せず。囎唹郡→曽於郡(そおぐん)/鹿児島県
52-18国土行政区画総覧に用例あり。藤垈(ふじぬた)・相垈(あいぬた)[注釈 4]・大垈(おおぬた)/山梨県
52-21国土行政区画総覧に用例あり。垉六(ほうろく)/愛知県
52-46国土行政区画総覧に用例あるが現存せず。堽内→堤内(ひさぎうち)/大分県
54-19国土行政区画総覧に用例あるが現存せず。広岾町(ひろやまちょう)→広町(こうちょうちょう)/京都府[注釈 5]
55-78日本生命人名表典拠。NTT電話帳に人名用例あり。
59-67国土行政区画総覧に用例あり。档ヶ山(まてがやま)/鹿児島県
60-17国土行政区画総覧に用例あり。三ツ椡(みつくぬぎ)/新潟県
60-81日本地名大辞典[注釈 6]に用例あり。石橸(いしだる)[注釈 7]/静岡県
61-73国土行政区画総覧に用例あり。汢の川(ぬたのかわ)[注釈 8]/高知県
66-83日本生命人名表典拠。NTT電話帳に人名用例あり。
67-46国土行政区画総覧に用例あるが原典誤字。穃原→原(ようばる)/沖縄県
68-68国土行政区画総覧に用例あり。粐蒔沢(ぬかまきざわ)[注釈 9]/秋田県
68-70国土行政区画総覧に用例あり。粭島(すくもじま)/山口県
68-72国土行政区画総覧に用例あるが原典誤字。粫田(うるちだ)→田(もちだ)[注釈 10]/福島県
68-84国土行政区画総覧に用例あり。糘尻(すくもじり)/広島県
71-19国土行政区画総覧に用例あり。膤割(ゆきわり)[注釈 11]/熊本県
77-32国土行政区画総覧に用例あるが現存せず。軅飛(たかとぶ)→飛(たかとび)/福島県
78-93国土行政区画総覧に用例あり。小鍄(こがすがい)/山形県
82-94国土行政区画総覧に用例あるが原典誤字。鵈沢→沢(みさごさわ)/福島県
閉じる

辞書での扱い

要約
視点

規格制定以降、辞書編纂の方針としてJIS基本漢字を全掲載することが前提となった字書類が出版されている。JIS基本漢字に収録された幽霊文字については、過去の出典を参照することができないため、その取り扱いは字書や個別の文字によって以下のように異なった。

読みを便宜的に割り当てる
日本電子工業振興協会『日本語処理技術に関する調査研究』(1982年)が「便宜上仮に音を採用」した20字
(ホウ) (チョ) (カ) (キュウ)
(ウ) (ヒ) (ケン) (トウ)
(ショウ) (ト) (テイ) (ヨウ)
(コ) (ジ) (セツ) (ジョウ)
(キョウ) (ギョク) (シュウ) (チョウ)
JIS基本漢字を実装した情報機器ではすべての文字が何らかの変換で出力できるように、幽霊文字といえども便宜的に形声文字として解釈した「音読み」を割り当てることがある[注釈 12]。これに倣い、辞書でもこれらの便宜的な読みを掲載するものもある(=カ・セイ、=ヒなど)。笹原宏之は、日本電子工業振興協会による調査報告(1982年)や、NEC(1982年)・日本IBM(1983年)の発行資料に基づいてこれらの読みが与えられた可能性を指摘している[12]
似た文字の異体字とする
  • 」を「馴」(なれる)の異体字とするもの[13]
  • 」を「軈」(やがて)の異体字とするもの[14]
  • 」を「」(もとる・さからう)の動用字とするもの[15]
  • 」を「」(日の色)の動用字とするもの[16]
などの掲載例があるが、これら4例はいずれも典拠を示したものがない。
」は非常に似た「󠄂」(上部の「山」が「屮」となるもの)の異体字とするものがある[16][17]。後者の字体は大漢和辞典康熙字典にも収録されており、JIS X 0208:1997での調査でもその表記揺れとして前者字体が字鏡集にあることを暗合例に挙げている。さらに、JIS X 0212(補助漢字)では収録文字「」の異体字として前者字体の区点を示している[18]一方で、大漢和辞典などでは異体字として後者字体が掲げられており[19]、これに基づいてUnicodeでもこれら2文字は同一コードポイントに統合されている(#幽霊文字が残されている理由を参照)。
暗合した別の文字として解説する
などの掲載例がある。また、2000年発行の『大漢和辞典 補巻』では前述の典拠不明字12字のうち「」の6字について解説を与えている。
これらはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されているものである。規格の収録意図とは異なる可能性が高いが、このような扱いは幽霊文字に限らず、収録文字の解説に汎用性を持たせるために行われる。
音義未詳字として解説する
読みや意義が不明であることをありのままに記述する例が多くある。2017年に改訂刊行された新字源では「」の8字については本文中に盛り込まず、JIS誤掲出として巻末掲載している[20]

前述の調査結果が判明してからは、音義未詳字や暗合例など含めていずれもその内容を採るものが一般的となっている。

幽霊文字が残されている理由

さらに見る Unicode 1.1, JIS X 0208-1990(日本) ...
Unicodeで他国規格収録文字と統合された例
Unicode 1.1 U+5788U+599BU+5CBE
JIS X 0208-1990(日本)
(52区18点)

(54区12点)

(54区19点)
CNS 11643-1992(台湾) -
(3面2553)
-
KS C 5601-1987(韓国)
(535C)
-
(6F40)
閉じる

笹原宏之らによって幽霊文字の調査が行われたが、これはJIS X 0208の第4次規格(1997年)改正の一環であった。第2次規格(1983年)のいわゆる「83JIS改正」では、区点の入れ替えを主とする非互換の改変がされたために大きな混乱を招いた過去があり、それを再び起こすわけにはいかなかった。

また、Unicodeとの互換性を維持する必要もあった。調査時点において1993年制定のUnicode 1.1には既にJIS基本漢字がすべて収録されており、この時期になっての変更は、単に国内だけの問題に留まるものではなかった。加えて、Unicode制定時にCJK統合漢字として各国の規格をひとまとめにした際に他規格収録文字と同一コードポイントに統合されているものがある (en:Han unification包摂 (文字コード) の記事も参照)。それ以降においても、Unicode収録文字に基づいて中国GB 16500-1995、台湾CNS 11643-2004などといった他国内規格が追加拡張を行っており、これら規格内にも幽霊文字が含まれている。このようにUnicodeをはじめとする他規格との連繫はさらに複雑なものとなっており、規格変更という形での対処は事実上不可能であったと言える。

結果として、幽霊文字はいまなおJIS基本漢字やUnicodeに残され、フォントさえ用意すれば世界中の情報機器で利用可能となっている。

使用例

要約
視点

幽霊文字は元来典拠不明であり、過去の用例が発見されていないものであるが、規格制定以降はその普及に伴い幽霊文字の用例が現れている。

規格に収録されたことで幽霊文字と似た形の漢字との誤用を誘発しやすくなり、代表的な例に「祢宜」「栩谷」を「宜」「谷」などと誤用する例が散見する[21]。また、丹羽基二の著書では幽霊文字「」を用いた「妛芸凡(あきおうし)」という苗字を出典なしに掲載している[22]が、これも「𡚴」または「安」の誤植の可能性が高い[2]。笹原宏之はこうした誤用例を「幽霊用法」と呼び、曖昧な用例の不用意な引用により情報が独り歩きすることについて注意喚起している。

朝日新聞データベースにおいては、1923年(大正12年)2月23日付の朝日新聞朝刊の記事に対応する検索キーワードとして幽霊文字「」を用いた「埼玉自彁会」が含まれていたが、その後「埼玉自彊会」の誤用と結論付けられ、検索キーワードも修正された[23]

誤字の可能性が高いもののうち、本来の文字がJIS X 0208に収録されなかったものは、幽霊文字をその代用とする用例がある(「𡚴原」→「原」、「橳島」→「島」)。規格上はこれらも誤用の範疇であるが、JIS X 0213では異なる区点位置で本来の文字が登録されたため、JIS X 0213の普及に伴ってこうした用例は少なくなっていくものと予想される。

そのほか、調査以前から用例のある検証可能性の高いものは、以下のものがある。

  • - 蟐蛾ノ瀬戸航路(じょうがのせとこうろ)
    長崎県壱岐市沖合から出ている航路の一つ。沖合に位置する「嫦娥島」の別表記として「蟐蛾島」が見られる[13][24][25]
  • - 大岾(おおはけ)
    埼玉県所沢市南永井小字[20][24][26]
    「岾」はもともと京都市左京区浄土寺広岾町(ひろやまちょう)を用例として採用されたものだが地名としては現存しておらず、暗合用例である「はけ」として使用される。
  • - 道士・嘉挧(どうし・かく)
    1993年東映制作『五星戦隊ダイレンジャー』に登場する架空の人物名。名前は賈詡からとられているが、テロップや雑誌では「挧」と表示されており公式表記である。当時は既にJIS基本漢字を実装した情報機器が普及しており、収録文字を利用して選定したか、誤植がそのまま公式表記になったものと思われる。

調査以降に判明した幽霊文字としての特性を利用し、主に創作などに用いられるものがある。

  • - 詠坂雄二の小説『5A73』
    2022年発表。タイトルの『5A73』は「暃」のJISコードポイントに相当し、作中で発生する事件でこの文字が登場する[27]
  • - Diver Down社が運営する匿名メッセージサービス「マシュマロ」で使われる絵文字出力コマンド
    2018年実装。メッセージ中に含まれる「彁」をマシュマロ絵文字に自動変換して出力する[28]。この絵文字は本来は卑語などを差し替える伏せ字であるが、ユーザが任意に使える機能として実装され、通常のメッセージでは用途がないことを利用して幽霊文字が選定された。
  • など - 音楽ゲーム『Beatmania IIDX 28』の収録曲『閠槞彁の願い』
    2020年発表。楽曲コメントに「人間には発音できない読み」とあり、仮の読みを「ぎょくろうかのねがい」としている[29]。なお、「」「」は規格制定の誤収録ではあるが、古字書に用例があるため発音自体は存在する。
  • - 音楽ゲーム『太鼓の達人』の収録曲『彁』
    2021年発表。読みは「か」[30]

なお、実用例ではないが、幽霊文字そのものを紹介するための用例が多々ある。本記事もその一例であるが、幽霊文字について解説する以上、具体例としてそのうちの何文字かを挙げる必要があるため、規格制定以前に用例が見つかっていない幽霊文字にとっては、必然的にこれが主な用途となっている。

同様の事例

JISのその他の例

  • JIS X 0208に収録された「」は、大漢和辞典収録字ではあるが日本語用例がきわめて少なく、岡山市の地名用字「」の誤りであることが指摘されている。「穝」はJIS X 0213で収録された[31]
  • JIS X 0213に収録された「𠗖」は、高松市の地名用字「𠗖・長池遺跡」に基づき「にご」の音が規格票で与えられたが、「さこ」の誤りである可能性が指摘されている[32]

Unicode

Unicodeにも収録経緯が不明な文字があり、こちらも「幽霊文字」と呼ばれることがある。

  • 1991年制定の Unicode 1.0.1 (CJK統合漢字)では、各国の合意した規格に含まれない多くの漢字が登録された。これは、中国が規格外の文字を既存規格収録として提出したことによる[33]
  • 1991年制定の Unicode 1.0.1では、組文字」(パーツ)が登録されたが、これはタイの通貨単位バーツを誤ったものとされる[34]
  • 2002年制定の Unicode 3.2では、由来・意味共に不明の記号としてAngzarr英語版(⍼)が登録された。
  • 2017年制定の Unicode 10.0 (CJK統合漢字拡張F)では、住基統一文字に由来する読みや意味が不明な文字が含まれている[35]

脚注

関連項目

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.