Loading AI tools
在JIS X 0208所收錄的漢字中,字形來源不明的漢字 来自维基百科,自由的百科全书
幽灵汉字(日语:幽霊漢字/ゆうれいかんじ Yūrē kanji */?),又称幽灵文字(日语:幽霊文字/ゆうれいもじ Yūrē moji)是JIS基本汉字所收录的出处不明汉字的总称。
1978年,当时的通商产业省制定的JIS C 6226(后来的JIS X 0208)中规定了JIS第1、第2水准汉字6349字。该汉字集称为“JIS基本汉字”。当时以下列4个汉字表为典据,采用了其中的汉字:[1]。
但制定JIS基本汉字时,由于规格未要求明示各文字的典据,JIS基本汉字中出现了不少不仅音、义、历史,而且连用例都不明确的文字,即所谓的“幽灵文字”,大约有60字,一说超过100字。
垉(52区21点) | 垈(52区18点) | 墸(52区55点) |
壥(52区63点) | 妛(54区12点) | 岾(54区19点) |
彁(55区27点) | 恷(55区78点) | 挧(57区43点) |
暃(58区83点) | 椦(59区91点) | 橸(60区81点) |
汢(61区73点) | 熕(63区80点) | 碵(66区83点) |
穃(67区46点) | 粐(68区68点) | 粭(68区70点) |
粫(68区72点) | 糘(68区84点) | 膤(71区19点) |
蟐(74区12点) | 袮(74区57点) | 軅(77区32点) |
鍄(78区93点) | 閠(79区64点) | 靹(80区56点) |
駲(81区50点) | 鵈(82区94点) |
最具代表性的有“妛”、“彁”等字,不仅《康熙字典》中未收录,追加了国字、新字体等的诸桥辙次的《大汉和辞典》(2000年补充了含部分JIS基本汉字的《补卷》除外)中也没有记载。
基于此情况,1997年制定改定规格时,其原案作成委员会以委员长芝野耕司和国立国语研究所的笹原宏之等人为中心,调查了1978年规格的原案编制时参考的文献。其结果是原本被视为幽灵汉字的,多数为地名等实际有使用的汉字。
根据调查,早于1978年规格原案编制,行政管理厅在1974年整理包括上述1-3的8个汉字表并编制了《以行政情报处理用标准汉字选定为目标的汉字使用频度及对应分析结果》(行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果,下称“对应分析结果”),其中汉字表和原典均有记载。选定JIS基本汉字时参照的是对应分析结果而非原典,调查发现其中包含了很多来源于《国土行政区画总览》《日本生命收容人名汉字》的幽灵文字。特别是《日本生命收容人名汉字》在第1次规格的原案编制时,原典已经佚失,因此被批评为内容存在缺陷。[2]在此结果基础上,改定规格的委员会用校正履历复原了《国土行政区画总览》1972年版,并逐页校核其中出现的汉字。此外,他们以日本电信电话(NTT)和日本电信电话公社(电电公社)的电话簿数据库为名用例,取代现已不存的《日本生命收容人名汉字》,进行比较调查,并以30本以上的古今的字书为调查对象,进行彻底的文献参照。
另一方面,经过严密的调查后,仍有12个汉字来源不明。尽管多数来源不明的汉字也发现有各种线索,例如和古字书同形冲突的文字,或推测为资料传抄时出错,但是其中仍有“彁”这一字无任何线索[3]。因此,现时真正的幽灵汉字为此12字,狭义上则只有“彁”一字。
前述的笹原宏之的调查结果整理收录于JIS X 0208:1997附属书7《区点位置详说》。本节选录其中一部分。
字 | 码位 | 来源 | 偶然一致例 |
---|---|---|---|
墸 | 52-55 | 来源不明。有偶合的例子。 | 《集韵》抄本中有,但或为误写;又可能是“躇”的异体字 |
壥 | 52-63 | 来源不明。可能是“㕓”的误写。 | 《倭玉篇》 |
妛 | 54-12 | 来源为《国土行政区划总览》,但未发现。可能是“𡚴”的误认。 | 《字镜集》等中有,但或为误写 |
彁 | 55-27 | 对应分析结果中无(来源不明)。可能是“彊”的误写。 | 无法同定 |
挧 | 57-45 | 来源为《国土行政区划总览》,但未发现。可能是“栩”的误写。 | 《中华字海》等 |
暃 | 58-83 | 来源为《国土行政区划总览》,但未发现。可能是“杲”等的误写。 | 《法华三大部难字记》 |
椦 | 59-91 | 来源为《国土行政区划总览》,但未发现。可能是“橳”的误写。 | 《一切经音义》 |
槞 | 60-57 | 来源为《国土行政区划总览》,但未发现。可能是“橦”的误写。 | 《宋元以来俗字谱》 |
蟐 | 74-12 | 来源为《行政情报处理基本汉字》,但无用例。 | 《新撰字镜》 |
袮 | 74-57 | 来源为《国土行政区划总览》,但未发现。可能是“祢”的误写。 | 《新撰字镜》《类聚名义抄》等 |
閠 | 79-64 | 来源为《国土行政区划总览》,但未发现。可能是“閏”的错别字。 | 宋版《广韵》中有,但或为误写 |
駲 | 81-50 | 来源为《日本生命人名表》,但原典已丢失。 | 《类聚名义抄》 |
文字 | 码位 | 来源 |
---|---|---|
垈 | 52-18 | 《国土行政区画总览》中有用例:藤垈(ふじぬた)、相垈(あいぬた)、大垈(おんた)/山梨县 |
垉 | 52-21 | 《国土行政区画总览》中有用例。垉六(ほうろく)/爱知县 |
岾 | 54-19 | 《国土行政区画总览》中有用例,但现已不存。広岾町(ひろやまちょう)→広帖町(こうちょうちょう)/京都府 |
恷 | 55-78 | 出典为《日本生命人名表》。NTT电话簿中有人名用例。 |
橸 | 60-81 | 《日本地名大辞典》中有用例。石橸(いしだる)/静冈县 |
汢 | 61-73 | 《国土行政区画总览》中有用例,但原典中为误字。汢の川→の川(ぬたのかわ)[7]/高知县。2002年1月1日,考虑到便利性和用例,改用“汢”。有偶然一致例。 |
碵 | 66-83 | 出自《日本生命人名表》。NTT电话簿中有人名用例。 |
穃 | 67-46 | 《国土行政区画总览》中有用例,但原典中为误字。穃原→榕原(ようばる)/冲绳县 |
粐 | 68-68 | 《国土行政区画总览》中有用例。粐蒔沢(ぬかまきざわ)[8]/秋田县 |
粭 | 68-70 | 《国土行政区画总览》中有用例。粭島(すくもじま)/山口县 |
粫 | 68-72 | 《国土行政区画总览》中有用例,但原典中为误字。粫田(うるちだ)→糯田(もちだ)/福岛县 |
糘 | 68-84 | 《国土行政区画总览》中有用例。糘尻(すくもじり)/广岛县 |
膤 | 71-19 | 《国土行政区画总览》中有用例。膤割(ゆきわり)/熊本县 |
軅 | 77-32 | 《国土行政区画总览》中有用例,但现已不存。軅飛(たかとぶ)→鷹飛(たかとび)/福岛县 |
鍄 | 78-93 | 《国土行政区画总览》中有用例。小鍄(こがすがい)/山形县 |
鵈 | 82-94 | 《国土行政区画总览》中有用例,但原典中为误字。鵈沢→鵃沢(みさごさわ)/福岛县。有偶然一致例 |
JIS汉字标准制定后,一些新出版的辞典以JIS基本汉字全覆盖为编纂方针。但由于JIS基本汉字中收录的幽灵文字缺少典据,编纂时的处理方式各异,常见方式包括以下几种。
笹原宏之等人对幽灵文字的调查是1997年的JIS汉字改正工作中的一环。JIS汉字改正曾于1983年的“83JIS改正”中,对字形、文字编码作出大幅变更,引起了严重的混乱,而本次改正则不希望重蹈覆辙。另外,由于JIS汉字已经收录于Unicode,此时对JIS的变更已经不仅是日本国内的问题。结果,幽灵文字不仅在JIS基本汉字中被保留,也可以通过计算机字体于全世界的电脑中使用。
原本来源不明的文字,即使弄清了其正字、字义,使用频率依然不高。实际上,被判定为错别字的汉字有时会用来代用本字,而至今仍来源不明的字有时会用来代用字形相似的文字,作为异字、代替字、俗字而存在。
另外,有人利用幽灵文字“来源不明”“读法不明”的特性,将其作为暗号文书,即所谓“忍者文字”。
2011年,《朝日新闻》在自社数据库以幽灵文字“彁”为关键字检索,命中一条大正12年(1923)2月23日的新闻,其中出现“埼玉自彁会”文本[14]。在扫描图像更加清晰的“朝日新闻〈复刻版〉”中检索同一新闻,可见原文本正是“埼玉自彊會”,而在旧版低分辨率扫描图像中形似“彁”,《朝日新闻》据此更正了检索系统文本。这也为前文中笹原宏之在1997年JIS基本汉字修订时对“彁”来自“彊”(“强”的异体字)之误写的推测提供了一条实例。但是,此篇1923年的新闻未必是“彁”的起源或唯一实例,1978年制订的JIS基本汉字完全可能根据更早的材料误识而收录“彁”字,在此之后,《朝日新闻》电子化的员工才基于相似的误识情形,得以调用已存在于JIS字符集的“彁”字。
“幽灵汉字”是日语中的说法,不少幽灵汉字在汉语中有意义,如:
以下汉字仍无出处:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.