Loading AI tools
日本文字检索软件 来自维基百科,自由的百科全书
今昔文字鏡(日語:今昔文字鏡/こんじゃくもじきょう)是日本AINet開發、日語:文字鏡研究會/もじきょうけんきゅうかい出版發行的一款東亞文字檢索軟件,在Windows平臺上運行。收字量龐大,最新版本收錄文字達17萬以上。所收字類型有諸橋轍次編《大漢和辭典》中的全部漢字、和製漢字、簡化字、方言字、甲骨文、篆書等各類漢字,喃字、水族文字、悉曇文字、西夏文字、變體假名、臺灣語假名等其他文字。[1]由石川忠久擔任主席的文字鏡研究會[2]最初將其字符集、相關軟件及數據以CD-ROM形式由紀伊國屋書店重新分發。[3]
今昔文字鏡編碼本為提供完整的中日韓文字符索引。它還對古代文字中的大量字符進行編碼,如甲骨文、篆書、悉曇文等。它是許多字符唯一一種字符編碼,其數據也常作為Unicode提案的起點。[4][5]但文字鏡的收錄標準比Unicode寬鬆許多,這使得文字鏡許多字符來源可疑,甚至可能是虛構的。[6][7]因此,雖然許多文字鏡收錄的字符尚未被Unicode收錄,但因各家標準不同,並非所有文字鏡字符都能收錄進Unicode。
文字鏡字體(文字鏡フォント)是一系列TrueType字體,以一個ZIP格式文件封裝,每種字體約有2-5兆字節;不同字體包含的字符數也不同。[note 1]還有一個EXE格式的字符映射集(文字鏡MAP),即MOCHRMAP.EXE。這允許用戶瀏覽文字鏡字體並複製、粘貼字符。相較於常規的Windows字符映射集或KCharSelect,MOCHRMAP.EXE還能顯示字符的文字鏡編碼。[8][note 2]為讓MOCHRMAP.EXE正常工作,須安裝所有字體(於C:\Windows\Fonts)。
文字鏡中字符編碼常用MJXXXXXX格式,類似於Unicode所用的U+XXXX格式。例如,變體假名U+1B008 𛀈 的文字鏡編碼為MJ090007,Unicode編碼為U+1B008。[9]兩者的不同之處在於,文字鏡編碼為十進制,Unicode的U+碼為十六進制。
自Unicode創始開始,文字鏡既影響了標準,也受到了標準的影響—來自它的字形於2002年4月18日首次出現在提交給表意文字小組(IRG)的提案中,該小組負責Unicode所有中日韓統一表意文字區塊[10][11][12]。2007年5月,文字鏡提供了Unicode中西夏文的編碼,[13]到2002年10月,文字鏡中已經有約6千個西夏文單字。[14]
Unicode標準的Unihan數據庫將文字鏡稱作「日本国字集」,縮寫「JK」。[15]例如,U+2B679 𫙹 (⿰魚嵐)在日語中讀作blizzard(ブリザード|burizādo),其J源[note 3]就等於JK-66038。所有帶JK前綴的J源Unicode字符都來自文字鏡。[16][note 4]據字符編碼、東亞語言專家小林劍所說,截至Unicode 13.0,Unicode中有782個表意文字來自文字鏡,分佈在2個Unicode區段:中日韓統一表意文字擴展區C中367個,中日韓統一表意文字擴展區E中415個。[17][18]不是所有文字鏡來源的Unicode字符(JK前綴J源)都跟文字鏡字體相同,一些字符的形狀在最終編碼之前被改變了,調查顯示文字鏡分配的字形有誤。[7][note 5]
截至2006年9月[update],它共編碼了17,4975個字符。[14]其中有15,0366個字符屬於擴展CJK文字區。[note 6][19]許多編碼的字符被認為是過時的或不必要的,且沒被任何其他字符集編碼,包括國際標準Unicode。每個文字鏡字符都有一個獨特的編號,許多字符的編號組成區段。
文字鏡不像Unicode那樣試圖搭建統一漢字集,沒有嘗試緊湊編碼,也沒有將所有常用字符維持在U+FFFF以下。
Unicode則依據中日韓漢字的出現頻率分為若干塊,最常見的位於基本多文種平面,[note 5]較生僻的位於輔助多文種平面。
例如,人部有分別來自中國和日本的MJ054435(令)、MJ059031(令)兩個字符,Unicode中均為U+4EE4 <control-4EE4> 。
今昔文字鏡是有限制性許可的專有軟件。最初,文字鏡研究所試圖阻止其字符數據的濫用,並威脅那些發佈字符集轉換表的人。2010年7月,文字鏡研究所放棄了以法律阻止多個日本用戶發佈轉換表或將文字鏡編碼字符轉換為Unicode或其他字符的努力。[20]單純的數據,有時包括字體,在許多司法管轄區被認為是共同財產,因為它們不符合原創性門檻。
然而,由於這一遺留問題,GlyphWiki從2020年起不再允許使用文字鏡數據。[21]
今昔文字鏡開發於1985年,1996年電子化[22]。1997年7月,大修館書店以CD-ROM形式發佈其1.0版本[23],當時只收有不到8萬個字。1999年,在TrueType上搭載的2.0版本發售。
2001年收錄西夏文字,並發佈「今昔文字鏡 單漢字10萬字版」,收錄字數約102,300。同年收錄楷書。「文字鏡Web」網站也開始出現。
2006年發佈「今昔文字鏡 單漢字15萬字版」(4.0版),發佈專業版「Indexfont Ver. 1.0」。[24]
2008年3月末「文字鏡Web」關閉。[25]6月初「今昔文字鏡 UnicodeEdition」發售。[26]
2010年3月15日,發佈專業版「Indexfont Ver. 2.0」。[27]
2015年,開發者之一、社長古家時雄去世,改由石川忠久接手,於次年散會。為作紀念,文字鏡最新版開始作為免費軟件上傳到互聯網檔案館。[28]
至今(2017年),今昔文字鏡的網絡版都還在重新構築當中。[29]
2018年12月15日,4.0版本發佈。次日,石川忠久宣佈此為文字鏡最終版。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.