Loading AI tools
来自维基百科,自由的百科全书
中文輸入法是指為了漢字輸入計算機或手機等電子設備而採用的編碼方法,是中文信息處理的重要技術。一般可分類作拼音輸入法(如:漢語拼音輸入法、注音輸入法、粵拼輸入法、日語假名輸入法)、字形輸入法(如:倉頡、大易、五筆、鄭碼、表形碼、九方、行列),以及混合音、形兩者的音形碼輸入法。
中文輸入法是從1980年代發展起來的,中間為幾個階段:單字輸入、詞語輸入、整句輸入。對於中文輸入法的要求是以單字輸入為基礎達到全面覆蓋;以詞語輸入為主幹達到快速易用;整句輸入還處於發展之中。
從漢字的邏輯構造上看,漢字並不能像英文字母那樣被分成少量的元素單位,從而不能進行以文字構造為基本單位的分類歸放、處理等。雖然漢字可以分成不同的部首、偏旁等文字基本構件,但是被分成的基本構件數量過多並且基本構件在組成漢字時的位置、方位、朝向都將決定漢字的構成(例如「昌」跟「昍」,「員」跟「唄」,「江」跟「汞」,「忠」跟「忡」)。這大大限制了中文漢字直接以漢字本身的構造進行快速錄入速度,根據漢字的構造輸入的方法例如有五筆字型輸入法、倉頡輸入法和嘸蝦米輸入法。
由於中文漢字的構造特性,漢字的字形輸入顯得繁瑣。這也從而衍生出字音輸入法等其它轉碼輸入法。
音轉碼對漢字的讀音要求比較準確,而漢字又是語素文字,字音輸入法與漢字輸出無直接關聯,且漢字同音字、多音字較多,這客觀上對字音輸入漢字的方法有一定的障礙。即使字音輸入法採用人工智能選字,仍然無法消除字詞的同音錯誤,特別是同音常用字,例如:再—在、那—哪、即—既、需—須、的—地—得等等。[1][2]過度依賴字音輸入,也會令人更易執筆忘字;而使用字形輸入法要回想字形,使用者對字形印象較牢固。[3][4]此外,一些字音輸入法為了提高正確率,會收集用戶所輸入的文字,有可能侵犯了用戶的隱私。[5]
最初的漢字輸入方案採取特製鍵盤,分為大鍵盤和中鍵盤,有數千鍵者稱為大鍵盤,有數百鍵者稱為中鍵盤。大鍵盤每一鍵對應若干個漢字,按下字鍵再按選擇鍵。中國大陸在1987年制訂「漢字整字鍵盤盤面字排列」國家標準(GB/T 7513-1987,已廢止),規定二千鍵和四千鍵大鍵盤的漢字排列。台灣的交通大學1973年研發「字根鍵盤」,用496個鍵輸入,每鍵代表一個字根,屬於中鍵盤。[6]這些鍵盤既笨拙且不易使用,無法像拼音文字盲打,所以自從1976年倉頡輸入法開創了在標準「小鍵盤」盲打輸入漢字的時代之後,就逐漸被淘汰。
由於漢字數以萬計(截至2020年Unicode13.0中便有92,857個字符(廣義上是指中日韓統一表意文字)。占到了Unicode13.0中的143,924字符的64.52%),電腦鍵盤不可能為每一個漢字而造一個按鍵。因此,人們需要替漢字編輸入碼(檢索出漢字的代碼),用數個鍵來輸入一個漢字。此外,雖然使用特殊鍵盤輸入,可達每分600字以上的速度[7][8][9][10],但由於電腦鍵盤之普及,普通日常使用仍以電腦鍵盤為主。
中文輸入法的發展過程,是「萬碼奔騰」的過程,在20年間出現了上千種編碼方法。漢字的單字輸入分為幾類:音碼、形碼、形音碼、音形碼、無理碼等。注意輸入法編碼,與漢字內碼區分,內碼以GB 2312-80、GB18030-2005、GBK、Big5、Unicode等內碼為基礎。
因為使用漢字正簡的不同,漢字計算機軟件市場經常被分成兩個不同的市場:簡體字用戶(中國大陸)和正體字用戶(台港澳)。大陸計算機用戶一般都會漢語拼音,所以拼音起源的輸入法在大陸很普遍。在臺灣,注音輸入法比較流行,但市場上也有很多其他種類的輸入法,如倉頡、行列,香港等粵語地區也流行粵語拼音輸入法。
隨着地理環境交流的發展,中文輸入法不斷擴充字符集(或包含漢字數),以達到正體字、簡體字與生僻字通用的目的。主流形碼輸入法為了解決字符數擴充導致重碼數增加的問題,大都推出了新版字根布局系統(如98五筆、鄭碼、倉頡輸入法六代等),取碼方式及拆字方法沒有變化或變化不大。其中字根布局系統為了解決字根過多易產生重碼的問題而向字根雙編碼(如鄭碼)及用已有字根組合新字根(如倉頡碼)兩個方向發展;取碼方式及拆字方法則希望可以更多取到字形的整體結構而非僅開頭部分。
簡體中文輸入法大部分可以分為三類:拼音輸入法、形碼輸入法(如:五筆、鄭碼、表形碼)和音形碼輸入法(如:二筆、自然碼)。智能ABC身兼兩種輸入法既可以純拼音輸入又可以音形碼輸入,絕大部分的輸入法軟件都採用上述的漢字編碼方法。見中文輸入法列表。
漢語拼音輸入法是利用漢字的讀音(漢語拼音)進行輸入的一類漢字輸入法。拼音輸入法有幾種輸入方案包括全拼和雙拼。市場上有許多用拼音作基礎的輸入軟件。絕大多數中文操作系統均附帶漢語拼音輸入法,如內置於Windows操作系統中的智能ABC(已停止更新)和微軟拼音。此外互聯網早期時代還有紫光拼音、拼音加加、拼音之星、智能狂拼、黑馬神拼等輸入法,在之後由中國互聯網公司開發的搜狗拼音、QQ拼音、百度輸入法等輸入法較為流行。
其中用於手機的漢語拼音輸入法較常見的有:搜狗手機輸入法、QQ輸入法、點訊輸入法(現為百度手機輸入法[11])、訊飛輸入法、觸寶輸入法、同文輸入法(頁面存檔備份,存於網際網路檔案館)、谷歌拼音輸入法、GBoard等。
粵語輸入法是一種利用粵語拼音打字的輸入法。
和注音輸入法有關的主要介紹請參見下文「正體中文鍵盤輸入法」章節,但基於注音輸入的原生簡體中文輸入法只有微軟新注音2010/2012和Rime輸入法。
微軟新注音2007啟用簡體中文模式之後允許以台灣當地的讀音標準進行簡體中文輸入(而不是輸入正體之後再走整句轉簡流程);
微軟新注音2010/2012則會在啟用簡體中文模式之後直接啟用專門的簡體中文語料庫、使用中國大陸當時的官方讀音用字標準直接進行簡體中文輸入;
之後的微軟新注音無法使用簡體中文模式、且台灣微軟官方至今也沒有提供公開解決方案。
同期其它產自台灣的注音輸入法均採用「先敲正體、再行轉簡」的相容方案。
Rime輸入法由河南人佛振編寫、內建基於大千鍵盤布局的原生簡體中文注音輸入方案(兼具港標正體中文和台灣正體中文的文字輸入模式),
其輸入節奏風格採用類似於搜狗拼音輸入法的順序輸入方案、也使得大千鍵盤布局特有的聲韻並擊的功能無法使用,
但這同時也是Rime注音輸入方案的優點,Rime的簡碼拼字注音輸入方案是注音輸入法中獨有的,在很多情況下輸入速度會比傳統注音輸入法快速。
五筆字型輸入法是王永民在1983年8月發明的一種漢字輸入法。
漢字編碼的方案很多,但基本依據都是漢字的讀音和字形兩種屬性。五筆字型完全依據筆畫和字形特徵對漢字進行編碼,是典型的「形碼」。五筆字型輸入法在使用簡體中文的地區較廣泛,是這些地區最常用的形碼輸入法。但五筆是專有軟件,1997年王永民專利官司敗訴,才使得五筆的其中一版可以免費使用。
鄭碼輸入法是一套字形輸入法,其發明人是中國著名文字學家、《英華大詞典》主編鄭易里教授及其女兒鄭瓏。鄭碼設計之初便考量正體、簡體字統一編碼的需要,在使用同一編碼規則情況下,可以輸入10萬以上正體、簡體漢字。
現今大部份作業系統皆附有鄭碼輸入法。它是簡體中文使用地區最常見的形碼輸入法之一。為了解決正體字與簡體字通用的問題,鄭碼採用字根雙編碼方式減少字根重碼,因採用按特徵檢索基根和區碼方式以及大多採用標準的偏旁部首記憶量增加不大較為易學。
表形碼是由旅居法國的華僑人士陳愛文於80年代發明的中文輸入法。
二筆輸入法是陳勁松於1992年發明的漢字輸入法,分為音形碼和全形碼兩種,其中音形碼得到較廣泛使用。
二筆輸入法將漢字按字形結構分為獨體字和合體字;按碼長分為一碼字(一級簡碼)、二碼字(含簡碼和全碼)、三碼字(含簡碼和全碼)和四碼字。輸入漢字時,第一碼取漢字拼音首字母,從第二碼起取筆畫,每二筆算一碼,最多取四碼,不足四碼應全取,不能取雙筆畫時就取單筆畫。二筆輸入法具有規範、易學、快速的特點,也是目前唯一通過中國教育部評審的可以進入中小學教材的漢字輸入法。
音形碼輸入法是編碼方式以拼音(通常為拼音首字母或雙拼)加上漢字筆畫(偏旁或字根)輔助的輸入法,因易學、智能且接近形碼的少重碼體驗等特點而受到部分用戶的歡迎,較好的平衡了拼音輸入法重碼多、輸入效率低,而形碼輸入法學習較困難的情況。
代表輸入法有超強快碼、哲豆音形、現代二筆輸入法(音形版)、自然碼、拼音之星譚碼、小鶴音形[12]和智能ABC等。[13]
正體中文輸入法的歷史可溯及自1976年由朱邦復發明之倉頡輸入法開始。目前正體中文輸入法主要有:屬於字形輸入法的倉頡輸入法、行列輸入法、大易輸入法、嘸蝦米輸入法、部首輸入法、筆劃輸入法,和屬於拼音輸入法的注音輸入法、粵語拼音輸入法等。
注音是採用符號或記號來標注文字的發音方式及語調,亦可稱為音標、標音符號或注音符號。標音符號主要有兩類,一類是以拉丁字母為基礎的標音符號如國際音標、漢語拼音、通用拼音,這一類通常稱為拼音;另一類注音符號是由北洋政府教育部於1918年11月23日所公佈,目前盛行於臺灣,名為「國語注音符號第一式」。
注音輸入法則在此基礎下,藉以利用臺灣注音符號和漢語拼音的注音來達到輸入中文的效果,此輸入法易於使用,只需使用者懂得注音和拼音就可以輸入中文,雖然有高選字率的缺點,仍是最常為一般臺灣人使用的中文輸入法。
一種中文注音輸入法。其特徵為將介音及聲調合併輸入,以減少按鍵次數,並且將介音及聲調合併鍵區分為「接鍵」類及「不接鍵」類,以控制按鍵次數及輸入之流程。本發明將「介音及聲調之合併鍵」位置與「聲母」「除介音以外之韻母」之按鍵位置作不重疊與重疊兩種應用。在重疊時以組合鍵或規定合併鍵在第二次按鍵時輸入,區別合併鍵與「聲母」「除介音以外之韻母」之按鍵。 [14]
倉頡輸入法,是由臺灣人朱邦復於1976年所創製的中文輸入法,最初只有正體中文版本,原名「形意檢字法」,用以解決電腦輸入漢字的問題。1978年由前國防部長蔣緯國將軍重新定名為「倉頡輸入法」。
1982年,朱邦復公開宣布,由於倉頡輸入法應屬於文化資產,決定放棄專利,不收分文,使電腦漢化得到很大的進展。[15]現今大部份作業系統皆附有倉頡輸入法。它是正體中文使用地區最常用的形碼輸入法。倉頡支援中文大字集,包括正簡體字、異體字、古字、日本、韓國、越南漢字,而仍然保持低重碼率,使得倉頡可以盲打,不需頻繁選字。
在香港及澳門, 倉頡與速成是最常用的中文輸入法。香港的文職招聘廣告中經常要求求職者懂得倉頡及(或)速成輸入法。因粵拼、耶魯拼音等粵音輸入系統不普及,且港英時期至兩文三語政策之前較少使用普通話拼音,多數香港人不使用字音輸入,依照字形的倉頡和速成遂成為最常用的中文輸入法。
發明者為臺灣人廖明德,他曾任職發展倚天中文系統的倚天資訊,行列輸入法免費授權給海峽兩岸的中文電腦廠商,附在各系統中,讓使用者可以免費使用。
行列輸入法的設計和其他拆字型輸入法有著很大的不同,像是一種將文字編碼的方法。和早年使用來做為字典索引的四角號碼一樣,行列輸入法也是類似這樣用數字來為中文字編碼。
除了將文字編碼之外功能,行列輸入法還將這個編碼後的數字和鍵盤互相對應,也是這樣的一個對映關係,讓使用者省去背誦字根的力氣。
發明者為臺灣人王贊傑。
發明者為臺灣人劉重次,以低重碼率、可輸入文字廣泛著稱的字根式輸入法。嘸蝦米以形音義將英文字母與字根結合,所以只要可以輸入英文的鍵盤皆可使用。
漢音輸入法是於1985年由松下電器技術開發公司周峻慧開發,是第一個拼音/注音兼具的智慧型輸入法。由於學習容易及變換率高,推出時曾造成相當震撼,當時內建於宏碁與微軟、資策會合作的中文 MS-DOS 3.21 版中。惟當時臺灣市場規模不大,日本松下逐漸縮小開發投資。現已無販售與維護。至今仍有發燒友繼續找出在Windows 7、Windows 10中使用漢音的方法。
將中文字以形象化的字符(形筆字母)來拼砌中文字「見字打字」。
利用粵語拼音來輸入漢字。粵語沒有像漢語拼音那樣統一、通行的拼音系統,故輸入法有基於不同拼音方案的系統。
快速倉頡輸入法是由香港的一位中學教師麥志洪於1987年開始研發至今的一種「倉頡輸入法」加強版,支援多種作業系統 Linux、 Windows、macOS、Android, iOS ……等等;快速倉頡輸入法在倉頡輸入法的編碼上首先增加了三碼倉頡的編碼(取頭、二和尾碼第一版快速倉頡輸入法)(簡稱快倉一),其基本理念類似於兩碼的「速成輸入法」,只是由兩碼改成三碼,用以減少速成輸入法中過多的重碼。快速倉頡輸入法其後發展中加入了「字根偏旁」減少了重碼,例如骨(月)、目(月月)、米(火火)、車(十十)、糸(女女)……等等。以「頭尾尾」「頭頭尾」和「頭二尾」規則(最多把中文字分為兩部份)簡化了倉頡輸入法的選碼規則而編出最長為三碼四鍵的中文字編碼,與速成相比選字較少因此更快,與倉頡相比則按鍵較少因此也更快。。
近期的版本快倉六是以GPLv3授權發放。人人可以免費(Free、Gratis)取得,並自由(Free、Libre)使用。至今已經包含在各大輸入法程式平台框架中(如:酷倉輸入平台、小小輸入平台、小狼毫中州韻輸入平台等等)它的特點有:採用「一字多碼」的編碼策略、擁有容錯碼、改良標點符號編碼等等。
快碼輸入法是由香港的九方科技控股有限公司發明的一種中文字形輸入法,其把漢字歸類為可橫向分割字和不可橫向分割字,然後再按照其輸入漢字的法則把漢字編碼。
九方輸入法同樣是由香港的九方科技控股有限公司發明的一種中文字形輸入法。其特點是只需要使用鍵盤右方的數字鍵位置,即可輸入漢字。該種輸入法僅使用9個字碼拆字,每個字只需輸入3個字碼即可選擇,被認為是一種簡易快捷的輸入法。
縱橫輸入法是由香港人周忠繼於1993年發明的一種中文字形輸入法。其特點是只需要使用鍵盤右方的0-9數字鍵位置,即可輸入漢字。
六碼筆畫輸入法是由香港城市大學電子工程學系副教授布禮文於2007年開發的「筆畫輸入法」加強版,支持Windows、macOS、Android, iOS;「六碼筆畫」(簡稱G6),它除了支援「全碼」筆畫輸入模式,更提供「六碼」輸入模式,其基本理念與「速成輸入法」類似。 G6=diGit-6 即六碼的意思,因為這種輸入模式以漢字的5種基本筆畫類型:橫(一)、豎(丨)、撇(丿)、點(丶) 和 折(フ), 再以「頭三尾三」的選碼規則而編出最長為六碼的漢字碼或詞組碼。
六碼筆畫的主要優點是介面簡潔、易學易用,因為只要懂得漢字筆順及頭三尾三的編碼規則,就能輕鬆輸入中文單字、二字詞、三字詞及多字詞。 六碼鍵盤是經過精心的人機界面設計,無論在柯蒂鍵盤或數字鍵盤都能以最靈活的食指、中指和無名指進行輸入。用戶亦能以 Y 或 / 鍵作六碼及全碼筆畫輸入的轉換,這樣就可以大大提升六碼筆畫的實用性。
十二鍵輸入法是由香港人鄔瑞光發明的中文字形輸入法,將中文筆畫分成四組共十二種,以十二個鍵表示。此輸入法最與別不同之處,是其完全依託於硬件之上。發明者鄔瑞光設計製造了專屬的輸入鍵盤,包含輸入法使用的按鍵、英文鍵盤以及輸入用的液晶顯示器。用戶只需將此鍵盤插入普通鍵盤接口便可使用,無需安裝軟件,因此用戶不用擔心在其他電腦上沒有安裝此輸入法。此輸入法鍵盤獲得香港中華廠商聯合會1998年頒發香港工業獎機器及設備設計優異證書。[16]
會說普通話的輸入法是由香港人李祥於2004年開發的一種打字時,能聽到普通話同步發聲,又能同步顯示帶聲調的漢語拼音的中文輸入法。輸入法幕後程序上的創新達到功能上的突破:實現輸入法用非拼音輸入碼(倉頡、速成、英文等)打詞組時,也能聽到和看到其輕聲、兒化音及變調的效果。既是輸入漢字的工具,又是香港人學習普通話的工具。開源輸入法平台gcin也能提供類似的發音功能。
安氏漢字電腦編號漢字輸入法是由香港人安子介於1985年發明的中文輸入法。它把漢字分成部首和其餘部分,分別接筆劃規定賦予數字,組成編碼。由於採用了六位數字,故無重碼。[17]
「正易全」是一個以「正」、「易」和「全」為基本指導思想的筆組型漢字編碼輸入法。在「正」方面,採用國際標準漢字集ISO10646 CJK, 並以《GB13000.1字符集漢字字序(筆畫序)規範》和《信息處理用GB13000.1字符集漢字部件規範》指導編碼;在「易」方面,以單雙筆筆組和十來個常用部件為碼元,按筆順和音托等簡單原則映射到26個英文字母建元上,從而避免了傳統的繁複字根-鍵元對應表;在「全」方面,支持CJK中的所有20902字符,包括簡體字、繁體字、日韓字和偏旁部首等,而且可以在不改變編碼方案的前提下進一步擴充字集。正易全的單字最大碼長為5個字母,平均碼長4.315,鍵選率16.4%。該輸入法的筆組-鍵元設計和取碼模式是在對整個CJK字集作了全字編碼以後多次試驗、統計和優化後確定下來的。[18]
1982年,國際標準化組織發出ISO 7098號文件(中文羅馬字母拼寫法),在國際上採用《漢語拼音方案》(嚴格來說只有普通話拼音,不包含其他漢語族方言)進行中文羅馬字母拼寫的標準,並在1991年修訂通過。因此漢語拼音在國際上使用非常普遍。目前國際上除非有特定的目的(如派駐港澳台地區)才需要學習注音、粵拼、倉頡輸入法等,不然國際上幾乎所有的漢字學習者都是首先通過漢語拼音來學習漢字,因此也出現了使用漢語拼音輸入法來輸入正體字的情況。目前,市面上絕大多數的漢語拼音輸入法都內置了正體字輸入功能,單擊這些輸入法狀態欄的「正簡切換」按鈕或在設定中切換為正體模式即可以漢語拼音輸入正體字。但目前市面上不少漢語拼音輸入法經常出現正簡轉換錯誤[19]。
目前,很多五筆字型輸入法均可以輸入正體中文。主要分為兩種方式:在支持GBK或Unicode字符集的模式中,可以將正體漢字一樣按照五筆的字根進行拆分,如輸入「swwi」(木+人+人+末筆為捺雜合型識別碼)可打出「來」。另一種方式為打開「正體輸入」開關後,按簡體拆分可輸出對應的正體,如在該模式下,輸入go(簡體「来」的編碼)可打出「來」。
鄭碼輸入法和表形碼輸入法均可支持GBK字符集。因為這兩種輸入法的字根表中包含了拆分正體字而得的字根,因此它們均可以做到正簡通打,而不必打簡出正。
除了上述常見輸入法還有些邊緣輸入法,使用人數不是很多,流行範圍較小,但些許功能更加優秀。
聲韻輸入法用滑鼠輸入中文。先點擊聲母,再點擊韻母;或先點擊韻母,再點擊聲母,就出現全部同聲同韻的字以供選擇。聲母韻母均用近音字提示,不必記憶。近音檢字法和粵音檢字法,是聲韻輸入法的代表。參看外部連結。
手寫輸入法是一種對筆跡進行智能識別以選取漢字的輸入法,可以輔助輸入一些生僻字。主流的漢語拼音輸入法可以通過其官方站點獲得手寫輸入法擴展,也有如「開心逍遙筆」之類獨立運行的輸入法。
「鼠標打字·高級版III」是一款為殘疾人和中老年人設計的輸入法,開發者是李經冀和李經碩兄弟。使用者只要用鼠標在屏幕上以第一筆選部首再選字,屏幕上並會出現輔助詞組。由於李氏兄弟很早離世,令輸入法無人維護。後來一名患腦癱只能用腳打字的女作家,因為不能在新電腦上注冊使用此輸入法,在網上求助,喚起公眾關注殘疾人輸入文字的困難。搜狗輸入法團隊接手開發此輸入法,並改名為「點點輸入法」。[20][21]
中文輸入法的拆字方法與原則若其符合專利法條件可受到專利權的保護。但是任何人依據同一套拆字方法或原則衍生出的編碼表是唯一的、都一模一樣,所以此編碼表不受著作權法保護。[22][23]
通常系統內建的輸入法最方便、最泛用。而需要額外安裝者次之。除下載或攜帶安裝程式的不便以外,有些系統會限制使用者不得安裝軟體。商業化的輸入法除了需要付費,許多地方可能沒有安裝而造成使用不便;更甚有因公司倒閉而使輸入法絕滅,使用者只好重新學習新的輸入法。目前有少量開源輸入法,比如中州韻輸入法引擎。
通常初學者會考量一個輸入法是否易學,以下是一些影響易學性的變數:
標點符號在中文文章中相當重要,因此標點符號是否容易輸入也至關緊要。 有些輸入法除常用標點符號以外,尚可輸入較少用的符號,如注音、希臘符號、數學符號、等等。
有些輸入法可自定編碼或自定詞庫,以詞定字、以句定詞、優化詞庫,增加靈活性。輸入法的學習、記憶功能亦會影響到輸入速率及體驗,故不少輸入法都有動態字頻、動態詞頻。
一些輸入法只針對常用字編碼,導致生僻字不是無法輸入,就是難以輸入。
無論音碼、形碼、形音碼、音形碼、無理碼輸入法在出現重碼時期望可以通過人工智慧輔助選字。這方面音碼因為重碼較多,比較迫切,因此做得較好;相比下形碼因為重碼較少,支持人工智慧選字的形碼輸入法較少,有較大發展空間。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.