Loading AI tools
来自维基百科,自由的百科全书
中文输入法是指为了汉字输入计算机或手机等电子设备而采用的编码方法,是中文信息处理的重要技术。一般可分类作拼音输入法(如:汉语拼音输入法、注音输入法、粤拼输入法、日语假名输入法)、字形输入法(如:仓颉、大易、五笔、郑码、表形码、九方、行列),以及混合音、形两者的音形码输入法。
中文输入法是从1980年代发展起来的,中间为几个阶段:单字输入、词语输入、整句输入。对于中文输入法的要求是以单字输入为基础达到全面覆盖;以词语输入为主干达到快速易用;整句输入还处于发展之中。
从汉字的逻辑构造上看,汉字并不能像英文字母那样被分成少量的元素单位,从而不能进行以文字构造为基本单位的分类归放、处理等。虽然汉字可以分成不同的部首、偏旁等文字基本构件,但是被分成的基本构件数量过多并且基本构件在组成汉字时的位置、方位、朝向都将决定汉字的构成(例如“昌”跟“昍”,“员”跟“呗”,“江”跟“汞”,“忠”跟“忡”)。这大大限制了中文汉字直接以汉字本身的构造进行快速录入速度,根据汉字的构造输入的方法例如有五笔字型输入法、仓颉输入法和呒虾米输入法。
由于中文汉字的构造特性,汉字的字形输入显得繁琐。这也从而派生出字音输入法等其它转码输入法。
音转码对汉字的读音要求比较准确,而汉字又是语素文字,字音输入法与汉字输出无直接关联,且汉字同音字、多音字较多,这客观上对字音输入汉字的方法有一定的障碍。即使字音输入法采用人工智能选字,仍然无法消除字词的同音错误,特别是同音常用字,例如:再—在、那—哪、即—既、需—须、的—地—得等等。[1][2]过度依赖字音输入,也会令人更易执笔忘字;而使用字形输入法要回想字形,用户对字形印象较牢固。[3][4]此外,一些字音输入法为了提高正确率,会收集用户所输入的文字,有可能侵犯了用户的隐私。[5]
最初的汉字输入方案采取特制键盘,分为大键盘和中键盘,有数千键者称为大键盘,有数百键者称为中键盘。大键盘每一键对应若干个汉字,按下字键再按选择键。中国大陆在1987年制订“汉字整字键盘盘面字排列”国家标准(GB/T 7513-1987,已废止),规定二千键和四千键大键盘的汉字排列。台湾的交通大学1973年研发“字根键盘”,用496个键输入,每键代表一个字根,属于中键盘。[6]这些键盘既笨拙且不易使用,无法像拼音文字盲打,所以自从1976年仓颉输入法开创了在标准“小键盘”盲打输入汉字的时代之后,就逐渐被淘汰。
由于汉字数以万计(截至2020年Unicode13.0中便有92,857个字符(广义上是指中日韩统一表意文字)。占到了Unicode13.0中的143,924字符的64.52%),电脑键盘不可能为每一个汉字而造一个按键。因此,人们需要替汉字编输入码(检索出汉字的代码),用数个键来输入一个汉字。此外,虽然使用特殊键盘输入,可达每分600字以上的速度[7][8][9][10],但由于电脑键盘之普及,普通日常使用仍以电脑键盘为主。
中文输入法的发展过程,是“万码奔腾”的过程,在20年间出现了上千种编码方法。汉字的单字输入分为几类:音码、形码、形音码、音形码、无理码等。注意输入法编码,与汉字内码区分,内码以GB 2312-80、GB18030-2005、GBK、Big5、Unicode等内码为基础。
因为使用汉字正简的不同,汉字计算机软件市场经常被分成两个不同的市场:简体字用户(中国大陆)和正体字用户(台港澳)。大陆计算机用户一般都会汉语拼音,所以拼音起源的输入法在大陆很普遍。在台湾,注音输入法比较流行,但市场上也有很多其他种类的输入法,如仓颉、行列,香港等粤语地区也流行粤语拼音输入法。
随着地理环境交流的发展,中文输入法不断扩充字符集(或包含汉字数),以达到正体字、简体字与生僻字通用的目的。主流形码输入法为了解决字符数扩充导致重码数增加的问题,大都推出了新版字根布局系统(如98五笔、郑码、仓颉输入法六代等),取码方式及拆字方法没有变化或变化不大。其中字根布局系统为了解决字根过多易产生重码的问题而向字根双编码(如郑码)及用已有字根组合新字根(如仓颉码)两个方向发展;取码方式及拆字方法则希望可以更多取到字形的整体结构而非仅开头部分。
简体中文输入法大部分可以分为三类:拼音输入法、形码输入法(如:五笔、郑码、表形码)和音形码输入法(如:二笔、自然码)。智能ABC身兼两种输入法既可以纯拼音输入又可以音形码输入,绝大部分的输入法软件都采用上述的汉字编码方法。见中文输入法列表。
汉语拼音输入法是利用汉字的读音(汉语拼音)进行输入的一类汉字输入法。拼音输入法有几种输入方案包括全拼和双拼。市场上有许多用拼音作基础的输入软件。绝大多数中文操作系统均附带汉语拼音输入法,如内置于Windows操作系统中的智能ABC(已停止更新)和微软拼音。此外互联网早期时代还有紫光拼音、拼音加加、拼音之星、智能狂拼、黑马神拼等输入法,在之后由中国互联网公司开发的搜狗拼音、QQ拼音、百度输入法等输入法较为流行。
其中用于手机的汉语拼音输入法较常见的有:搜狗手机输入法、QQ输入法、点讯输入法(现为百度手机输入法[11])、讯飞输入法、触宝输入法、同文输入法(页面存档备份,存于互联网档案馆)、谷歌拼音输入法、GBoard等。
粤语输入法是一种利用粤语拼音打字的输入法。
和注音输入法有关的主要介绍请参见下文“繁体中文键盘输入法”章节,但基于注音输入的原生简体中文输入法只有微软新注音2010/2012和Rime输入法。
微软新注音2007启用简体中文模式之后允许以台湾当地的读音标准进行简体中文输入(而不是输入正体之后再走整句转简流程);
微软新注音2010/2012则会在启用简体中文模式之后直接启用专门的简体中文语料库、使用中国大陆当时的官方读音用字标准直接进行简体中文输入;
之后的微软新注音无法使用简体中文模式、且台湾微软官方至今也没有提供公开解决方案。
同期其它产自台湾的注音输入法均采用“先敲正体、再行转简”的兼容方案。
Rime输入法由河南人佛振编写、内置基于大千键盘布局的原生简体中文注音输入方案(兼具港标正体中文和台湾正体中文的文字输入模式),
其输入节奏风格采用类似于搜狗拼音输入法的顺序输入方案、也使得大千键盘布局特有的声韵并击的功能无法使用,
但这同时也是Rime注音输入方案的优点,Rime的简码拼字注音输入方案是注音输入法中独有的,在很多情况下输入速度会比传统注音输入法快速。
五笔字型输入法是王永民在1983年8月发明的一种汉字输入法。
汉字编码的方案很多,但基本依据都是汉字的读音和字形两种属性。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的“形码”。五笔字型输入法在使用简体中文的地区较广泛,是这些地区最常用的形码输入法。但五笔是专有软件,1997年王永民专利官司败诉,才使得五笔的其中一版可以免费使用。
郑码输入法是一套字形输入法,其发明人是中国著名文字学家、《英华大词典》主编郑易里教授及其女儿郑珑。郑码设计之初便考量繁体、简体字统一编码的需要,在使用同一编码规则情况下,可以输入10万以上繁体、简体汉字。
现今大部分操作系统皆附有郑码输入法。它是简体中文使用地区最常见的形码输入法之一。为了解决正体字与简体字通用的问题,郑码采用字根双编码方式减少字根重码,因采用按特征检索基根和区码方式以及大多采用标准的偏旁部首记忆量增加不大较为易学。
表形码是由旅居法国的华侨人士陈爱文于80年代发明的中文输入法。
二笔输入法是陈劲松于1992年发明的汉字输入法,分为音形码和全角码两种,其中音形码得到较广泛使用。
二笔输入法将汉字按字形结构分为独体字和合体字;按码长分为一码字(一级简码)、二码字(含简码和全码)、三码字(含简码和全码)和四码字。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,每二笔算一码,最多取四码,不足四码应全取,不能取双笔画时就取单笔画。二笔输入法具有规范、易学、快速的特点,也是目前唯一通过中国教育部评审的可以进入中小学教材的汉字输入法。
音形码输入法是编码方式以拼音(通常为拼音首字母或双拼)加上汉字笔画(偏旁或字根)辅助的输入法,因易学、智能且接近形码的少重码体验等特点而受到部分用户的欢迎,较好的平衡了拼音输入法重码多、输入效率低,而形码输入法学习较困难的情况。
代表输入法有超强快码、哲豆音形、现代二笔输入法(音形版)、自然码、拼音之星谭码、小鹤音形[12]和智能ABC等。[13]
繁体中文输入法的历史可溯及自1976年由朱邦复发明之仓颉输入法开始。目前繁体中文输入法主要有:属于字形输入法的仓颉输入法、行列输入法、大易输入法、呒虾米输入法、部首输入法、笔划输入法,和属于拼音输入法的注音输入法、粤语拼音输入法等。
注音是采用符号或记号来标注文字的发音方式及语调,亦可称为音标、标音符号或注音符号。标音符号主要有两类,一类是以拉丁字母为基础的标音符号如国际音标、汉语拼音、通用拼音,这一类通常称为拼音;另一类注音符号是由北洋政府教育部于1918年11月23日所公布,目前盛行于台湾,名为“国语注音符号第一式”。
注音输入法则在此基础下,藉以利用台湾注音符号和汉语拼音的注音来达到输入中文的效果,此输入法易于使用,只需用户懂得注音和拼音就可以输入中文,虽然有高选字率的缺点,仍是最常为一般台湾人使用的中文输入法。
一种中文注音输入法。其特征为将介音及声调合并输入,以减少按键次数,并且将介音及声调合并键区分为“接键”类及“不接键”类,以控制按键次数及输入之流程。本发明将“介音及声调之合并键”位置与“声母”“除介音以外之韵母”之按键位置作不重叠与重叠两种应用。在重叠时以组合键或规定合并键在第二次按键时输入,区别合并键与“声母”“除介音以外之韵母”之按键。 [14]
仓颉输入法,是由台湾人朱邦复于1976年所创制的中文输入法,最初只有繁体中文版本,原名“形意检字法”,用以解决电脑输入汉字的问题。1978年由前国防部长蒋纬国将军重新定名为“仓颉输入法”。
1982年,朱邦复公开宣布,由于仓颉输入法应属于文化资产,决定放弃专利,不收分文,使电脑汉化得到很大的进展。[15]现今大部分操作系统皆附有仓颉输入法。它是繁体中文使用地区最常用的形码输入法。仓颉支持中文大字集,包括正简体字、异体字、古字、日本、韩国、越南汉字,而仍然保持低重码率,使得仓颉可以盲打,不需频繁选字。
在香港及澳门, 仓颉与速成是最常用的中文输入法。香港的文职招聘广告中经常要求求职者懂得仓颉及(或)速成输入法。因粤拼、耶鲁拼音等粤音输入系统不普及,且港英时期至两文三语政策之前较少使用普通话拼音,多数香港人不使用字音输入,依照字形的仓颉和速成遂成为最常用的中文输入法。
发明者为台湾人廖明德,他曾任职发展倚天中文系统的倚天信息,行列输入法免费授权给海峡两岸的中文电脑厂商,附在各系统中,让用户可以免费使用。
行列输入法的设计和其他拆字体输入法有着很大的不同,像是一种将文字编码的方法。和早年使用来做为字典索引的四角号码一样,行列输入法也是类似这样用数字来为中文字编码。
除了将文字编码之外功能,行列输入法还将这个编码后的数字和键盘互相对应,也是这样的一个映射关系,让用户省去背诵字根的力气。
发明者为台湾人王赞杰。
发明者为台湾人刘重次,以低重码率、可输入文字广泛著称的字根式输入法。呒虾米以形音义将英文字母与字根结合,所以只要可以输入英文的键盘皆可使用。
汉音输入法是于1985年由松下电器技术开发公司周峻慧开发,是第一个拼音/注音兼具的智能输入法。由于学习容易及变换率高,推出时曾造成相当震撼,当时内置于宏碁与微软、资策会合作的中文 MS-DOS 3.21 版中。惟当时台湾市场规模不大,日本松下逐渐缩小开发投资。现已无贩售与维护。至今仍有发烧友继续找出在Windows 7、Windows 10中使用汉音的方法。
将中文字以形象化的字符(形笔字母)来拼砌中文字“见字打字”。
利用粤语拼音来输入汉字。粤语没有像汉语拼音那样统一、通行的拼音系统,故输入法有基于不同拼音方案的系统。
快速仓颉输入法是由香港的一位中学教师麦志洪于1987年开始研发至今的一种“仓颉输入法”加强版,支持多种操作系统 Linux、 Windows、macOS、Android, iOS ……等等;快速仓颉输入法在仓颉输入法的编码上首先增加了三码仓颉的编码(取头、二和尾码第一版快速仓颉输入法)(简称快仓一),其基本理念类似于两码的“速成输入法”,只是由两码改成三码,用以减少速成输入法中过多的重码。快速仓颉输入法其后发展中加入了“字根偏旁”减少了重码,例如骨(月)、目(月月)、米(火火)、车(十十)、糸(女女)……等等。以“头尾尾”“头头尾”和“头二尾”规则(最多把中文字分为两部分)简化了仓颉输入法的选码规则而编出最长为三码四键的中文字编码,与速成相比选字较少因此更快,与仓颉相比则按键较少因此也更快。。
近期的版本快仓六是以GPLv3授权发放。人人可以免费(Free、Gratis)获取,并自由(Free、Libre)使用。至今已经包含在各大输入法程序平台框架中(如:酷仓输入平台、小小输入平台、小狼毫中州韵输入平台等等)它的特点有:采用“一字多码”的编码策略、拥有容错码、改良标点符号编码等等。
快码输入法是由香港的九方科技控股有限公司发明的一种中文字形输入法,其把汉字归类为可横向分割字和不可横向分割字,然后再按照其输入汉字的法则把汉字编码。
九方输入法同样是由香港的九方科技控股有限公司发明的一种中文字形输入法。其特点是只需要使用键盘右方的数字键位置,即可输入汉字。该种输入法仅使用9个字码拆字,每个字只需输入3个字码即可选择,被认为是一种简易快捷的输入法。
纵横输入法是由香港人周忠继于1993年发明的一种中文字形输入法。其特点是只需要使用键盘右方的0-9数字键位置,即可输入汉字。
六码笔画输入法是由香港城市大学电子工程学系副教授布礼文于2007年开发的“笔画输入法”加强版,支持Windows、macOS、Android, iOS;“六码笔画”(简称G6),它除了支持“全码”笔画输入模式,更提供“六码”输入模式,其基本理念与“速成输入法”类似。 G6=diGit-6 即六码的意思,因为这种输入模式以汉字的5种基本笔画类型:横(一)、竖(丨)、撇(丿)、点(丶) 和 折(フ), 再以“头三尾三”的选码规则而编出最长为六码的汉字码或词组码。
六码笔画的主要优点是接口简洁、易学易用,因为只要懂得汉字笔顺及头三尾三的编码规则,就能轻松输入中文单字、二字词、三字词及多字词。 六码键盘是经过精心的人机界面设计,无论在柯蒂键盘或数字键盘都能以最灵活的食指、中指和无名指进行输入。用户亦能以 Y 或 / 键作六码及全码笔画输入的转换,这样就可以大大提升六码笔画的实用性。
十二键输入法是由香港人邬瑞光发明的中文字形输入法,将中文笔画分成四组共十二种,以十二个键表示。此输入法最与别不同之处,是其完全依托于硬件之上。发明者邬瑞光设计制造了专属的输入键盘,包含输入法使用的按键、英文键盘以及输入用的液晶显示器。用户只需将此键盘插入普通键盘接口便可使用,无需安装软件,因此用户不用担心在其他电脑上没有安装此输入法。此输入法键盘获得香港中华厂商联合会1998年颁发香港工业奖机器及设备设计优异证书。[16]
会说普通话的输入法是由香港人李祥于2004年开发的一种打字时,能听到普通话同步发声,又能同步显示带声调的汉语拼音的中文输入法。输入法幕后程序上的创新达到功能上的突破:实现输入法用非拼音输入码(仓颉、速成、英文等)打词组时,也能听到和看到其轻声、儿化音及变调的效果。既是输入汉字的工具,又是香港人学习普通话的工具。开源输入法平台gcin也能提供类似的发音功能。
安氏汉字电脑编号汉字输入法是由香港人安子介于1985年发明的中文输入法。它把汉字分成部首和其余部分,分别接笔划规定赋予数字,组成编码。由于采用了六位数字,故无重码。[17]
“正易全”是一个以“正”、“易”和“全”为基本指导思想的笔组型汉字编码输入法。在“正”方面,采用国际标准汉字集ISO10646 CJK, 并以《GB13000.1字符集汉字字序(笔画序)规范》和《信息处理用GB13000.1字符集汉字部件规范》指导编码;在“易”方面,以单双笔笔组和十来个常用部件为码元,按笔顺和音托等简单原则映射到26个英文字母建元上,从而避免了传统的繁复字根-键元对应表;在“全”方面,支持CJK中的所有20902字符,包括简体字、繁体字、日韩字和偏旁部首等,而且可以在不改变编码方案的前提下进一步扩充字集。正易全的单字最大码长为5个字母,平均码长4.315,键选率16.4%。该输入法的笔组-键元设计和取码模式是在对整个CJK字集作了全字编码以后多次试验、统计和优化后确定下来的。[18]
1982年,国际标准化组织发出ISO 7098号文件(中文罗马字母拼写法),在国际上采用《汉语拼音方案》(严格来说只有普通话拼音,不包含其他汉语族方言)进行中文罗马字母拼写的标准,并在1991年修订通过。因此汉语拼音在国际上使用非常普遍。目前国际上除非有特定的目的(如派驻港澳台地区)才需要学习注音、粤拼、仓颉输入法等,不然国际上几乎所有的汉字学习者都是首先通过汉语拼音来学习汉字,因此也出现了使用汉语拼音输入法来输入正体字的情况。目前,市面上绝大多数的汉语拼音输入法都内置了正体字输入功能,单击这些输入法状态栏的“正简切换”按钮或在设置中切换为繁体模式即可以汉语拼音输入正体字。但目前市面上不少汉语拼音输入法经常出现正简转换错误[19]。
目前,很多五笔字型输入法均可以输入正体中文。主要分为两种方式:在支持GBK或Unicode字符集的模式中,可以将正体汉字一样按照五笔的字根进行拆分,如输入“swwi”(木+人+人+末笔为捺杂合型识别码)可打出“來”。另一种方式为打开“正体输入”开关后,按简体拆分可输出对应的正体,如在该模式下,输入go(简体“来”的编码)可打出“來”。
郑码输入法和表形码输入法均可支持GBK字符集。因为这两种输入法的字根表中包含了拆分正体字而得的字根,因此它们均可以做到正简通打,而不必打简出正。
除了上述常见输入法还有些边缘输入法,使用人数不是很多,流行范围较小,但些许功能更加优秀。
声韵输入法用鼠标输入中文。先点击声母,再点击韵母;或先点击韵母,再点击声母,就出现全部同声同韵的字以供选择。声母韵母均用近音字提示,不必记忆。近音检字法和粤音检字法,是声韵输入法的代表。参看外部链接。
手写输入法是一种对笔迹进行智能识别以选取汉字的输入法,可以辅助输入一些生僻字。主流的汉语拼音输入法可以通过其官方站点获得手写输入法扩展,也有如“开心逍遥笔”之类独立运行的输入法。
“鼠标打字·高级版III”是一款为残疾人和中老年人设计的输入法,开发者是李经冀和李经硕兄弟。用户只要用鼠标在屏幕上以第一笔选部首再选字,屏幕上并会出现辅助词组。由于李氏兄弟很早离世,令输入法无人维护。后来一名患脑瘫只能用脚打字的女作家,因为不能在新电脑上注册使用此输入法,在网上求助,唤起公众关注残疾人输入文字的困难。搜狗输入法团队接手开发此输入法,并改名为“点点输入法”。[20][21]
中文输入法的拆字方法与原则若其符合专利法条件可受到专利权的保护。但是任何人依据同一套拆字方法或原则派生出的编码表是唯一的、都一模一样,所以此编码表不受著作权法保护。[22][23]
通常系统内置的输入法最方便、最泛用。而需要额外安装者次之。除下载或携带安装程序的不便以外,有些系统会限制用户不得安装软件。商业化的输入法除了需要付费,许多地方可能没有安装而造成使用不便;更甚有因公司倒闭而使输入法绝灭,用户只好重新学习新的输入法。目前有少量开源输入法,比如中州韵输入法引擎。
通常初学者会考量一个输入法是否易学,以下是一些影响易学性的变量:
标点符号在中文文章中相当重要,因此标点符号是否容易输入也至关紧要。 有些输入法除常用标点符号以外,尚可输入较少用的符号,如注音、希腊符号、数学符号、等等。
有些输入法可自定编码或自定词库,以词定字、以句定词、优化词库,增加灵活性。输入法的学习、记忆功能亦会影响到输入速率及体验,故不少输入法都有动态字频、动态词频。
一些输入法只针对常用字编码,导致生僻字不是无法输入,就是难以输入。
无论音码、形码、形音码、音形码、无理码输入法在出现重码时期望可以通过人工智能辅助选字。这方面音码因为重码较多,比较迫切,因此做得较好;相比下形码因为重码较少,支持人工智能选字的形码输入法较少,有较大发展空间。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.