Loading AI tools
汉字文化圈文字系统 来自维基百科,自由的百科全书
汉字(日语:漢字/かんじ Kanji */?,朝鲜语:한자/漢字 hanja;越南语:hán tự/chữ hán/漢字/𡨸漢),又称汉文、华文、华语字、唐话字、唐人字、中国字,是书写汉语所使用的文字系统[13][14],也是现今世界上唯一仍广泛使用的语素文字[15],主要流行于汉字文化圈(特别是大中华地区),也是联合国四种官方文字之一(另外三种皆为拼音文字,分别是英语、法语与西班牙语使用的拉丁文字、俄语使用的西里尔文字和阿拉伯语使用的阿拉伯文字)。
汉字 | |
---|---|
类型 | |
使用时期 | 约公元前2500年至今 |
书写方向 | 横排从左到右,从上到下(现代) 竖排从上到下,从右到左(传统) |
语言 | 汉语族语言/汉语方言(文言 、官话、粤语、闽语、客家话、赣语、湘语、吴语、晋语、徽语等)、白语、壮语[a]、日语、琉球语、韩语、越南语等[b] |
相关书写体系 | |
父体系 | (原始文字)
|
子体系 | 假名、谚文、喃字、契丹文、方块壮字、女真文、注音符号等 |
ISO 15924 | |
ISO 15924 | Hani (500), Han (Hanzi, Kanji, Hanja) Hans(简体) Hant(繁体) |
Unicode | |
别名 | Han |
范围 | U+4E00至U+9FFF[1] U+3400至U+4DBF[2](扩展A) |
汉字 | |||||||||||||||||||||||||||||||||||||||
汉语名称 | |||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
繁体字 | 漢字 | ||||||||||||||||||||||||||||||||||||||
简化字 | 汉字 | ||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
越南语名称 | |||||||||||||||||||||||||||||||||||||||
越南语 | Hán tự - Chữ Hán | ||||||||||||||||||||||||||||||||||||||
喃字 | 漢字 - 𡨸漢 | ||||||||||||||||||||||||||||||||||||||
壮语名称 | |||||||||||||||||||||||||||||||||||||||
壮语 | 倱[12] Sawgun | ||||||||||||||||||||||||||||||||||||||
朝鲜语名称 | |||||||||||||||||||||||||||||||||||||||
谚文 | 한자 | ||||||||||||||||||||||||||||||||||||||
汉字 | 漢字 | ||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
日语名称 | |||||||||||||||||||||||||||||||||||||||
汉字 | ⓘ | ||||||||||||||||||||||||||||||||||||||
|
汉字是世界历史上唯一被高度发展的语素文字[c],从基础的象形字和指事字发展出了现今以形声字和会意字为主流的六书系统,加上各类异体字和生僻字在所有字典中总共收录超过十万字。每个汉字在结构上由最基础的笔画进行二维排列组成,每个笔画不包含任何语素,相当于表音文字的字母;由笔画组成的偏旁部首是汉字内部结构上的最小语素单位,相当于一些表音文字的词根。除形声字外的汉字通常不具备音素,而形声字的声旁则带有一定表音功能,但因为其大多基于上古汉语的发音所以与现代标准汉语有一些差异。现今汉字通常使用额外独立的标音帮助阅读,在中华民国时期主要使用注音符号,但在台湾以外的地区(特别是中国大陆)主要使用罗马化的汉语拼音。虽然绝大多数汉字单字都拥有自身的独立含义,在语法上相当于英文的单词,但汉语词汇通常都是由两个以上单字组成的合成词。
汉字最初由中国上古时代的黄河文明华夏族所发明创制,其字体历经长久改进及演变。目前汉字确切出现的历史尚有争议,最早可追溯至约公元前2500年、早于夏朝的陶文,成熟于公元前1300年的商朝的甲骨文、金文以及西周的籀文,再到春秋战国的大篆,最终在秦朝统一天下后推行书同文被标准化为小篆,至汉朝发生隶变产生与现代汉字已形无大异的隶书,并于魏晋南北朝时期演变成楷书和派生自书法风格的行书和草书,在唐代因雕版印刷的出现成为今日手写的稳定标准——正楷,再发展到宋朝因活字印刷的普及变成至今出版物仍常用的宋体和仿宋体。现代汉字大体分为传统汉字(反称为繁体字)与简化字(简体字)两大标准,前者主要用于台湾以及香港、澳门等地区,后者则由中国大陆在1950年代制定并使用,后为新加坡、马来西亚等海外华人众多的国家采用。在非汉语体系中,日本将部分日文汉字自行作简后,成为现在的日本新字体;大韩民国也制定了官方的朝鲜汉字使用规范,而史上曾使用过汉字的朝鲜、越南、蒙古等国,汉字已不再具有官方地位。
汉字是人类迄今为止连续使用时间最长的主要书写系统,也是唯一广泛应用至今的音意文字——相比之下,其他曾兴盛一时的文明古国文字(如古埃及的圣书体、巴比伦的楔形文字、古印度的印度河文字与婆罗米文字等[d])都早已消亡,其余一些仍尚存的古典文字(如拉丁文、古希腊文和梵文)也早已沦落成为在宗教和学术领域之外无人日常使用的死语。中国历朝历代皆以汉字为主要书写文字,在中华治世的很长时期内还充当东亚地区唯一的国际通用文字,在19世纪和20世纪各国因中国孱弱而先后去中国化之前都是朝鲜半岛、越南、日本和琉球等国家实质上的书面规范文字。除了直接借用汉字外,古代东亚诸国还均有基于汉字偏旁的自创文字,如日文片假名和越语喃字等,但现今只有片假名仍被使用。如今汉字仍是中华人民共和国和新加坡的官方文字,此也是多数国际组织(例如联合国、上海合作组织等)的工作文字,加上这些国际组织在1971年联合国大会第2758号决议后出于“一个中国”政策均采用简体字为正式文字,以及21世纪初中国崛起等原因,所以现今多数国家的外国人如学习中文均以简体为主。大部分非港澳台的华人只在少数情况下(如研究中国历史、研究古代汉语、派驻港澳台地区等)才会学习繁体字,但“识繁写简”的提倡在除台湾以外的大中华地区已获得了不少支持[16]。
“汉字”一词最早出自元朝《金史》卷九本纪第九,“章宗一”:“十八年,封金源郡王。始习本朝语言小字,及汉字经书,以进士完颜匡、司经徐孝美等侍读”。《金史》也出现多次,如:“女真初无文字,及破辽,获契丹、汉人,始通契丹、汉字,于是诸子皆学之”、“长子布辉,识女真、契丹、汉字,善骑射”,将汉族文字、女真族文字、契丹族文字之间互相区别。
在清朝前期,政府官方文字是满文,当时已用“汉字”一词称呼中国汉族的传统文字。另外,日本人也称呼为“漢字”,以别于由汉字派生的假名。在李氏朝鲜,“漢字”则与训民正音(谚文)相区别。在越南,“漢字”则与由汉字派生的喃字相区别。在琉球国,“漢字”则与琉球国字头相区别。
传说汉字起源于仓颉造字。根据《淮南子》的记载,黄帝的右史官仓颉根据日月形状、鸟兽足印创造了文字,使而“天雨粟,鬼夜哭”。但从历史的角度看,复杂的汉字系统不可能由一人发明,仓颉应该是在汉字的搜集、整理、统一上作出了突出贡献,所以后来荀子在其《荀子·解蔽》中对此评论认为“好书者众矣,而仓颉独传者,壹也”。
文字发明前的口头知识在传播和积累中有明显缺点,原始人类使用了结绳、刻契、图画的方法辅助记事,后来用特征图形来简化、取代图画。当图形符号简化到一定程度,并形成与语言的特定对应时,原始文字就形成了。唐兰在《古文字学导论》中将古文字分成殷商系、西周系、六国系、秦系四系。
1994年,湖北杨家湾大溪文化遗址出土了大量陶器。在这些6000年前的陶器上发现了170多种符号,部分符号的特征与甲骨文很类似。此外,山东大汶口出土陶器上的象形符号、西安半坡彩陶上的半坡陶符以及河南贾湖遗址发现的距今8000年前的龟甲上的贾湖契刻符号等,都可能是原始文字形成中(或形成前)不同阶段的表现。但是,这些几何符号是否是文字、是否是汉字前身,这些仍是争议颇多的问题。
中华人民共和国考古学者王恩田与俞伟超等人认为,在龙山文化中发现的丁公陶文,是东夷系统的文字[17]。冯时认为,丁公陶文属于古彝文系统,殷商甲骨文中的人方以及西周所称的东夷,可能与彝族有关[18]。李象润、李浴洋等大多数学者认为,丁公陶文属于古汉字系统[19][20]。
从甲骨文到小篆,汉字经历了从钜细靡遗描绘意象的方式,往简化成容易纪录刻画的方向变迁,字形逐步脱离事物的具体形象。这一时期的汉字也称为古文字。[e]
商周时期的甲骨文已经是比较完整的文字体系。在已发现的4500多个甲骨文单字中,目前已能认出近2000字。[21]与甲骨文同期,青铜器上铸造的文字被称为金文或钟鼎文。西周时期的《散氏盘》、《毛公鼎》具备很高的史料和艺术价值。
春秋时代开始,各地诸侯相争,而原本周文化独尊的局面逐渐破坏,各地区文化开始有“本地化”的改变趋势。到了战国时代以后,这种情况更明显,在文字使用方面可以粗略依照地域分为五大系统:东方齐系、东北燕系、南方楚系、北方晋系和西方秦系文字,各系统的文字大体上相近,只有小部分文字有所差异,因此彼此文书往来并没有太大问题。[22]
秦始皇统一六国后,李斯在大篆(秦系文字)和六国古文的基础上,进行规范和整理,制定出了小篆作为秦朝的标准书写字体,统一了中国的文字,影响深远。小篆呈长方形,笔画圆润流畅。小篆解决了各国文字间出现大量异体字的情况,“书同文”的历史从此开始。文字的统一有力促进了不同语族间的文化传播,对中国统一以及东亚各国的文化交流发挥重要作用,为世界文字史所罕见。
汉字的发展经历了诸多演变。初期汉字系统的字数很少,以象形与指事的独体字为主,大量事物以通假字来表示,使文字表述存在较大歧义。例如先秦的“文”,兼有后世的新字“纹”的功能,表示一组成各种事务的规律、型式,不单指文字的“文”,也包含野兽身上的花“纹”、布上面的织“纹”、手指的指“纹”等数种含意。
除了“凹”、“凸”等特例直到唐朝才发明[23],大部分的象形指事字很早就已经定型,成为下个时代形声会意组字法的基础。
为了能更精准的表述,最早从小篆的时代开始一直到现代,因应随文明发展不断增加的新事物,以基本的象形指事字为基础,发展了形声、会意的组字法,以组合方式,来细化大量的字出来,使得文书上记载越来越精密,一直为造字主力。
例如:
有了造好的象形、指事的独体字为基础,使用形声、会意组字法随着文明的发展,组出表示新事物的合体字,这使得记载为文时,以前述的各种不同的船来说,只要看一单位的字形,我们就知道指的是哪一种“舟”,这样识别理解的效率非常高;反过来,以组词的方式就要看过前后文(或短或长)有其他哪些字才能判断正确的意义,较缺乏识别效率,但方便口语沟通(汉字同音字太多,听觉不易识别,解法一为组词,二为如韩日语数音为一字:“浬”发音为海里)。
汉字非为一时、一地、一人所造,是古人共同使用流传后的结果,受到多数人使用的字形则可流传至今,不受流通的字形则收藏在金石古典,或消失在历史洪流之中。因此,有的字会为了书写简便,省笔或速写渐渐成为另一个笔画少的字体,称为“汉字简化”;但是亦有为了使汉字能清晰识别或加强表音、表意,而将字形增加笔画或部件,使得该字能精准表达或是不易更动,称为“汉字繁化”。
“汉字繁化”的首要目的是加强汉字的识别度,避免混淆。如国字数字的大小写中,因“一、二、三”等数字笔画少,在书写后容易遭到篡改而影响金额、数量等利益,除若干数字是借用笔画较多的他字来代表数字,如以“壹”代“一”、“贰”代“二”、“伍”代“五”、“陆”代“六”、“玖”代“九”等外,另外则采增加笔画或部件而造出的汉字数字,如“一”有“弌”、“二”有“弍”、“三”有“弎、叄、叁(亦为参之代字后变体)”、“四”有“䦉”等,在原来的汉字上再加上其他笔画部件,而音义并未改变,是汉字繁化情形。“上”和“下”也是由古文“丄”(或“𠄞”)和“丅”(或“𠄟”)增笔繁化而成。
有些繁化现象,则为加强字理。例如为加强汉字标音功能而增加识音的声符。例如“齒”字,古字作“𠚕”,是口中有牙齿的象形。可能因不易识别字音而增加声符“止”作为标音,“𠚕”与“齒”的音和义是一样的。又如“鬥”字形是象二个散发动手打斗之人,可能因不易识别字音而增加声符“斗”、“豆”作为标音,繁化为“鬦”、“𩰒”[24],而“鬥”与“鬦”、“𩰒”的音和义是一样的。如此字义并无改变,繁化是为了能增加该字的标音功能。又例如替汉字增加义符,像“華”的古字并无上方的“艹”,本身是花朵的象形,后来增添义符“艹”表示类属。又如“舂”、“舊”等字所含有的“臼”字,甲骨文只作“凵”,像凹陷下去的形状,然而这形状也很容易被理解作地面凹陷下去;因此金文就在“凵”内加像米粒、谷粒的小点,增强它的象形成分,使“臼”义明显。
另外,亦有汉字造字的繁化现象。汉字作为古人识别万事万物的工具,然而人事物众多,汉字却有限,若将万事万物都造一字表示,则汉字数量过于庞大,如古时以马作为生活交通工具,为不同类型的马造出许多汉字,如“骧(xiāng、ㄒㄧㄤ):后右蹄白色的马”、“馵(zhù、ㄓㄨˋ):后左脚白色的马”、“𩨊(qián、ㄑㄧㄢˊ):四蹄全白的马”等字,大量增加马部专属的汉字,虽能特定、精准地专指某种马匹的意思,至今却鲜少使用。因此,一般仍是以一个汉字具备多项意义来运用,再由一个汉字沿伸出多个汉字,称为“汉字繁化”。而相同字义的汉字繁化,为汉字同源词中的“累增字”,繁化后产生不同意义者为汉字同源词中的“后起字”及“孳乳字”。
此处与“简体字”(“相同字义而笔画减省”的汉字)相对,故仅论述“相同字义而笔画增繁”的汉字,即“累增字”,指原字虽已造,然而该字借给他用后对于表达原事物的意义渐渐不清,故再增加表意部件来表达原字意义,如“止”本意为脚趾,后世多借用此字表示“停留”义,于是加“足”繁化为“趾”以示本义;“然”本意为燃烧,后多将其用作虚词,原义加“火”繁化为“燃”;“它”本意为蛇,但逐渐用作代词,本义则加“虫”部繁化为“蛇”。
汉字结构复杂,异体字非常多。自古以来已经有许多的俗字,其中有一些是为了书写简便,较之正字笔画减少的简俗字,但俗字多半是人民私下使用,正式的文书仍然是用繁体字。
近代,处于强势地位的西方文明开始进入东亚,整个汉字文化圈的各个国家中纷纷掀起了学习西方的思潮。当中有人坚持汉字的传统,亦有鼓吹放弃使用汉字。这些鼓吹放弃汉字运动的立论“汉字落后论”,内容为:跟西方拼音文字相比,汉字是繁琐笨拙的。尤其在近代个人电脑还没有普遍化以前,因为汉字不能透过打字机书写,而必须使用巨型的排版房的铅字,也就是说汉字已成为教育及信息化上的瓶颈。但是近代个人电脑普遍化以后,汉字能透过个人电脑输入,此种论述已经不具说服性。许多使用汉字国家以政治推行的方式,进行了不同程度的汉字简化,甚至还有完全拼音化的尝试。日本的使用假名方案以及汉语多种拼音方案的出现都是基于这种考量。
对于“汉字简化”,执行的對象有民间及官方二种。在民间百姓写字只为纪录或交流,不需要严格遵守笔画规范,因为汉字笔画多,在书写时会有连笔、省笔以求快速书写是古今皆有的现象,如将“貝”、“見”、“且”、“直”等有框中二横、三横的笔画直接以一直笔代替,这是民间汉字简化的情形,加上普遍在社会中流通,成为民间“手头字”、“俗字”;而官方的“汉字简化”则是由政府以公权力进行并颁布实施。
1935年8月21日,中华民国国民政府教育部颁布《第一批简体字表》,1936年2月被通令“暂缓推行”。
中华人民共和国政府1956年1月28日发布《汉字简化方案》,1964年5月审定通过《简化字总表》,客观上配合了不久之后的文化大革命“破四旧”政策。1986年经少量修订后重新发表,一直在中国大陆地区使用至今。1977年,曾公布《第二批汉字简化方案(草案)》,发布“二简字”,试用一段时间(约八年)后因为字形过于简陋且混乱而停用,并于1986年正式宣布废除。新加坡和马来西亚政府分别发布了同中国大陆《简化字总表》相同的简化字表。
日本政府在二战结束后也进行了汉字简化。1946年日本内阁公布了《当用汉字表》,收字1850个,其中对部分汉字进行了简化,有些简化后的汉字与中国大陆简化后的汉字一致,有些则有一定差异,部分为日本自创。
小篆笔画以曲线为主,后来逐步变得直线特征较多、更容易书写。到汉代,隶书取代小篆成为主要书体。汉代以后,汉字的书写方式逐步从木简和竹简,发展到在帛、纸上的毛笔书写。隶书的出现,奠定了现代汉字字形结构的基础,成为古今文字的分水岭。隶书进一步发展为楷书,到唐代,楷体完全定形。除端正的楷书外,亦同时派生出适于手写的行楷,并进一步派生出笔画更加简省而飞动的草书。楷书、行书、草书等书体都发展为艺术。古代印刷术发明后,明朝出现了用于印刷的宋体、民初出现仿宋体,宋体亦传入日本、韩国等使用汉字的国家,同样成为当地通行的汉字印刷体。现代手写体仍以楷体为标准(钢笔字),除了传统的宋体外,现代又陆续出现了笔画大小粗细均衡的黑体等字形。
在纸张被发明之前,汉字通常写在竹简上。因此,传统汉字书写方向为从上往下,从右往左的竖排格式。自二十世纪中叶,越来越多的汉语出版社开始使用横排发行刊物,尤其是有关科学技术的期刊(横排便于书写数学公式和化学表达式,并且便于穿插同为横排书写的西方字符)。
汉字的特点如下:
六书是汉字组字的基本原理,在周礼中就有提到了六书,只是没有说明具体内容。到了东汉,许慎在《说文解字》中,详细阐述了“六书”这个汉字构造原理:象形、指事、会意、形声、转注、假借。
这种造字法是依照物体的外貌特征来描绘出来,所谓“画成其物,随体诘诎”是也。如日、月、山、水等四个字,最早就是描绘日、月、山、水之图案,后来逐渐演化变成现在的造型。
这是指表现抽象事情的方法,所谓“各指其事以为之”是也。如人在其上写作“上”,人在其下写作“下”,有人称为抽象的象形。
这个造字法,是将两个字根组合起来,使派生出新的含意。如“日”和“月”组起来,就是日光加月光变成“明”。“人”字和“言”字合成“信”字,意思就是人过去所言;有信,就是这个人都很遵守自己说过的话。
此乃文字内以特定形状(字根)表特有的音。例如:胡,这个字也可为一个声符,结合不同的属性部件,表不同意义如蝴、湖、葫、瑚、醐等,而以同样的发音元素(也有的是完全同音),表达不同的事物。但形声字,也因古今语言音韵变迁,不少古代同类形声字在今天的官话已无共同音素了,如过、蜗。
六书中转注争议最大。汉代许慎《说文解字》中对转注的定义是:“建类一首,同意相受,考、老是也。”有人解释这句话的意思是:转注是用于两个字互为注释,彼此同义而不同形,如“老”、“考”二字。古时“考”可作“长寿”讲,“老”、“考”相通,意义一致,即所谓“老者考也,考者老也”。诗经的《大雅·棫朴》亦云:“周王寿考。”。苏轼的《屈原塔诗》也有“古人谁不死,何必较考折。”一语。其中的“考”皆“老”意。由于许慎对转注定义模糊,《说文解字》一书中除此例以外再无其他字被记载为转注字,因此,后代的文字学家针对许慎的前述的定义有许多解释和争议。其中包括“形转说、声转说、义转说”三类,只是这三种说法有人认为不够全面。当代古文字家林沄认为“转注”就是一个形体(字根)记录两个读音和意义完全不同的两个词,例如“帚和婦”与甲骨文中的“母和女”等等。亦有观点认为转注不是解释汉字字源必须的概念,中国著名文字学家、北京大学教授裘锡圭先生认为:“在今天研究汉字,根本不用去管转注这个术语。不讲转注,完全能够把汉字的构造讲清楚。……总之,我们完全没有必要卷入到无休无止的关于转注定义的争论中去。”[26]
这法简言之,借用一字去表达别的事物。一般来说,是有一个无法描述的新事物,就借用一个发音接近或是属性近似的字根,来表达这个新事物。例如:“又”,本来是指右手(最早可见于甲骨文)[27],但后来被假借当作别的意思。闻,本意是用耳朵听东西的意思。例如《大学‧第七章》中有“视而不见,听而不闻,食而不知其味”,但后来被假借成嗅觉的动词(不过也有人认为这是错用)。 (其中“转注”“假借”两项的意义,至今争讼不休,尚无令人满意的说法。)
总结以上古代六书,前两项,“造字法”也;中两项,“组字法”也;后两项,“用字法”也。这六个原理,是古代文字学学者归纳出来的字学理论。其所含汉字构成法则,是长期演化而成的,不是任何一个人独创的。
汉字有各种不同的书写方式,即有不同的字体;不同的字体,汉字的字体形状不一样。就算是同样的字体,也会因使用地区或使用者的不同而有字形上的差异。由于各地对字形的使用并没有统一,加之大陆地区使用“新字形”(与“旧字形”或“传承字形”相对)、日本使用“新字体”,便产生了许多差异。例如“刃”及“角”,在各地写法都不尽相同。又如“口”字,中华民国官方规定最后一横要写得超过上面的横折露出来一点,其他地区的写法却是不出头的。
规整的字体(如:楷书、宋体、隶书、篆书等)书写下的汉字是一种方块字,每个字占据同样的空间。汉字包括独体字和合体字,独体字不能分割,如“文”、“中”等;合体字由基础部件组合构成,占了汉字的90%以上。合体字的常见组合方式有:上下结构,如:“笑”、“尖”;左右结构,如:“词”、“科”;半包围结构,如:“同”、“趋”;全包围结构,如:“团”、“回”;复合结构,如:“赢”、“斑”等。汉字的基末级部件(或称基础部件)包括独体字、偏旁部首和其他非字部件。
所谓的“文字”,古代是两个东西,东汉许慎《说文解字》叙:“仓颉之初作书,盖依类象形,故为之文,其后形声相益,即谓之字。”;宋郑樵《象类书》云:“独体为文,合体为字”。这个文,现代的术语叫作字根部件,汉字是以意念的表达需要组合所需部件于一方块,合成千千万万的字。
郑樵的搜集,以形为主的文有三百三十个,称为形母,以声为主的文共有八百七十个,称为声母,合计一千二百文。
但郑樵的声母形母已经失传,近代周何教授依据中文信息交换码第二集的22394字的字集刷新的结果,得出汉字有869个声母及265个形母,共计1134个。形母:郑樵的搜集,有三百三十个。现代的研究整理,是265个。声母:郑樵的搜集,有八百七十个。现代的研究整理,是869个。
末级部件,再行拆解,即为汉字的最小构成单位:笔画。汉字的笔画离不开“点”、“横”、“竖”、“撇”、“捺”、“折”这六种基本笔画,另外还有“提”。以书法为例,对各种笔画都有多种不同写法,尤其以折的变化最多。
书写汉字时,笔画的走向和出现的先后次序,即“笔顺”,是比较固定的。基本规则是,从上到下,从左到右,先横后竖,先撇后捺,先外后内,先外后内再封口,先中间后两边。不同书写体汉字的笔顺可能有所差异。
以下举出几个各地字差异:
中国大陆 | 台湾 | 日本 | 朝韩 | 香港 |
---|---|---|---|---|
启啓 | 啟啓 | 啓 | 啓 | 啟 |
机機 | 機机 | 機 | 機 | 機 |
汉字是多种语言的共同书写体系,每个字代表一个音节或数个音节(视语言而定)。此外念法上在日语以及各汉语中,读音有“音读”和“训读”之分。
除了日本以外,其他汉字使用地区仍有少数字使用多音节字,如“浬”(海里)、“嗧”(加侖)、“瓩”(千瓦)、吋(英寸)、哩(英里)等。中华民国官方机构或民间均普遍使用,在大陆地区由于官方废除已不使用,但一般人也理解其意思。
最早的注音方法是读若法和直注法。读若法就是用音近的字来注音,许慎的说文解字就采用这种注音方法,如“埻,射臬也,读若准”。 直注法就是用另一个汉字来表明这个汉字的读音,如“女为说己者容”中,使用“说者曰悦”来进行注音。
以上两种方法都有先天上不完善的地方,有些字没有同音字或是同音字过于冷僻,这就难以发挥注音的作用,例如“襪音韈”等。
魏晋时期发展出了反切法,据传是受使用拼音文字的梵文影响。汉字的发音可以透过反切法进行标注,即用第一个字的声母和第二个字的韵母和声调合并来注音,使得所有汉字发音都有可能组合出来。如“练,朗甸切”,即“练”的发音是“朗”的声母与“甸”的韵母及声调所拼成。
近代以来,又发展出了仿汉字形式的注音符号及众多拉丁化拼音方式。注音符号一直都是中华民国官方教学的一部分,学生在学习汉字前先要求必需掌握。而目前大陆最为广泛使用的是汉语拼音。
由于汉字以本身表义为主,注音方面较为薄弱。这个特性使得上下千年的文献,不至于产生如同使用拼音文字的西方世界一样,用字措辞太悬殊的差距,但也造成推断古代声韵的难度,必须进行专门的汉语音韵学才能推测它们在上古汉语和中古汉语的发音。例如“庞”从“龙”而得声,但今日北京话前者读“páng・ㄆㄤˊ”,后者为“lóng・ㄌㄨㄥˊ”。
汉字是汉文组成的最小单位,大半可作单字词独立表义。随着语言发展,也出现了不少两字或多字词语,近代白话尤多,大致可分为三类:
不过,准确掌握其复杂的形式和用法也成为了学习汉语的一种负担。汉语中的常用词汇约几万条,总词汇量更有上百万条,数量的庞大可能使人却步。
在古文而言,使用单字比使用词语来得精确且有效率,例如朱邦复先生就提倡精确使用“字”的复古作为。
汉字由于是开放集合,数量并没有准确数字,日常所使用的汉字约为几千字。汉字数量的首次统计,见于汉朝许慎之《说文解字》中,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。
近代编集的字典收字量更高,如清朝的《康熙字典》收字47035个;台湾的《中文大字典》收字49905个;中国的《汉语大字典》(第一版)收字54678个,(第二版)收字60370个;最新的《中华字海》收字85568个,包含了《汉语大字典》、《中文大字典》、《康熙字典》和《说文解字》的所有收字;日本的《大汉和字典》收字48902个,另有附录1062个。21世纪已出版的字数最多者,为日本《今昔文字镜》,收字17万个(含汉字以外的文字)。
20世纪所新创的,还有第一批简化字后跟第二批的“二简字”,其中也包括社会上不少人造文字,不过二简字已被大陆官方废除,只有少数字在社会上流行,但现时并没有于计算机编码中被收录。
在汉字计算机编码标准中,目前最大的汉字编码是台湾的国家标准CNS11643,目前(4.0)共收录可考证之正简、日、韩语汉字共76,067个,在户政系统等官方机构普遍使用。台湾及港澳地区民间通用的大五码收录繁体汉字13053个。GB 18030是中华人民共和国现时最新的内码字集,总共收录70244个汉字;GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB 2312收录简体汉字6763个。而Unicode的中日韩统一表意文字基本字集则收录汉字20989个,另有七个扩展区、兼容补充、笔画和部首,总数亦高达94236个字。
初期的汉字系统字数不足,很多事物以通假字表示,使文字的表述存在较大歧义。为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段。过去在汉字组成基本因子(前述字根部件)研究与教学上落后,造成学习上必须逐字学习难以举一反三,汉字数量越多学习越困难,组建新字的风气日趋保守,也没有相应的信息处理技术,于是有许多单一的汉语义义是以词表示,例如常见的双字词,所以近代书写的发展多朝向造新词而非造新字。
年 | 字典名 | 汉字数 |
---|---|---|
100 | 说文解字 | 9,353 |
543 | 玉篇 | 12,158 |
601 | 切韵 | 16,917 |
997 | 龙龛手鉴 | 26,430 |
1011 | 广韵 | 26,194 |
1039 | 集韵 | 53,525 |
1208 | 五音篇海 | 54,595 |
1615 | 字汇 | 33,179 |
1675 | 正字通 | 33,440 |
1716 | 康熙字典 | 47,035 |
1916 | 中华大字典 | 48,000 |
1989 | 汉语大字典(第一版) | 54,678 |
1994 | 中华字海 | 85,568 |
2001 | 异体字字典(正式一版) | 105,982 |
2010 | 汉语大字典(第二版) | 60,370 |
2014 | 汉字海 | 102,447 |
2024 | 异体字字典(正式七版) | 106,303 |
汉字字位(或者叫“字素”、“字种”)是指将同一个字的不同写法(正体字、简体字、二简字、异体字、新字形、旧字形、讹字、缺笔字等)计算为同一个字,而不是分别计算为不同的字。例如:“够”和“夠”被视为同一个汉字的不同字位变体,而不是两个汉字。
依据中华民国教育部《异体字字典(正式七版)》,汉字正字为29,920字,异体字为74,381字,另有待考附录字2,002字,[30]但以上不含85字的和制汉字、255字的朝鲜汉字,[31]若加计则正字为30,260字。近代编纂的字典所收的字越来越多,实际上增加的绝大多数是字位变体而不是字位。例如,收字42,174个的《康熙字典》仅仅比收字85,568个的《中华字海》少1,000个左右的字位。[32]
国家语言文字工作委员会于1988年颁布的《现代汉语常用字表》收录3,500字(2,500个常用字,1,000个次常用字),适用于中国大陆。
2007年中国语言生活状况报告里,在10.07亿汉字的语料上,进行汉字使用情况数据调查,结果为:595字数的覆盖率达到80%,964字数的覆盖率达到90%,2394字数的覆盖率达到99%。[33]
山西大学计算机科学系受国家语言文字工作委员会委托,抽样统计200万字的材料,检测《现代汉语常用字表》收字的使用频率。结果是:2,500常用字覆盖率达97.97%,1,000次常用字覆盖率达98.49%,合计共3,500字覆盖率达99.48%。
日本内阁于1946年颁布《当用汉字》,收录1,850汉字;文部省国语审议会(今文部科学省文化审议会)于1981年颁布《常用汉字》,收录1,945汉字,取代《当用汉字》。依《常用汉字》,1006个汉字在小学教授,939个在中学中教授,共计1,945个。2010年11月30日追加196个新的常用汉字,并削除5个汉字,合计共2,136字。
自1975年,日本汉字能力检定协会推出日本汉字能力检定,测试日本人对汉字的掌握。直至2007年,共2,716,711人考核。成绩分为12级,由最高至最低排列分别为:1级、准1级、2级、准2级、3级、4级、5级、6级、7级、8级、9级、10级。
汉文教育用基础汉字是韩国教育中规定的标准汉字,皆为与正体字大致相同的韩文汉字。于1972年8月16日公布,数量约1,800字,在中高等院校进行普及。
最简单的汉字只有一笔画,但却不止一个字:除了“一”字以外,“乙”、“〇”、“丶”、“丨”、“亅”、“丿”、“乀”、“乁”、“𠄌”、“𠃋”、“𠃉”、“𠃊”、“乚”等都是汉字,而且都有各自的读音。
中文汉字中,笔画最多的汉字可能是“𰻞”,是一种面食的名称,此字至今习用,其不同写法的笔画数在54至71画之间不等。被传统辞典收录的笔画最多的汉字为《字汇补》、《汉语大字典》中由四个“龍”字组成的“𪚥”字,共64画;同样属于64划的字由四个“興”字组成的“𠔻”字,收入自《中文大辞典》;之后的是由四个“雷”字组成的“䨻”字,有52划,收录于《说文解字》。
另外,日本汉字“”收录于日本的TRON计划中,但此字无法提供有效证据表明其确有使用,因此状况存疑。该字由3个“龍”字和3个“雲”个组合而成,共有84划[34]。该字曾提交到当时的统一码扩展C区,编号为JMK66147,后因扩展C区的时间原因被安排到了扩展D区,之后因找不到合适证据被撤销[35]。最后提交到扩展G区并被接受。
现在,纯汉字仅仅被用于记录汉语。在日本,汉字和假名一起被用于记录日语。在韩国,除了纯汉字和纯谚文记录的朝鲜语,也有韩汉混用记录的朝鲜语。
其他一些民族在早期会将汉字单纯作为表音文字来记录他们的语言。如蒙古语最早的文献蒙古秘史即用纯汉字当做表音文字进行记录;日语最早的文献也是把汉字当做表音文字来记录日语,后来演变出万叶假名;朝鲜语最早的文献也是使用纯汉字当做表音文字来记录朝鲜语[36]。直到1443年,当时朝鲜王朝的世宗大王李祹发明了谚文,并在1446年颁布《训民正音》,使得整个朝鲜半岛从此开始使用谚文记录韩语。
汉字是世界上最主要的基础文字之一。在汉字的影响下,产生了许多文字。
契丹文、女真文、西夏文的创制受到了汉字的影响,它们跟汉字一样都是方块型文字,笔画形状也极其类似,其中契丹文、女真文也采用类似六书的造字法,西夏文则不采用六书造字法。但这些文字除个别字与汉字外形相同外,绝大部分字形都跟汉字不同,因此在Unicode中它们都是独立区块编码的。
古壮字(方块壮字)、古白字(方块白字)、古布依字(方块布依字)、字喃等文字可以说是汉字在其他语言中的扩展,因为它们很大一部分本身就是汉字(赋予新义),另一些则是用已有汉字偏旁组合构成新字,因此,这些文字的外观上与汉字很相似,在Unicode中与汉字一道编入汉字区。
女书是用于记录汉语的另一种文字,它们的造字法与六书有部分相似之处,但字的外观与汉字差异较大,Unicode中作为独立区块编码。
以上文字有些因各种原因而消亡,如今除专家学者外无几人能识。
日语的假名(仮名)是由汉字的草体、简笔演变而成的。朝鲜半岛使用的谚文在创制时深受汉字影响[37]。谚文和日语假名一样可以和汉字一同混写。
此外如蒙古文、满文、锡伯文等也是在汉字书写方式和书写工具的影响下,将从右向左书写的源自察合台文的书写方式改为从上到下书写,文字的结构也随之有所变化。
汉字是承载文化的重要工具,目前留有大量用汉字书写的典籍。不同的方言、甚至语言都使用汉字作为共同书写体系。在古代日本、朝鲜半岛、越南、琉球群岛,以及位于加里曼丹岛的兰芳共和国,汉字都曾是该国正式文书的唯一系统,因而汉字在历史上对文明的传播分享有着重要作用。
由于汉字和发声的联系不是非常密切,比较容易被其他民族所借用,如日本、朝鲜半岛和越南都曾经有过不会说汉语,单纯用汉字书写的历史阶段。汉字的这个特点对于维系一个文化圈—一个充满各种互相不能交流的方言群体的民族——发挥了主要的作用。
汉字对周边国家的文化产生过巨大的影响,形成了一个共同使用汉字的汉字文化圈,在日本、越南和朝鲜半岛、琉球群岛,汉字被融合成它们语言的文字“漢字(かんじ)”、“漢字(한자)”、“漢字(hán tự)”。直到现在,日语中仍然把汉字认为是书写体系的一部分。在朝鲜民主主义人民共和国和越南,已经完全不再使用汉字;在大韩民国,汉字的使用在近几十年来越来越少;但是由于朝鲜语/韩语中使用了大量的汉字词汇,并且重音现象严重,所以在需要严谨表达的场合(如法律条文)时仍然会使用汉字。虽然在通常情况下人名、公司机构名称等均使用韩文书写,不过大多数的人名、公司机构均有其对应的汉字名称。
汉字于公元3世纪经朝鲜半岛辗转传入日本。二战后日本开始限制汉字的数量和使用,颁布了《当用汉字表》及《人名用字表》等,其中简化了部分汉字(日本新字体),不过文学创作使用的汉字,并不在限制之列。日本除从中文中传入的汉字外,还创造和简化了一些汉字,如“辻”(十字路口)、“栃”、“峠”(山道)和“広”(广)、“転”(转)、“働”(劳动)等。
公元3世纪左右,汉字传入了朝鲜半岛,朝鲜语/韩语曾经完全使用汉字来书写。相传薛聪在当时发明了吏读,把朝鲜语用同音或同义的汉字来表示。例如:“乙”字被用来表示韩语中的后缀“-l(ᆯ)”。由于有不少发音都没有对应的汉字,所以朝鲜半岛的人民又运用组字法,把两个或多个汉字合组成为一个新的吏读字。相传后来的契丹文就是受到吏读字的影响。此外尚有乡札、口诀等以汉字表记朝鲜语的方法。
1443年,朝鲜世宗大王颁布《训民正音》,发明了谚文与汉字一起使用,但当中有不少部件仍然有昔日吏读字的痕迹。现在的大韩民国虽禁止在正式场合下使用汉字,并停止了在中小学中教授汉字(但是从2011年开始,大韩民国的李明博政府已经决定将汉字重新纳入中小学的课程里),不过汉字在民间仍在继续使用,且可以按照个人习惯书写,但是现在能写一笔漂亮汉字的韩国人越来越少。朝鲜民主主义人民共和国于1948年废除了汉字,仅保留了十几个汉字(参见废除汉字)。
公元1世纪汉字便传入了越南,越南语也曾完全使用汉字做为书写用文字,并在汉字的基础上创造了喃字,但是由于书写不便,汉字仍是主要的书写方式。
汉人许多日常生活、民俗文化都与汉字有关,例如:
汉字独特优美的结构,书写的主要工具——毛笔有多样的表现力,因而产生了中文独特的造型艺术——书法。而篆刻是和书法相关的艺术,用刀在石材上雕刻出篆字作为印章,尚有勒石、山壁题字等。
汉字历史上是不断在组新字的,目前的各种汉字并非同时定型于某一年代,而是应时代需要逐渐发展而来的。例如:“人”字在商朝就已出现,“凹”字和“凸”字则是在唐朝才出现的。
自十九世纪中叶后,亚洲和西方都发布了很多汉字拉丁化方案,如:
现在,汉语拼音方案是使用最广且被国际上广泛接受的汉字拉丁化方案,同时也是被联合国接受的汉字拉丁化方案。而威妥玛拼音历史悠久,至今仍用于中华民国(台湾)的人名、地名拼写。不过随着汉语拼音在国际上的普及,现在使用频率正在大幅度的减少。2008年9月16日,中华民国行政院跨部会议通过提案,放弃此前使用通用拼音的政策,改采汉语拼音为译音标准,并从2009年1月1日起实施[39][40][41],但旧护照姓名和部分地名、道路名称仍采用威妥玛拼音、邮政式拼音、国语罗马字、国音二式抑或通用拼音[42]。
汉字中存在许多异体字,它们的意义和读音完全相同,只是写法不同。异体字的产生部分是由于历史原因,有的则是人为造字,如“和、咊、龢”、“秋、秌、龝、𥤛”等。
台湾也有使用所谓的异体字,例如“臺”与“台”、“體”与“体”以及“學”与“学”等等。
中国大陆于1956年公布整理异体字表,废除了大量异体字,但后来因为各种原因恢复了部分异体字。如“於”曾被当作“于”的异体字废除掉,但因为姓氏中“于”和“於”同时存在,不宜混为一谈,所以在1988年发表的《现代汉语通用字表》中又恢复成为规范字。另外,不同地区对异体字的取舍有所不同,例如韩国就以汉字各种异体字中最早出现的样式为标准写法。所以,在韩语汉字的标准中,取“甛”而不取“甜”、取“幇”而不取“幫”、取“畵”而不取“畫”。
由于英文文字是由26个字母排列组合而成的文字,因此可以简化输入步骤;相比较之下汉字则不能如此,从字形上汉字虽然可以拆解成不同的部分,但是被分成的部首或偏旁数量过多,这样不但不能达到简化输入的目的,反而显得更为繁琐。于是从汉字字音上去考虑,汉字输入被分成少量的语音元素组合排列,反而可以达到简化输入的步骤。因为是语音输入对汉字的读音必须清楚,某些生僻字或不知道汉字发音的则会很困难,这在一定程度上限制了汉字的输入。
由于打字机键盘是为欧美文字设计的,在设计时本身没有考虑汉字输入的问题,输入汉字往往比输入拼音文字困难。汉字没有经过中文打字机的普及,直接进入了电脑中文信息处理阶段。在电脑发明初期曾引起汉字能否适应电脑时代的问题,支持汉字拉丁化的学者甚至以此为理据。
随着各种中文输入法的出现,汉字的计算机输入、存储、输出技术得到了基本解决,大大提高了中文写作、出版、信息检索等的效率。目前中文输入法有上千种之多,主要包括表音输入和表形输入两类,也有两者兼之的。汉字的语音输入、手写识别和光学字符识别(OCR)技术也已得到广泛应用。
如收录数千字的GB 2312(中国大陆)、大五码及中文标准交换码(台湾)、HKSCS(香港)、JIS(日本)、KS X 1001(韩国)、KPS 9566(朝鲜),以及收录两万多字的GBK(中国大陆)、国际标准统一码、通用字符集等等。在这个过程中,因为技术及其他种种因素,在收录字数,及收录字体等方面或做不同层次的调整。
中国政府为了解决邮政户籍整理等的用字需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000,共收汉字27484个。后又发布了GB 18030-2005再次进行扩充,添加了42760个汉字。
为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。
随着计算机技术的不断发展,汉字的输入方式越来越多样化、速度越来越快,并且这项技术仍在不断提高。
汉字词汇更新的实例
在化学领域,尤其需要大量描绘微世界的新词,因此化学学科汉字更新的情况最为显著。 化学名词曾用了“形声、会意造字法”,造了一系列的新字,很多是将两个字的字根组合,以表示新的意义的字,其发音也是原来两字发音之组合(反切法)。例如:
除了中国使用的简化字外,日本与韩国也分别对汉字进行了简化。在台湾,官方用字或正式文书必须使用繁体字;在手写的非正式文书中,有些人会使用行书、草书或民间的俗写,例如:“台”(臺)、“门”(門)、“与”(與);但是,不会使用简化字中较难识别字意的合并字,例如:“里”(裡、裏)、“后”(後)、“余”(餘)、“制”(製)、“面”(麵、麪)、“谷”(穀)、“复”(復、複)、“台”(臺、檯、颱),皆不简化。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.