中文分词书写(Chinese word-segmented writing),也称分词连写或词式书写,是指像英文等拼音文字一样,按词书写,在词与词之间留出空格[1]。例如以下的句子在词和词之间加上空格,就是中文分词书写的句子。
- 乒乓 球拍 卖完了。
分词书写可提高汉语阅读和信息处理的效率。例如:传统写法“乒乓球拍卖完了。”有歧义,用分词书写可根据需要明确表达为“乒乓 球拍 卖完了。”或“乒乓球 拍卖 完了。”[2]
历史
中文和英文都曾经没有标点没有分词书写。现在英文等拉丁文字两者都用上了。中文在1900年代初五四新文化运动前后引入了标点符号,但是单词之间仍然没有边界记号,没有分开来写。[3]
在1950年代,中国语言学家曾讨论过采用分词书写的建议,但没有获得通过。 [3]
1987年,陈立为在国际中文信息处理会议上再次提出中文分词书写的想法。 [4]
第一篇分词书写的中文文章的出现不晚于1998年,当时在中国的〈中文信息学报〉中发表了题为《也谈汉语书面语的分词问题——分词连写十大好处》的论文。[5] 全文(共七页)分词连写,其摘要如下:
摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。
2018年,英文维基学院发表了一篇题为"Word segmentation of Hanzi" (汉字分词)的短文,其中文版全文分词如下:[6]
历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。
第一本分词书写的书籍是2000年出版的《语言 理论》。 [7]
汉字分词书写
中文通常是用汉字书写的,所以中文分词书写主要是指汉字文本的分词书写。以下介绍分词书写的一些方法或依据。
分词书写的主要目的是准确、清楚地表达作者的意思。 例如,传统的非分词句子 “美国会反对。” 有两种可能的含意,分词书写可根据需要清楚表达为 “ 美国 会 反对。”(The US will oppose.) 或 “ 美 国会 反对。” (The US Congress opposed)。又如,“昨天我应用钢笔签名。”也有歧义,用分词书写可以表达为“昨天 我 应用 钢笔 签名。(做了) ”和“昨天 我 应 用 钢笔 签名。 (可能没做)”。这种区别对法庭来说可能很重要。 作者应该根据自己的意思选择正确的分词方式,消除歧义。 [3]
如果不能确定某个字串是否为合法单词,作者可以在可靠的汉语词典或分词语料库中检查其是否存在,例如现代汉语词典、重编国语辞典修订本[8]和平衡语料库[9]等。 或根据词汇、词法和句法知识检查它是否是语言学上合格的单词。 [10]
两个词之间的间距设定为汉字宽度的一半比较合适,小于两行之间的距离。 由于汉语词的平均长度约为2个字,如果词间空格是一个汉字的宽度,且大于行间距离,则页面上的文字行会显得分散,不紧凑。 更理想的做法是由电脑根据上下文环境做智能的动态调整,类似于MS Word的排版功能。[13]
英文是用大写字母来标记。汉字文本的专有名词也应该有标记,例如用底线。[3] 事实上,某些中文圣经(例如现代标点和合本)已经这样做了。例如:
7. 耶和華神用地上的塵土造人,將生氣吹在他鼻孔裏,他就成了有靈的活人,名叫亞當。8. 耶和華神在東方的伊甸立了一個園子,把所造的人安置在那裏。(創世記 2:7-8) [14]
拼音分词书写
拼音通常用来给汉字注音,但是在初级汉语教学或对外汉语教学中有时也用拼音直接表达汉语,所以拼音的书写也是一种中文书写,同时还可以是汉字分词书写的重要参考。[15] 《汉语拼音正字法基本规则》是汉语拼音书写和分词的中国国家标准。其主要内容《5. 总则》摘录如下:[16]
5.1 拼写普通话基本上以词为书写单位。例如: rén (人), pǎo (跑), hǎo (好), fúróng (芙蓉), māma (妈妈), diànshìjī (电视机), túshūguǎn (图书馆)。
5.2 表示一个整体概念的双音节和三音节结构,连写。例如: quánguó (全国), zǒulái (走来), dǎnxiǎo (胆小), duìbuqǐ (对不起), chīdexiāo (吃得消)。
5.3 四音节及四音节以上表示一个整体概念的名称,按词或语节(词语内部由语音停顿而划分成的片段)分写,不能按词或语节划分的,全都连写。例如: wúfèng gāngguǎn (无缝 钢管), huánjìng bǎohù gūihuà (环境 保护 规划), jīngtǐguǎn gōnglǜ fàngdàqì (晶體管 功率 放大器), yánjiūshēngyuàn (研究生院), hóngshízìhuì (红十字会)。
5.4 单音节词重叠,连写;双音节词重叠,分写。例如: rénrén (人人), niánnián (年年), yánjiū yánjiū (研究 研究), xuěbái xuěbái (雪白 雪白), tōnghóng tōnghóng (通红 通红)。
重叠并列即AABB式结构,连写。例如: láilaiwǎngwǎng (来来往往), qīngqīngchǔchǔ (清清楚楚), fāngfāngmiànmiàn (方方面面)。
5.5 单音节前附成分(副、总、非、反、超、老、阿、可、无、半等)或单音节后附成分(子、儿、头、性、者、员、家、手、化、们等)与其他词语,连写。例如: fùbùzhǎng (副部长), zǒnggōngchéngshī (总工程师), fùzǒnggōngchéngshī (副总工程师), zhuōzi (桌子), háizimen (孩子们)。
5.6 为了便于阅读和理解,某些并列的词、语素之间或某些缩略语当中可用连接号。例如: bā-jiǔ tiān (八-九 天), rén-jī duìhuà (人-机 对话), Jīng-Zàng Gāosù Gōnglù (京-藏 高速 公路)。
此外,还有一些其他方面的规则,请见该规范的原文。[17]
下面是一个较长的分词书写例子。联合国《世界人权宣言》中文版第一条 :[18]
人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。
其拼音可分词连写为
Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.
相应的,其汉字文本分词书写形式是
人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。
英文原文:[19]
All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.
评论
中文分词书写的优点包括:[20]
- 有利于语言表达和理解。
- 有利于汉语教学。
- 有利于语言学研究。
- 有利于汉语词汇的定义和应用。
- 有利于电脑自然语言处理。
- 有利于拼音与汉字的自动转换。
- 有利于简繁体汉字转换。
- 有利于校对文章、防止错字。
- 有利于文件排版。
- 有利于软件的汉化或西化。
- 将分词书写的文本自动正确转换为非分词形式容易,反之则难。
- 等等。
中文分词书写的缺点包括:[21]
- 需要(大约1/4)更多的(纸面)空间。
- 人们还不习惯这种书写方式。
- 需要辨识每个单词。
- 句子看起来不像没有空格的传统格式那么整齐。
- 大多数中文单词都是一两个字长,即使不使用边界标记,辨识也不困难。
计算机自动分词
在分词书写普及之前,可用计算机技术来进行汉语文本自动分词。 目前自动分词的准确度已达到百分之九十几, 但仍需要人工校对, 而且永远不会像作者亲自分词那么可靠。 [22] [23]
参见
参考资料
外部链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.