什么是汉语分词?

来源:百度知道 编辑:UC知道 时间:2024/06/14 03:14:14

分词的提出和定义
汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题
添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词
~~~~~~~~~~~~~~~~~~~~~~~
分词的意义
正确的机器自动分词是正确的中文信息处理的基础
~~~~~~~~~~~~~~~~~~~~~~~
文本检索
和服 | 务 | 于三日后裁制完毕,并呈送将军府中。
王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。
文语转换
他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha)
行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha)
~~~~~~~~~~~~~~~~~~~~~~~
分词面临的主要难题
如何面向大规模开放应用是汉语分词研究亟待解决的主要问题
如何识别未登录词
如何低廉地获取语言学知识
词语边界歧义处理
实时性应用中的效率问题
~~~~~~~~~~~~~~~~~~~~~~~
分词歧义
交集型切分歧义
组合型切分歧义
~~~~~~~~~~~~~~~~~~~~~~~
分词规范
词是自然语言的一种客观存在
汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异
汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理
《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁
~~~~~~~~~~~~~~~~~~~~~~~
具体的分词标准实例
二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素
四字成语一律为分词单位:胸有成竹 欣欣向荣
四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见
五字和五字以上的谚语、格