中文分词技术
转载请表明出处:http://blog.csdn.net/u012637501
(嵌入式_小J的天空)
一、中文分词技术
1.中文分词
:上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些
语言模型主要是建立在词的基础上
的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I love China very much.
但是对于中文来说,由于词之间没有明确的分界符,因此,首先需要对句子进行分词,才能做进一步的自然语言处理。
2.分词的一致性问题
语料库关于分词的一致性大致包含两方面的内容:一致性1:在保持语义同一性的前提下,一个结构体在语料库中的分合是否始终一致(例如:“猪肉”是否始终保持一个整体,或者始终分开);一致性2:与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致(例如:“牛肉”与“猪肉”的结构类型完全相同,“牛肉”是否跟随了“猪肉”的分合状态)。
3.词的颗粒度和层次
1.查字典法
二、中文分词方法

本文详细介绍了中文分词技术,包括查字典法、统计语言模型分词和基于规则的分词方法,讨论了每种方法的优缺点,并指出中文分词面临的歧义处理和未登录词识别两大挑战。

1659

被折叠的 条评论
为什么被折叠?



