中文分词技术

最新推荐文章于 2025-05-19 11:06:31 发布

原创

最新推荐文章于 2025-05-19 11:06:31 发布 · 3.4k 阅读

·

0

·

标签

#自然语言 #语音识别

本文详细介绍了中文分词技术，包括查字典法、统计语言模型分词和基于规则的分词方法，讨论了每种方法的优缺点，并指出中文分词面临的歧义处理和未登录词识别两大挑战。

中文分词技术

转载请表明出处：http://blog.csdn.net/u012637501 (嵌入式_小J的天空)

一、中文分词技术

1.中文分词：上一篇博文我们谈到利用统计语言模型进行自然语言处理，而这些语言模型主要是建立在词的基础上的，因为词是表达语义的最小单位。对于西方拼音来讲，词之间有明确的分界符，统计和使用语言模型非常直接,如I love China very much. 但是对于中文来说，由于词之间没有明确的分界符，因此，首先需要对句子进行分词，才能做进一步的自然语言处理。

2.分词的一致性问题

语料库关于分词的一致性大致包含两方面的内容：一致性１：在保持语义同一性的前提下，一个结构体在语料库中的分合是否始终一致（例如：“猪肉”是否始终保持一个整体，或者始终分开）；一致性２：与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致（例如：“牛肉”与“猪肉”的结构类型完全相同，“牛肉”是否跟随了“猪肉”的分合状态）。

3.词的颗粒度和层次

二、中文分词方法

1.查字典法

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。