16、中文分词算法：从机械匹配到统计模型及分层隐马尔可夫模型

最新推荐文章于 2026-06-15 09:19:34 发布

原创最新推荐文章于 2026-06-15 09:19:34 发布 · 126 阅读

·

0

·

标签

#中文分词 # 机械匹配法 # 统计语言模型

自然语言处理实战精讲专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

中文分词算法：从机械匹配到统计模型及分层隐马尔可夫模型

1. 机械匹配分词及N - 最短路径法

在中文信息处理中，单纯使用机械匹配法进行中文分词存在一定局限。基于机械匹配分词，利用各种语言信息进行歧义校正，是突破机械匹配法局限性的重要手段。

N - 最短路径法是对最短路径法的改进。其基本思想是，基于现有的词典，将每个句子分解为一个加权有向无环图。图中每个字符代表一个节点，边代表可能的分词，边的起点是词的第一个字符，终点是词尾的下一个字符，这里用词的频率表示边的权重，最终结果是在上述加权有向无环图中找到权重总和最大的N条路径。

模型建立步骤如下：
假设字符串S = c1, c2, …, cn，其中ci (i = 1, 2, …, n) 为单个字符，S的长度为n，n > 1。建立一个有n + 1个节点的有向无环图G，节点编号依次为V0, V1, V2, …, Vn。
G的所有可能的词边通过以下两个步骤建立：
- 步骤1：在相邻节点Vk和Vk + 1之间建立有向边 V，该边对应的词默认为ck (k = < Vi step 1 j2i1, cj (0 < i ≤ j) 是一个词；然后，在节点Vi−1和Vj之间建立有向边。
假设词是相互独立的，引入词ai的出现概率P(ai)，得到基于N - 最短路径法的一元统计模型。根据大数定律，当样本数据量很大时，样本的频率接近其概率值，所以所有P(ai)的最大似然估计等于词频，进而得到相关公式。

根据文献中公式的推导，最终得到边长度公式：
（此处原文档未给出具体公式内容，若有具体公式可补充在此）
其中ki是ai在训练样本中出现的次数。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。