中文分词算法:从机械匹配到统计模型及分层隐马尔可夫模型
1. 机械匹配分词及N - 最短路径法
在中文信息处理中,单纯使用机械匹配法进行中文分词存在一定局限。基于机械匹配分词,利用各种语言信息进行歧义校正,是突破机械匹配法局限性的重要手段。
N - 最短路径法是对最短路径法的改进。其基本思想是,基于现有的词典,将每个句子分解为一个加权有向无环图。图中每个字符代表一个节点,边代表可能的分词,边的起点是词的第一个字符,终点是词尾的下一个字符,这里用词的频率表示边的权重,最终结果是在上述加权有向无环图中找到权重总和最大的N条路径。
模型建立步骤如下:
假设字符串S = c1, c2, …, cn,其中ci (i = 1, 2, …, n) 为单个字符,S的长度为n,n > 1。建立一个有n + 1个节点的有向无环图G,节点编号依次为V0, V1, V2, …, Vn。
G的所有可能的词边通过以下两个步骤建立:
- 步骤1:在相邻节点Vk和Vk + 1之间建立有向边 V,该边对应的词默认为ck (k = < Vi step 1 j2i1, cj (0 < i ≤ j) 是一个词;然后,在节点Vi−1和Vj之间建立有向边。
假设词是相互独立的,引入词ai的出现概率P(ai),得到基于N - 最短路径法的一元统计模型。根据大数定律,当样本数据量很大时,样本的频率接近其概率值,所以所有P(ai)的最大似然估计等于词频,进而得到相关公式。
根据文献中公式的推导,最终得到边长度公式:
(此处原文档未给出具体公式内容,若有具体公式可补充在此)
其中ki是ai在训练样本中出现的次数。
超级会员免费看
订阅专栏 解锁全文

108

被折叠的 条评论
为什么被折叠?



