伯禹学习平台学习
'[^a-z]+' #正则表达式
马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链(Markov chain of order n)。
如果n=1,那么有
当n分别为1、2和3时,我们将其分别称作一元语法(unigram)、二元语法(bigram)和三元语法(trigram)。例如,长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为
P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),
P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),
P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).
当n较小时,n元语法往往并不准确。例如,在一元语法中,由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而,当n较大时,n元语法需要计算并存储大量的词频和多词相邻频率。
齐夫定律:单词排名与单词词频排名成反比?
在

本文探讨了马尔可夫链在自然语言处理中的应用,包括一元、二元和三元语法的概率计算,以及马尔可夫假设在实际场景下遇到的问题,如参数空间和数据稀疏性挑战。

4681

被折叠的 条评论
为什么被折叠?



