Pytorch学习 -文本预处理-马尔可夫假设

本文探讨了马尔可夫链在自然语言处理中的应用,包括一元、二元和三元语法的概率计算,以及马尔可夫假设在实际场景下遇到的问题,如参数空间和数据稀疏性挑战。

伯禹学习平台学习

'[^a-z]+' #正则表达式

马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链(Markov chain of order n)。

如果n=1,那么有P(w3|w1,w2)=P(w3|w2)。

P(w_{1},w_{2},..,,w_{T})=\prod_{t=1}^{T}P(w_{t}|w_{t-(n-1)},...,w_{n-1}).

当n分别为1、2和3时,我们将其分别称作一元语法(unigram)、二元语法(bigram)和三元语法(trigram)。例如,长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为

 

P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).

当n较小时,n元语法往往并不准确。例如,在一元语法中,由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而,当n较大时,n元语法需要计算并存储大量的词频和多词相邻频率。

齐夫定律:单词排名与单词词频排名成反比?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值