概率图模型

本文介绍了概率图模型的两类主要类型:有向图模型(如隐马尔科夫模型HMM)和无向图模型(如马尔可夫随机场MRF)。重点讨论了HMM的三要素、应用以及算法,接着阐述了概率无向图和最大团的概念,最后讲解了条件随机场(CRF)的定义、应用场景以及与HMM的关系。CRF作为条件概率的计算方式,提供了更灵活的特征函数,比HMM具有更强的建模能力。

概率图模型

概率图模型——用图来表示变量间的相关关系的概率模型

分类:

概率图模型根据边的性质的不同可分为两类:

有向图模型或贝叶斯网:使用有向无环图表示变量间的依赖关系

无向图模型或马尔可夫网:使用无向图表示变量间的依赖关系

 

一、隐马尔科夫模型

隐马尔科夫模型——结构最简单的动态贝叶斯网(无后效性)

主要用于时序的数据建模,在语音识别,自然语言处理等领域有广泛应用

模型:对一个状态,不能直接观察其状态值,但是可以观测到状态的生成的观测状态的值。

三要素构成一个时序的状态转移链——马尔可夫链

要素:

无后效性

状态,观测

状态转移矩阵

状态观测矩阵

初始状态

————确定了一个马尔可夫模型

 

可以认为是三种问题的抽象:

1)已知模型和观测序列,求这一模型下这一观测序列出现的概率

——思路:求出所有观测的情况,就可以计算出当前观测出现的概率(计算量巨大,不可行)

前向算法、后向算法

2)已知观测序列,求模型参数

——两种情况,--1训练数据包含状态——监督学习,最大似然估计直接可求;--2不包含状态,——无监督学习,认为状态是隐函数——EM算法——Baum-Welch算法

3)已知模型参数和观测序列,求最大概率的状态序列——预测

——近似算法,根据状态观测矩阵,直接求在观测下对应的最可能的状态

——维比特算法(动态规划的思路)

——思路:对于观测序列为1--T的时间的序列,我们利用动态规划的思路,预测1--T的状态,其子问题就是1--i的观测,预测1--i的状态,就可以从1开始计算逐步分解的计算,具体思路还需要细想


 

二、概率无向图

概率无向图,即马尔可夫随机场

概率无向图,就是用图的概念表示变量之间的概率关系,并且满足马尔可夫性

图:

节点是随机变量

边是随机变量的关系

 

团:可以认为是有关系的节点的集合,就是概率上的关系

最大团,可以理解为能看到的构成相互关系的最大子图结构

概率无向图模型的因子分解:表示为其最大团上的随机变量的函数的乘积的形式

最大团,可以理解为一个最大的关系的集合,团内的变量之间有边相连接,所以是有关系的

 

三、条件随机场

条件随机场,定义为,设X与Y为随机变量,X给定,P(Y|X),若随机变量Y构成一个由无向图表示的马尔可夫随机场,则称P(Y|X)为条件随机场

定义的理解:

1)变量Y构成一个无向图表示的马尔可夫随机场(首先随机变量Y之间构成图)

2)变量X给定,称P(Y|X)为条件随机场

——条件随机场的条件代表的是条件概率的条件,这是与普通无向图的区别,普通的概率图的概率代表的是联合概率分布

条件随机场的名字应该是条件概率+随机场的组合,本质上还是一个马尔可夫随机场

Y的无向图关系,一般应该是序列之间的关系

 

例子:

线性链条件随机场——标注问题

X为输入变量,表示需要标志的观测序列,Y为输出变量,表示标记,

条件概率模型P(Y|X)

——其中Y是随机变量,Y之间存在着边构成图的结构(即链)

——若Y之间无关系,就是普通的标注问题

 

条件随机场的参数化形式:

条件随机场,就是P(Y|X),所以,条件随机场中图的关系,就是可以代表条件概率P(Y|X)

——分两种:节点和边的关系(转移特征),节点X和Y的关系(状态特征)

 

3)条件随机场和马尔可夫模型一样,有三个问题


 


个人理解:

条件随机场的参数化形式:

随机场是利用图表示的关系,关系就是约束条件,约束就是特征,对这些特征做加权等处理,就能在一定程度上代表图表示的关系

 

条件随机场的理解

参考:如何轻松愉快地理解条件随机场(CRF)?

来自 <https://www.jianshu.com/p/55755fc649b1>

 

看《统计学习方法》中的CRF章节

完全不能理解模型的意义和用途,看了这一篇博客,很好的理解了CRF,

个人理解

其实CRF就是概率图中,关于条件概率的计算的方式

因为概率图本身的边就表示节点之间的概率关系,而团就是表示关系的实体,将团所表示的概率关系叫做特征函数,则

对于一个标注问题,一个输入的序列,通过各种特征函数的计算,最后得到的结果,就是标注的依据,就比如一个关系概率图,输入对图中的概率关系满足的越多,则其越是符合我们的要求,就是我们想要的

《统计学习方法》中关于CRF的参数构造的方式,就可以理解为CRF中的特征函数,即概率约束做加权求和,不同的特征在不同的情况下所占的比例不同,做归一化,然后得到的概率函数

 

条件随机场与隐马尔科夫模型的关系

在HMM中,定义了状态转移矩阵和观测概率矩阵,实际上就是概率图中的部分关系,但是HMM的约束条件较强,只考虑前一个状态的关系,是一种特殊情况

每一个HMM模型都等价于某个CRF

CRF可以定义数量更多,种类更丰富的特征函数。HMM模型具有天然具有局部性,就是说,在HMM模型中,当前的单词只依赖于当前的标签,当前的标签只依赖于前一个标签。

CRF可以使用任意的权重 将对数HMM模型看做CRF时,特征函数的权重由于是log形式的概率,所以都是小于等于0的,而且概率还要满足相应的限制。

但在CRF中,每个特征函数的权重可以是任意值,没有这些限制

 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值