概率潜在语义分析(probabilistic latent semantic analysis, PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督方法。 模型最大的特点是用隐变量表示话题,整个模型表示文本生成话题,话题生成单词,从而得到单词—文本共现数据的过程。 假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。潜在语义分析基于非概率模型,概率潜在语义分析基于概率模型。
生成模型
假设有M个单词集合 W = { w 1 , w 2 . … , w M } W=\{w_1,w_2.\ldots,w_M\} W={ w1,w2.…,wM},N个文本集合 D = { d 1 , d 2 , … , d N } D=\{d_1,d_2,\ldots,d_N\} D={ d1,d2,…,dN},K个话题集合 Z = { z 1 , z 2 , … , z K } Z=\{z_1,z_2,\ldots,z_K\} Z={ z1,z2,…,zK},概率分布 P ( d ) P(d) P(d)表示生成文本 d d d 的概率, P ( z ∣ d ) P(z|d) P(z∣d) 表示文本d生成话题 z z z 的概率, P ( w ∣ z ) P(w|z) P(w∣z) 表示话题 z z z 生成单词 w w w的概率。
生成模型步骤如下:
(1)依据概率分布 P ( d ) P(d) P(d) ,从文本集合中随机选取一个文本 d d d,共生成 N N N个文本。
(2)在给定文本 d d d 的条件下,依据条件概率分布 P ( z ∣ d ) P(z|d) P(z∣d) ,从话题集合中随机选取一个话题 z z z,共生成 L L L个话题(L是指文本长度)。
(3)在给定话题 z z z的条件下,依据条件概率分布 P ( w ∣ z ) P(w|z) P(w∣z) ,从单词集合中随机选取一个单词 w w w。
此过程即为概率潜在语义分析的生成模型,生成模型是有向图模型,如下所示:

图中空心圆表示隐变量,方框内的数字表示重复的次数。
从数据生成的过程可以推出,单词—文本共现数据 T T T的生成概率为所有的单词—文本对 ( w , d ) (w,d) (w,d) 的生成概率的乘积:
P ( T ) = ∏ w , d P ( w , d ) n ( w , d ) P(T) = \prod_{w,d} P(w,d)^{n(w,d)} P(T)=w,d∏P(w,d)n(w,d)
其中, n ( w , d ) n(w,d) n(w,d) 表示 ( w , d ) (w,d) (w,d) 出现的次数。每个单词—文本对 ( w , d ) (w,d) (w,d) 的生成概率如下:
P ( w , d ) = P ( d ) P ( w ∣ d ) = P ( d ) ∑ z P ( w , z ∣ d ) = P ( d ) ∑ z P ( z ∣ d ) P ( w ∣ z ) \begin{aligned} P(w,d) & =P(d)P(w|d) \\ &= P(d)\sum_{z} P(w,z|d) \\ & = P(d)\sum_{z} P(z|d)P(w|z) \end{aligned} P(w,d)=P(d)P(w∣d)=P(d)z∑P(w,z∣d)=P(d)z∑P(z∣d)P(w∣z)
这就是生成模型的定义。
共现模型
共现模型与生成模型的不同在于: 每个单词—文本对 ( w , d ) (w,d)

本文介绍概率潜在语义分析(PLSA),一种用于文本集合话题分析的无监督概率生成模型。PLSA通过隐变量表示话题,揭示文本生成过程中的单词—文本共现数据模式。文章对比了生成模型与共现模型的区别,阐述了模型参数优化及与LSA的关系。
详解&spm=1001.2101.3001.5002&articleId=106317068&d=1&t=3&u=f6c9041be53649b7800cd7acd833b1be)
1228

被折叠的 条评论
为什么被折叠?



