概率潜在语义分析（ PLSA）详解

最新推荐文章于 2024-12-05 10:50:42 发布

原创

最新推荐文章于 2024-12-05 10:50:42 发布 · 3.5k 阅读

标签

#算法 #nlp #数据挖掘 #机器学习

本文介绍概率潜在语义分析（PLSA），一种用于文本集合话题分析的无监督概率生成模型。PLSA通过隐变量表示话题，揭示文本生成过程中的单词—文本共现数据模式。文章对比了生成模型与共现模型的区别，阐述了模型参数优化及与LSA的关系。

文章目录

生成模型
共现模型
模型性质
- 模型参数
- 与LSA关系
PLSA实现算法

概率潜在语义分析（probabilistic latent semantic analysis, PLSA）是一种利用概率生成模型对文本集合进行话题分析的无监督方法。 模型最大的特点是用隐变量表示话题，整个模型表示文本生成话题，话题生成单词，从而得到单词—文本共现数据的过程。 假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。潜在语义分析基于非概率模型，概率潜在语义分析基于概率模型。

生成模型

假设有M个单词集合 $W=\{w_1,w_2.\ldots,w_M\}$ ，N个文本集合 $D=\{d_1,d_2,\ldots,d_N\}$ ，K个话题集合 $Z=\{z_1,z_2,\ldots,z_K\}$ ，概率分布 $P (d)$ 表示生成文本 $d$ 的概率， $P (z ∣ d)$ 表示文本d生成话题 $z$ 的概率， $P (w ∣ z)$ 表示话题 $z$ 生成单词 $w$ 的概率。

生成模型步骤如下：

（1）依据概率分布 $P (d)$ ，从文本集合中随机选取一个文本 $d$ ，共生成 $N$ 个文本。

（2）在给定文本 $d$ 的条件下，依据条件概率分布 $P (z ∣ d)$ ，从话题集合中随机选取一个话题 $z$ ，共生成 $L$ 个话题（L是指文本长度）。

（3）在给定话题 $z$ 的条件下，依据条件概率分布 $P (w ∣ z)$ ，从单词集合中随机选取一个单词 $w$ 。

此过程即为概率潜在语义分析的生成模型，生成模型是有向图模型，如下所示：

在这里插入图片描述
图中空心圆表示隐变量，方框内的数字表示重复的次数。

从数据生成的过程可以推出，单词—文本共现数据 $T$ 的生成概率为所有的单词—文本对 $(w, d)$ 的生成概率的乘积：
$\prod_{w,d} P(w,d)^{n(w,d)}$
其中， $n (w, d)$ 表示 $(w, d)$ 出现的次数。每个单词—文本对 $(w, d)$ 的生成概率如下：
$\begin{aligned} P(w,d) & =P(d)P(w|d) \\ &= P(d)\sum_{z} P(w,z|d) \\ & = P(d)\sum_{z} P(z|d)P(w|z) \end{aligned}$
这就是生成模型的定义。