17、情感词典与向量空间模型及朴素贝叶斯算法解析

原创于 2025-07-18 16:55:18 发布 · 43 阅读

0 GEO检测

标签

#情感词典 # 向量空间模型 # 潜在语义分析

Python情感分析：从理论到实践专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

情感词典与向量空间模型及朴素贝叶斯算法解析

1. 情感词典与向量空间模型

在文本处理中，我们常常会遇到训练数据和测试数据词汇不匹配的问题。比如测试数据中的某些词汇在训练数据里缺失，这就导致我们无法计算这些词汇对句子情感的贡献。为了解决这个问题，我们可以利用词汇相似度的概念来填补情感词典中的空缺。

1.1 潜在语义分析（LSA）

潜在语义分析（LSA）是一种利用矩阵代数对原始数据进行低维近似的方法。对于任意的 MxN 矩阵 A，我们可以找到 MxM 矩阵 U、长度为 M 的向量 S（其元素按降序排列）以及 NxM 矩阵 V，使得 A = (U * S) dot V。U、S 和 V 构成了原始数据的一个不动点。如果将 S 中的某些较小值设为 0 得到 S’，那么 (U * S’) dot V 就成为了 A 的一个近似，且 S’的维度低于 S。

下面是一个具体的例子，我们从一个 6x8 的随机整数数组开始：

61.0    26.0    54.0    90.0    9.0    19.0
34.0    53.0    73.0    21.0    17.0    67.0
59.0    75.0    33.0    96.0    59.0    24.0
72.0    90.0    79.0    88.0    48.0    45.0
77.0    24.0    88.0    65.0    33.0    94.0
44.0    0.00    55.0    61.0    71.0    92.0

对