情感词典与向量空间模型及朴素贝叶斯算法解析
1. 情感词典与向量空间模型
在文本处理中,我们常常会遇到训练数据和测试数据词汇不匹配的问题。比如测试数据中的某些词汇在训练数据里缺失,这就导致我们无法计算这些词汇对句子情感的贡献。为了解决这个问题,我们可以利用词汇相似度的概念来填补情感词典中的空缺。
1.1 潜在语义分析(LSA)
潜在语义分析(LSA)是一种利用矩阵代数对原始数据进行低维近似的方法。对于任意的 MxN 矩阵 A,我们可以找到 MxM 矩阵 U、长度为 M 的向量 S(其元素按降序排列)以及 NxM 矩阵 V,使得 A = (U * S) dot V。U、S 和 V 构成了原始数据的一个不动点。如果将 S 中的某些较小值设为 0 得到 S’,那么 (U * S’) dot V 就成为了 A 的一个近似,且 S’的维度低于 S。
下面是一个具体的例子,我们从一个 6x8 的随机整数数组开始:
61.0 26.0 54.0 90.0 9.0 19.0
34.0 53.0 73.0 21.0 17.0 67.0
59.0 75.0 33.0 96.0 59.0 24.0
72.0 90.0 79.0 88.0 48.0 45.0
77.0 24.0 88.0 65.0 33.0 94.0
44.0 0.00 55.0 61.0 71.0 92.0
对
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



