17、情感词典与向量空间模型及朴素贝叶斯算法解析

情感词典与向量空间模型及朴素贝叶斯算法解析

1. 情感词典与向量空间模型

在文本处理中,我们常常会遇到训练数据和测试数据词汇不匹配的问题。比如测试数据中的某些词汇在训练数据里缺失,这就导致我们无法计算这些词汇对句子情感的贡献。为了解决这个问题,我们可以利用词汇相似度的概念来填补情感词典中的空缺。

1.1 潜在语义分析(LSA)

潜在语义分析(LSA)是一种利用矩阵代数对原始数据进行低维近似的方法。对于任意的 MxN 矩阵 A,我们可以找到 MxM 矩阵 U、长度为 M 的向量 S(其元素按降序排列)以及 NxM 矩阵 V,使得 A = (U * S) dot V。U、S 和 V 构成了原始数据的一个不动点。如果将 S 中的某些较小值设为 0 得到 S’,那么 (U * S’) dot V 就成为了 A 的一个近似,且 S’的维度低于 S。

下面是一个具体的例子,我们从一个 6x8 的随机整数数组开始:

61.0    26.0    54.0    90.0    9.0    19.0
34.0    53.0    73.0    21.0    17.0    67.0
59.0    75.0    33.0    96.0    59.0    24.0
72.0    90.0    79.0    88.0    48.0    45.0
77.0    24.0    88.0    65.0    33.0    94.0
44.0    0.00    55.0    61.0    71.0    92.0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值