泰卢固语情感分析的主动学习方法
1. 数据集生成
泰卢固语与英语不同,它没有大量带注释的数据集、工具以及预训练模型。为了创建词嵌入模型,进行信息提取和情感提取,泰卢固语数据需要进行必要的预处理。
- 原始数据集 :使用维基百科的泰卢固语转储数据,该数据以Unicode (UTF) 格式提供。为了便于实施和实验,将这些数据音译为WX表示法,得到原始数据集。
- 注释数据集 :通过爬取泰卢固语新闻网站收集数据,对其进行清理和预处理。给泰卢固语母语者一组规则,让他们对数据进行注释。使用kappa系数对数据进行交叉检查,注释效率达到0.89。大约有1000个句子被注释为正负极性。同样,使用UTF - WX转换器对注释数据集进行音译。
在本次实验中,选取约1000个句子的注释数据 (D),初始时将200个句子作为测试数据 (DT),在剩下的800个句子中,10个句子作为标记数据实例 (DL),790个句子作为未标记数据实例 (DU)。
2. 词嵌入生成
使用word2vec方法生成词嵌入模型,词向量用于对句子中的下一个单词进行预测任务。
- 模型生成 :以泰卢固语原始数据集(WX表示法)作为word2vec的输入,生成词嵌入模型。
- 验证 :使用t - sne检查并可视化语义相似单词的接近程度,验证生成的词嵌入。
- 特征向量生成 :利用词嵌入模型,为注释数据 (D) 的每个句子生成一个100维的特征向量。
超级会员免费看
订阅专栏 解锁全文

35

被折叠的 条评论
为什么被折叠?



