词语义打分的数据集SSDD,对于NLP研究者可能有帮助

最近在做大模型语义方面的研究,看见个有意思的语义数据库——六维语义数据库(SSDD),全称是Six Semantic Dimension Database。这个数据库主要是用来研究中文词语在不同语义维度上的表现,比如一个词给人的视觉感受强不强,或者它是不是带有明显的情感色彩。今天我们看看这个数据库的基本情况、主要内容,以及它是怎么扩展数据的。

数据集基本情况

首先,这个数据集是公开的,下载地址在这里:这里

数据集的核心部分是一份包含了17,940个中文词的主观语义评分,文件名叫

Rated_semantic_dimensions.xlsx。这些评分涵盖了六个语义维度:

  • 视觉、运动、社交性、情感、时间、空间

评分的方式也挺有意思。情感维度用的是13点量表,从-6到6,负分表示消极情感,正分表示积极情感。其他维度则是7点量表,1到7分,分数越高表示在这个维度上的表现越强。需要注意的是,这些评分都是相对的,每个词在不同维度上都有得分,反映词语在各个语义维度上的强度。

数据扩展方法

除了这1.8万个词的主观评分,研究团队还用了两种词嵌入模型(Word2Vec 和 MacBERT)来预测更多词的语义评分。这样一来,数据集就扩展到了百万级别。

具体来说:
1. Word2Vec 版本预测了1,427,992个词的语义评分,文件名叫 Estimated_semantic_dimensions_word2vec_Chinese_part1&2


2. MacBERT 版本预测了900,243个词的语义评分,文件名叫 Estimated_semantic_dimensions_macbert_Chinese。

这两个版本的区别主要在于模型的选择和数据处理

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值