词语义打分的数据集SSDD，对于NLP研究者可能有帮助

原创

已于 2025-03-07 11:35:07 修改 · 1.4k 阅读

·

24

·

标签

#自然语言处理 #人工智能

于 2025-03-06 23:30:05 首次发布

最近在做大模型语义方面的研究，看见个有意思的语义数据库——六维语义数据库（SSDD），全称是Six Semantic Dimension Database。这个数据库主要是用来研究中文词语在不同语义维度上的表现，比如一个词给人的视觉感受强不强，或者它是不是带有明显的情感色彩。今天我们看看这个数据库的基本情况、主要内容，以及它是怎么扩展数据的。

数据集基本情况

首先，这个数据集是公开的，下载地址在这里：这里

数据集的核心部分是一份包含了17,940个中文词的主观语义评分，文件名叫

Rated_semantic_dimensions.xlsx。这些评分涵盖了六个语义维度：

视觉、运动、社交性、情感、时间、空间

评分的方式也挺有意思。情感维度用的是13点量表，从-6到6，负分表示消极情感，正分表示积极情感。其他维度则是7点量表，1到7分，分数越高表示在这个维度上的表现越强。需要注意的是，这些评分都是相对的，每个词在不同维度上都有得分，反映词语在各个语义维度上的强度。

数据扩展方法

除了这1.8万个词的主观评分，研究团队还用了两种词嵌入模型（Word2Vec 和 MacBERT）来预测更多词的语义评分。这样一来，数据集就扩展到了百万级别。

具体来说：
1. Word2Vec 版本预测了1,427,992个词的语义评分，文件名叫 Estimated_semantic_dimensions_word2vec_Chinese_part1&2

2. MacBERT 版本预测了900,243个词的语义评分，文件名叫 Estimated_semantic_dimensions_macbert_Chinese。

这两个版本的区别主要在于模型的选择和数据处理

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。