最近在做大模型语义方面的研究,看见个有意思的语义数据库——六维语义数据库(SSDD),全称是Six Semantic Dimension Database。这个数据库主要是用来研究中文词语在不同语义维度上的表现,比如一个词给人的视觉感受强不强,或者它是不是带有明显的情感色彩。今天我们看看这个数据库的基本情况、主要内容,以及它是怎么扩展数据的。
数据集基本情况
首先,这个数据集是公开的,下载地址在这里:这里
数据集的核心部分是一份包含了17,940个中文词的主观语义评分,文件名叫
Rated_semantic_dimensions.xlsx。这些评分涵盖了六个语义维度:
- 视觉、运动、社交性、情感、时间、空间
评分的方式也挺有意思。情感维度用的是13点量表,从-6到6,负分表示消极情感,正分表示积极情感。其他维度则是7点量表,1到7分,分数越高表示在这个维度上的表现越强。需要注意的是,这些评分都是相对的,每个词在不同维度上都有得分,反映词语在各个语义维度上的强度。
数据扩展方法
除了这1.8万个词的主观评分,研究团队还用了两种词嵌入模型(Word2Vec 和 MacBERT)来预测更多词的语义评分。这样一来,数据集就扩展到了百万级别。
具体来说:
1. Word2Vec 版本预测了1,427,992个词的语义评分,文件名叫 Estimated_semantic_dimensions_word2vec_Chinese_part1&2
2. MacBERT 版本预测了900,243个词的语义评分,文件名叫 Estimated_semantic_dimensions_macbert_Chinese。
这两个版本的区别主要在于模型的选择和数据处理


2361

被折叠的 条评论
为什么被折叠?



