3、探索性数据分析：多领域数据集剖析

最新推荐文章于 2026-06-14 16:04:53 发布

原创最新推荐文章于 2026-06-14 16:04:53 发布 · 26 阅读

0 GEO检测

标签

#TDT语料库 #基因表达 #酵母数据集

收录于

探索数据的艺术专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索性数据分析：多领域数据集剖析

1. TDT语料库子集分析

为满足现有计算资源的计算需求，选用了TDT语料库的一个子集。共选取了503篇故事，涵盖了25个事件中的16个。这些故事仅包含“是”或“否”的分类，这样选择是为了证明二元位置矩阵（BPM）能够捕捉到足够的信息，以做出正确或错误的主题分类选择。

去噪和词干提取后，词典中有7146个单词。因此，每个BPM有$7146 \times 7146 = 51,065,316$个元素，每个文档（或观测值）处于一个非常高维的空间中。我们可以应用几种只需要点间距离矩阵而不需要原始数据（即BPM）的探索性数据分析（EDA）方法。所以，我们仅包含了不同语义距离度量的点间距离矩阵：IRad、Ochiai、简单匹配和L1范数。需要注意的是，匹配和Ochiai度量最初是作为相似度（大值表示观测值相似），在文中被转换为距离使用。