探索性数据分析:多领域数据集剖析
1. TDT语料库子集分析
为满足现有计算资源的计算需求,选用了TDT语料库的一个子集。共选取了503篇故事,涵盖了25个事件中的16个。这些故事仅包含“是”或“否”的分类,这样选择是为了证明二元位置矩阵(BPM)能够捕捉到足够的信息,以做出正确或错误的主题分类选择。
去噪和词干提取后,词典中有7146个单词。因此,每个BPM有$7146 \times 7146 = 51,065,316$个元素,每个文档(或观测值)处于一个非常高维的空间中。我们可以应用几种只需要点间距离矩阵而不需要原始数据(即BPM)的探索性数据分析(EDA)方法。所以,我们仅包含了不同语义距离度量的点间距离矩阵:IRad、Ochiai、简单匹配和L1范数。需要注意的是,匹配和Ochiai度量最初是作为相似度(大值表示观测值相似),在文中被转换为距离使用。
| 距离度量 | 文件名称 |
|---|---|
| IRad | iradbpm |
| Ochiai | ochiaibpm |
| 匹配 | matchbpm |
| L1范数 | L1bpm |
对于这些数据,我们可能想应用的一种EDA技术是降维,以便进行进一步
超级会员免费看
订阅专栏 解锁全文

1454

被折叠的 条评论
为什么被折叠?



