数据挖掘与分析技术全解

最新推荐文章于 2026-06-17 16:12:15 发布

原创

最新推荐文章于 2026-06-17 16:12:15 发布 · 1.1k 阅读

标签

#数据挖掘 # 数据分析 # 聚类

1、分析师收集不同参与者关于他们喜好的调查。随后，分析师将数据上传到数据库，纠正错误或缺失的条目，并在此基础上设计推荐算法。以下哪些行为分别代表数据收集、数据预处理和数据分析？(a) 进行调查并上传到数据库，(b) 纠正缺失条目，(c) 设计推荐算法。

- **数据收集**：(a) 进行调查并上传到数据库；
- **数据预处理**：(b) 纠正缺失条目；
- **数据分析**：(c) 设计推荐算法

2、以下各类属性的数据类型分别是什么：(a) 年龄，(b) 薪水，(c) 邮政编码，(d) 居住州，(e) 身高，(f) 体重

以下是给定文本内容的 Markdown 格式调整版本：

(a) 定量数据
(b) 定量数据
(c) 分类数据
(d) 分类数据
(e) 定量数据
(f) 定量数据

3、一位分析师为了数据挖掘的目的从医生那里获取了医疗笔记，然后将其转换为一个包含每个患者所开药物的表格。（a）原始数据的数据类型是什么？（b）转换后的数据的数据类型是什么？（c）将数据转换为新格式的过程叫什么？

以下是给定文本内容的 Markdown 格式版本：

（a）原始数据的数据类型是文本数据；
（b）转换后的数据的数据类型是表格数据（可视为结构化的数值或分类数据）；
（c）将数据转换为新格式的过程叫数据转换。

4、考虑一个对应于按特定顺序排列的一组核苷酸的数据对象。这种类型的数据是什么？

离散序列数据

具体属于生物数据中的离散序列数据，其序列对应核苷酸字符串，序列中的顺序提供了有关蛋白质功能特性的信息，可用于数据挖掘以确定反映不同生物学特性的有趣模式。

5、希望根据客户的人口统计资料将他们划分为相似的群体。哪个数据挖掘问题最适合这项任务？

聚类分析

聚类可将数据点划分为直观上相似的组，适用于客户细分，根据人口统计资料对客户分组属于客户细分范畴。

6、假设商家掌握了顾客购买的小部件以及其他商品的信息，那么，最适合找出经常与小部件一起购买的商品集合的数据挖掘问题是什么？

频繁模式挖掘

7、考虑时间序列(−3, −1, 1, 3, 5, 7, ∗)。这里，缺失项用 ∗ 表示。使用大小为 3 的窗口进行线性插值，缺失项的估计值是多少？

时间序列数据缺失值估计

对于时间序列数据中的缺失值估计，可以采用线性插值的方法来确定最后 n 个时间序列数据点的行为值。

方法说明

使用大小为 3 的窗口
取最后 3 个已知数据点进行线性插值：(3, 5, 7)
设线性关系为：y = ax + b
其中：
x 为数据点的序号
y 为数据值

已知条件

x₁ = 4 时 y₁ = 3
x₂ = 5 时 y₂ = 5
x₃ = 6 时 y₃ = 7

计算结果

斜率 a = 2
截距 b = -5

缺失项估计

缺失项为第 7 个数据点，即 x = 7
代入公式得：y = 2 × 7 - 5 = 9

结论

因此，缺失项的估计值为 9 。

8、假设你有一堆文本文档，你想确定这些文档中提到的所有人物。你会使用哪类技术来实现这个目标？

可以使用命名实体识别技术，流行的技术包括：

基于语言语法的技术
统计模型

基于语言语法的技术 通常非常有效，但需要有经验的计算语言学家进行工作；
统计模型 则需要大量的训练数据，且这些技术往往是特定领域的。

9、假设你有一组不同类型的任意对象，它们代表了小部件的不同特征。一位领域专家为你提供了每对对象之间的相似度值。你将如何把这些对象转换为用于聚类的多维数据集？

可以构建一个相似度图，设图 G = (N, A) 为一个无向图，节点集 N 包含 n 个节点，边集为 A。用一个对称的 n × n 权重矩阵 W = [w<sub>ij</sub>] 表示不同节点之间的相似度，矩阵中所有条目为非负，值越高表示相似度越大，若节点对之间不存在边，则对应条目设为 0。

然后使用谱嵌入将该相似度图转换为保留节点间相似度结构的多维表示，从而将这些对象转换为易于使用的多维数据集用于聚类。不过这种转换仅适用于基于相似度的应用，如聚类或最近邻分类。