数据挖掘-关联分析、聚类分析与分类

原创已于 2026-06-25 17:52:02 修改 · 282 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#数据挖掘 #分类 #人工智能 #聚类 #关联分析

话题

#AI编程·六月创作之星博客挑战赛

于 2026-06-25 17:50:49 首次发布

数据挖掘专栏收录该内容

1 篇文章

订阅专栏

这篇文章主要是帮助新手快速了解回顾数据挖掘关联分析、聚类分析与分类的基本概念，具体的实施步骤没有在此展开。老手可以跳过。

数据挖掘中，这三类任务可以从“是否有标签”和“挖掘目标”两个角度来快速区分：

任务	是否有标签	主要目标	典型问题
关联分析 Association Analysis	通常无标签	发现变量、项、事件之间的共现关系	买了啤酒的人是否也常买尿布？
聚类分析 Clustering	无标签	按相似性自动分组	用户能否自然分成几类？
分类 Classification	有标签	学习从特征到类别的映射	这个邮件是不是垃圾邮件？

关联分析看“共现关系”，聚类分析看“相似分组”，分类问题看“标签预测”。

一、关联分析

1. 关联分析的核心思想

关联分析主要用于从大量数据中发现项与项之间的关联关系。最典型的形式是：

如果用户购买了 A，那么他也可能购买 B。

通常写作：A⇒B

其中：

(A)：规则前件，antecedent
(B)：规则后件，consequent
A∩B=∅

例如：

含义是：如果一个交易中包含牛奶和面包，那么也较可能包含黄油。

2. 基本概念

1）事务 Transaction

事务是一次完整的记录，通常由多个项目组成。

例如：

交易编号	商品
T1	牛奶、面包、黄油
T2	牛奶、尿布、啤酒
T3	面包、黄油

每一行就是一个事务。

2）项 Item

项是事务中的基本元素。

例如：牛奶、面包、啤酒、尿布等。

3）项集 Itemset

由一个或多个项组成的集合。

例如：

({牛奶})：1-项集
({牛奶, 面包})：2-项集
({牛奶, 面包, 黄油})：3-项集

4）频繁项集 Frequent Itemset

如果一个项集在数据库中出现的频率足够高，就称为频繁项集。

判断依据是 支持度 support 是否不低于最小支持度阈值。

3. 关联规则的重要指标

1）支持度 Support

支持度衡量项集在全部事务中出现的频率。

对于项集 (X)：

对于规则 (A⇒B)：

含义是：A 和 B 同时出现的概率。

例如，1000 笔交易中，有 120 笔同时买了牛奶和面包，则：

support({牛奶,面包})=120/1000=12%

支持度反映的是规则的 覆盖范围。

2）置信度 Confidence

置信度衡量在 A 出现的情况下 B 也出现的概率。

也就是条件概率：P(B∣A)

例如：

买牛奶的交易有 200 笔；
同时买牛奶和面包的交易有 120 笔；

则：confidence(牛奶⇒面包)=120/200=60%

置信度反映规则的 可靠程度。

3）提升度 Lift

提升度衡量 A 与 B 是否真的有关联，而不是因为 B 本身就很常见。

也可以理解为：

解释：

Lift 值	含义
lift > 1	A 和 B 正相关，A 出现会提高 B 出现概率
lift = 1	A 和 B 独立，没有明显关联
lift < 1	A 和 B 负相关，A 出现会降低 B 出现概率

注意：置信度高不一定说明规则有价值，因为后件 B 本来就可能很常见，所以还要看 lift。

4. 关联规则挖掘的一般流程

关联规则挖掘通常分两步：

第一步：找频繁项集

找出所有满足最小支持度的项集。

例如：

({牛奶})
({面包})
({牛奶, 面包})

第二步：由频繁项集生成关联规则

对每个频繁项集，生成可能的规则，并筛选出满足最小置信度的规则。

例如，频繁项集：

可以生成：

5. Apriori 算法

Apriori 是关联分析中最经典的频繁项集挖掘算法。

1）核心思想

Apriori 基于一个重要性质(Apriori 性质或 反单调性)：

如果一个项集是频繁的，那么它的所有子集也一定是频繁的。

如果一个项集不是频繁的，那么包含它的所有超集也一定不是频繁的。

例如：

如果 ({牛奶, 面包}) 都不是频繁项集，那么一定也不可能是频繁项集。

2）算法流程

Apriori 的基本过程是逐层搜索：

找出所有频繁 1-项集；
由频繁 1-项集连接生成候选 2-项集；
扫描数据库，计算候选 2-项集支持度；
保留频繁 2-项集；
继续生成候选 3-项集；
重复，直到无法生成新的频繁项集。

简化理解：

先找单个常见商品，再找两个一起常见的商品，再找三个一起常见的商品。

Apriori 的优点

思想简单，易于理解和实现；
利用了剪枝策略，减少无效搜索。

Apriori 的缺点

需要多次扫描数据库；
候选项集数量可能非常大；
当数据稠密或最小支持度较低时，计算代价高。

6. FP-Growth 算法

FP-Growth 用于改进 Apriori 的效率问题。

1）核心思想

FP-Growth 不显式生成大量候选项集，而是：

构建 FP-tree；
利用树结构压缩事务数据库；
通过条件模式基递归挖掘频繁项集。

2）FP-tree

FP-tree 是一种压缩存储频繁项信息的树结构。相同前缀的事务可以共享路径，从而减少存储空间。

例如：

牛奶、面包、黄油
牛奶、面包、啤酒

它们都以“牛奶、面包”开头，可以共享同一条前缀路径。

3）FP-Growth 的优点

不需要生成大量候选项集；
通常比 Apriori 更高效；
适合大规模事务数据。

4）FP-Growth 的局限

FP-tree 构建和递归挖掘实现复杂；
对内存有一定要求；
当数据非常稀疏时，压缩效果可能有限。

7. 关联规则的应用场景举例

1）购物篮分析

发现商品之间的共购关系，用于货架摆放、捆绑销售、优惠券推荐。

例如经典的：尿布⇒啤酒

2）推荐系统

根据用户历史行为推荐相关商品、内容或服务。

例如：

看过 A 电影的人也喜欢 B；
买过手机的人可能需要手机壳。

3）网页行为分析：发现用户访问路径, 例如：访问“首页”和“商品页”的用户，是否会访问“支付页”。

4）医疗诊断：发现症状、疾病、药物之间的关联。例如：高血压⇒某类并发症

8. 关联分析易混点

易混点 1：支持度和置信度

指标	回答的问题
支持度	A 和 B 一起出现得多不多？
置信度	出现 A 时，B 出现的概率高不高？

支持度看“普遍性”，置信度看“可靠性”。

易混点 2：置信度和提升度

置信度高，不一定说明 A 对 B 有促进作用。

例如：如果 90% 的人都买水，那么：面包⇒水的置信度可能很高，但这不代表面包和水有强关联，这时需要看 lift。

易混点 3：频繁项集和关联规则

频繁项集：只是说明这些项经常一起出现；
关联规则：进一步说明项之间可能存在方向性关系。

例如：

频繁项集：

可以生成两条规则：

牛奶⇒面包
面包⇒牛奶

两条规则的置信度可能不同。

二、聚类分析

1. 核心思想

聚类分析是一种无监督学习方法，目标是：

在没有类别标签的情况下，根据对象之间的相似性，把数据划分为若干组。

聚类结果希望满足：

同一簇内对象尽可能相似；
不同簇之间对象尽可能不同。

即：类内相似，类间相异。

2. 聚类与分类的区别

对比维度	聚类 Clustering	分类 Classification
学习类型	无监督学习	监督学习
是否有标签	没有标签	有标签
目标	自动发现数据结构	预测已知类别
输出	簇 cluster	类别 label
例子	用户自然分群	判断用户是否流失

例如：

聚类：把客户分为高价值客户、价格敏感客户、沉默客户；
分类：判断一个新客户是否会流失。

3. 相似度与距离度量

聚类的基础是度量对象之间的相似性或距离。

1）欧氏距离 Euclidean Distance

最常见的距离度量。

适合连续数值型数据。

特点：

几何意义直观；
对量纲敏感；
容易受异常值影响。

因此使用前通常需要标准化。

2）曼哈顿距离 Manhattan Distance

像在城市街区中沿网格行走，所以也叫城市街区距离。适合高维稀疏或路径累积差异问题。

3）闵可夫斯基距离 Minkowski Distance

欧氏距离和曼哈顿距离的推广形式：

当：

(p=1)：曼哈顿距离；
(p=2)：欧氏距离。

余弦相似度 Cosine Similarity

衡量两个向量方向是否相似。

常用于文本、推荐系统、高维稀疏数据。例如，两篇文章词频向量方向相近，说明主题相似。

Jaccard 相似系数

用于集合相似度：

常用于购物篮、标签集合、用户兴趣集合等。

4. 聚类方法分类

常见聚类方法包括：

划分式聚类；
层次聚类；
基于密度的聚类；
基于网格的聚类；
基于模型的聚类。

5. 划分式聚类：K-Means

1）K-Means 核心思想

K-Means 是最经典的划分式聚类算法。目标是把数据划分为 K 个簇，使每个样本到所属簇中心的距离尽可能小。

目标函数通常是最小化簇内平方误差：

其中：

Ci：第 i 个簇；
μi：该簇中心；
x：簇内样本。

2）K-Means 算法流程

选择 K 个初始中心；
将每个样本分配到最近的中心；
根据分配结果重新计算每个簇的中心；
重复步骤 2 和 3；
直到簇中心不再明显变化或达到迭代次数。

3）K-Means 的优点

简单高效，易于实现；
适合大规模数值型数据；
聚类结果容易解释。

4）K-Means 的缺点

需要提前指定 K；
对初始中心和异常值敏感；
更适合球状簇，不适合发现任意形状簇；
对不同量纲敏感，需要标准化。

5）K-Means++ 简介

K-Means++ 是对初始中心选择的改进。

核心思想：初始中心之间尽可能分散。

这样可以降低 K-Means 陷入较差局部最优的概率。

6. K-Medoids

K-Medoids 与 K-Means 类似，但它选择真实样本点作为簇代表。

区别：

方法	簇中心
K-Means	均值点，可能不是实际样本
K-Medoids	中心对象，必须是实际样本

K-Medoids 相比 K-Means：

对异常值更鲁棒；
计算成本更高。

7. 层次聚类

层次聚类通过构造层次结构来表示数据之间的聚类关系。

主要分为两类：

1）凝聚型层次聚类 AGNES 自底向上。

流程：

初始时每个对象都是一个簇；
每次合并距离最近的两个簇；
重复合并；
直到所有对象合成一个簇或达到停止条件。

2）分裂型层次聚类 DIANA 自顶向下。

流程：

初始时所有对象属于一个簇；
每次选择一个簇进行分裂；
重复；
直到每个对象单独成簇或达到停止条件。

3）簇间距离度量

层次聚类中，需要定义两个簇之间的距离。常见方式：

方法	定义	特点
单链接 Single Linkage	两簇中最近两个点的距离	容易形成链状簇
全链接 Complete Linkage	两簇中最远两个点的距离	簇更紧凑
平均链接 Average Linkage	两簇所有点对距离平均值	折中稳定
质心距离 Centroid	两簇中心之间距离	直观，但可能产生层次反转

4）层次聚类特点

优点：

不一定需要提前指定簇数；
可以生成树状图 dendrogram，便于观察不同粒度下的聚类结构。

缺点：

计算复杂度较高；
一旦合并或分裂，通常不能回退；
对噪声和异常值较敏感。

8. 基于密度的聚类：DBSCAN

1）DBSCAN 核心思想

DBSCAN 认为簇是由高密度区域组成的，低密度区域是簇之间的边界或噪声。它可以发现任意形状的簇，并识别离群点。

2）关键参数

DBSCAN 有两个核心参数：

ε（epsilon, 𝜀 > 0）邻域半径：表示以某个点为中心，多大范围内算邻居。

MinPts最小点数：表示一个点的 𝜀 - 邻域内至少包含多少点，才算高密度区域。

3）核心概念

核心对象 Core Point 如果某点的𝜀 - 邻域内至少有 MinPts 个点，则该点是核心对象。

边界点 Border Point 不是核心对象，但落在某个核心对象的邻域内。

噪声点 Noise Point 既不是核心对象，也不属于任何核心对象邻域的点。

直接密度可达 如果点 q 在核心点 p 的𝜀 - 邻域内，则 q 从 p 直接密度可达。

密度可达 如果存在一条核心点链，使得一个点可以沿着密度连接关系到达另一个点，则称为密度可达。

密度相连 如果两个点都可以由某个核心点密度可达，则它们密度相连。

4）DBSCAN 优点

不需要提前指定簇数；
能发现任意形状簇；
可以识别噪声点，对异常值相对鲁棒。

5）DBSCAN 缺点

对参数𝜀 - 邻域和 MinPts 敏感；
不适合不同密度差异很大的数据；
高维数据中距离度量可能失效。

9. 基于网格的聚类

基于网格的聚类把数据空间划分成有限数量的网格单元，然后在网格层面进行聚类。

代表思想：

将空间划分为网格；
统计每个网格中的数据密度；
合并高密度相邻网格；
形成簇。

常见算法包括 STING、CLIQUE、WaveCluster 等。

优点：

速度快，适合大规模空间数据。
与数据对象数量关系较弱；

缺点：

聚类质量受网格粒度影响；
网格太粗会丢失细节，网格太细会增加计算量。

10. 聚类质量评价

聚类评价通常分为：

1）内部评价：不依赖真实标签，只看聚类结果本身。

常见指标：

SSE：衡量簇内误差平方和，越小越好。

但 SSE 通常会随着 K 增大而减小，所以不能单独使用。

轮廓系数 Silhouette Coefficient

综合衡量类内紧密度和类间分离度。

对样本 i：

a(i)：样本 i 到同簇其他样本的平均距离；
b(i)：样本 i 到最近其他簇样本的平均距离。

范围：

解释：

值	含义
接近 1	聚类效果好，a(i)/b(i)接近0
接近 0	样本在簇边界附近, a(i)/b(i)接近1
小于 0	可能被分错簇，a(i)/b(i)>1

2）外部评价

依赖真实标签，将聚类结果与真实类别比较。

常见指标包括：

Rand Index；
Adjusted Rand Index；
NMI；
Purity。

3）选择 K 的方法

肘部法 Elbow Method

观察 K 增大时 SSE 的下降曲线。当 SSE 下降速度明显变慢的位置，就是较合适的 K。

像手肘一样的拐点。

三、分类问题

1. 分类的核心思想

分类是监督学习任务，目标是：

根据已知类别标签的数据，学习一个从特征到类别的映射函数。

形式上可以表示为：y=f(x)

其中：

x：样本特征；
y：类别标签；
f：分类模型。

2. 分类任务的两个阶段

1）学习阶段 Training

利用训练集学习分类器。

训练数据包含：

模型通过这些样本学习特征与标签之间的关系。

2）测试阶段 Testing

使用训练好的分类器预测新样本的类别。

3. 常见分类模型

课程中涉及的分类方法主要包括：

决策树；
K 近邻分类器；
集成学习；
随机森林；
AdaBoost；
时序预测模型；
RNN、LSTM、GRU；
分类模型评价。

4. 决策树

1）决策树定义

决策树是一种类似流程图的树形分类模型。

它由结点和有向边组成：

内部结点：表示某个属性上的测试；
分支：表示测试结果；
叶结点：表示类别标签。

例如：

是否有房？

├── 是：信用好

└── 否：

├── 收入高：信用好

└── 收入低：信用差

2）决策树构建步骤

通常包括三步：

特征选择；
决策树生成；
决策树剪枝。

3）属性选择度量

决策树构建的核心问题是：当前结点应该选择哪个属性进行划分？

目标是使划分后的子结点尽可能“纯”。

常见度量包括：

信息增益，ID3；
信息增益率，C4.5；
基尼系数，CART。

4）信息熵 Entropy

信息熵衡量不确定性。

其中：

pi：样本属于第 i 类的概率；
类别越混杂，熵越大；类别越纯，熵越小。就跟整理桌面一样，桌面越干净整齐尚越小。

例如：

全部样本属于同一类：熵为 0；
正负样本各一半：熵较大。

5）信息增益 Information Gain

信息增益表示使用某个属性划分数据后，不确定性减少了多少。

其中：

S：当前样本集；
A：候选属性；
Sv：属性 A 取值为 v 的子集。

信息增益越大，说明该属性划分效果越好。ID3 使用信息增益选择属性。

6）ID3 决策树

ID3 的特点：

使用信息增益选择划分属性，倾向于选择分支较多的属性；
不擅长处理连续属性和缺失值；
没有剪枝机制，容易过拟合。

7）信息增益率 Gain Ratio

C4.5 针对 ID3 的偏向问题，引入信息增益率。

其中：

信息增益率可以降低对多分支属性的偏好。

8）C4.5 决策树

C4.5 是 ID3 的改进版本，主要改进包括：

使用信息增益率；
可以处理连续属性和缺失值；
引入剪枝策略，缓解过拟合。

9）基尼系数 Gini Index

CART 决策树常使用基尼系数衡量不纯度。

基尼系数越小，样本集越纯。CART 选择使划分后基尼指数最小的属性。

解决计算效率问题和规避“多值偏向”问题（本质上每次只划分两个，分裂都只产生2个分支）

10）CART 决策树

CART，全称 Classification and Regression Tree。

特点：

可以用于分类，也可以用于回归；
通常生成二叉树，可以配合剪枝提高泛化能力。
分类时常使用基尼系数；回归时常使用平方误差。

11）决策树的优缺点

优点

可解释性强；
分类速度快；
可以处理非线性关系；
对数据分布假设少。

缺点

容易过拟合，对数据扰动敏感；
贪心划分不一定得到全局最优树；
对连续变量和缺失值需要额外处理。

5. 偏差-方差困境

分类模型需要在偏差和方差之间取得平衡。

类型	含义	现象
偏差 Bias	模型假设与真实规律之间的误差	欠拟合
方差 Variance	模型对训练数据变化的敏感程度	过拟合

一般来说：

简单模型：偏差高，方差低；
复杂模型：偏差低，方差高。

决策树通常方差较高，因此容易过拟合，需要剪枝或集成学习。

6. 集成学习

1）核心思想

集成学习通过组合多个模型，提高整体预测性能。

基本形式：多个弱模型⇒更强模型

常见组合方式：

投票法；
平均法；
加权投票；
加权平均。

2）Bagging

Bagging 是并行式集成方法。

核心思想：

从原始数据中有放回抽样；
构造多个训练子集；
分别训练多个基学习器；
分类时投票，回归时平均。

优点：

降低方差，提高模型稳定性；
适合高方差模型，例如决策树。

3）随机森林 Random Forest

随机森林是以 CART 决策树为基学习器的 Bagging 方法。

“随机”体现在两方面：

样本随机：Bootstrap 有放回抽样；
特征随机：每次划分时随机选择部分特征，再从中选最优特征。

特点：

泛化能力强，不容易过拟合；
能处理高维数据；
可评估特征重要性；
可解释性弱于单棵决策树。

4）Boosting

Boosting 是串行式集成方法，核心思想：后一个模型重点学习前一个模型分错的样本。

每一轮训练都会调整样本权重，使错误样本获得更高关注。

5）AdaBoost（Adaptive Boosting）

主要机制：

初始化样本权重；
训练一个弱分类器；
计算该分类器错误率；
根据错误率计算分类器权重；
提高被错分样本的权重；
重复训练多个弱分类器；
最终按分类器权重加权投票。

分类器权重：

其中：

𝜀 ：分类器加权错误率；
错误率越低，分类器权重越大。

AdaBoost 优点：

通常分类精度较高，能把弱分类器提升为强分类器。

缺点：

对噪声和异常值敏感；
训练过程是串行的，不如 Bagging 易并行。

7. K 近邻分类器 KNN

1）核心思想

KNN 是一种惰性学习方法，它在训练阶段几乎不显式建模，而是在预测时：

找到距离测试样本最近的 K 个训练样本；
根据这些邻居的类别进行投票；
得票最多的类别作为预测结果。

2）KNN 三个基本要素

K 值选择；
距离度量；
分类决策规则。

3）K 值影响

K 值	影响
K 太小	对噪声敏感，容易过拟合
K 太大	边界过于平滑，容易欠拟合

通常通过交叉验证选择 K。

4）KNN 优点

简单直观，不需要训练复杂模型；
适合非线性分类；
对类别边界没有强假设。

5）KNN 缺点

预测速度慢；
对距离度量敏感，对特征尺度敏感，需要标准化；
高维数据中效果下降；
存储开销大。

8. 时序预测

分类章节中还涉及了时序预测相关内容。

1）时序数据

时序数据是按照时间顺序排列的数据，目标是根据历史数据预测未来趋势

例如：股票价格、电力负荷、用户访问量、传感器数据、销售额变化。

2）传统时序模型

传统方法通常依赖统计假设，例如：

线性趋势；
周期性；
平稳性。

优点：

简单，可解释性强，适合规律清晰的数据。

缺点：

对复杂非线性关系建模能力有限。

3）RNN

RNN，Recurrent Neural Network，循环神经网络。

特点：

适合处理序列数据；
通过隐藏状态保存历史信息；
可以处理任意长度序列。

基本思想：

Ht=tanh(UHt-1+WXt+b)
Yt=VHt

其中：

Ht：当前时刻隐藏状态；
Xt：当前输入；
Ht-1：上一时刻隐藏状态。

缺点：

难以捕捉长期依赖；
容易出现梯度消失或梯度爆炸。

4）LSTM

LSTM，Long Short-Term Memory。

它是特殊的 RNN，擅长处理长期依赖。

核心改进：

引入记忆单元 (C_t)；
使用门控机制控制信息流动。

主要门：

遗忘门：决定丢弃哪些旧信息；
输入门：决定写入哪些新信息；
输出门：决定输出哪些状态。

优点：

能建模长期依赖；
比普通 RNN 更稳定。

缺点：

参数较多；
训练成本较高。

5）GRU

GRU，Gated Recurrent Unit。

它是 LSTM 的简化版本。

主要门：

更新门；
重置门。

对比：

模型	特点
LSTM	记忆能力更强，适合长期依赖
GRU	结构更简单，参数更少，训练更快

9. 分类模型评价

1）混淆矩阵 Confusion Matrix

二分类中，混淆矩阵包括：

	预测正例	预测负例
实际正例	TP	FN
实际负例	FP	TN

含义：

TP（True Positive）：真正例，实际为正，预测为正；
TN（True Negative）：真负例，实际为负，预测为负；
FP（False Positive）：假正例，实际为负，预测为正；
FN（False Negative）：假负例，实际为正，预测为负。

2）准确率 Accuracy

表示预测正确的比例。

注意：类别极不平衡时，准确率可能有误导性。

例如，疾病检测中，99% 都是健康人，模型全部预测健康，也能有 99% 准确率，但没有实际价值。

3）精确率 Precision

表示预测为正的样本中，真正为正的比例。

关注的是：

我预测为正的结果有多少是真的？

适合误报成本高的场景。例如垃圾邮件识别中，如果把正常邮件误判为垃圾邮件，影响较大，就要关注 Precision。

4）召回率 Recall

表示真实正例中，被模型找出来的比例。

关注的是：

真正的正例有多少被找到了？

适合漏报成本高的场景。例如疾病筛查、欺诈检测，更关注 Recall。

5）F1-score

F1 是 Precision 和 Recall 的调和平均：

适合 Precision 和 Recall 都重要的场景。

6）敏感性和特异性

敏感性 Sensitivity

也就是召回率：

衡量对正例的识别能力。

特异性 Specificity

衡量对负例的识别能力。

7）其他评价维度

除了数值指标，还可以考虑：

预测速度 Speed；
鲁棒性 Robustness；
可伸缩性 Scalability；
可解释性 Interpretability。

个人浅记：

下次改用markdown好了，word公式复制过来会变成图片。

诶，答辩项目问的没细看，主要看上课讲的了。答的一坨，虽然说项目都是自己一个人做的，但还是太紧张也没回顾项目。明天还有密码学，然后还有微机原理和计网，giao了，下次注意，后面也要锻炼自己演示项目的能力，要不然都宣传不出去。