这篇文章主要是帮助新手快速了解回顾数据挖掘关联分析、聚类分析与分类的基本概念,具体的实施步骤没有在此展开。老手可以跳过。
数据挖掘中,这三类任务可以从“是否有标签”和“挖掘目标”两个角度来快速区分:

|
任务 |
是否有标签 |
主要目标 |
典型问题 |
|
关联分析 Association Analysis |
通常无标签 |
发现变量、项、事件之间的共现关系 |
买了啤酒的人是否也常买尿布? |
|
聚类分析 Clustering |
无标签 |
按相似性自动分组 |
用户能否自然分成几类? |
|
分类 Classification |
有标签 |
学习从特征到类别的映射 |
这个邮件是不是垃圾邮件? |
关联分析看“共现关系”,聚类分析看“相似分组”,分类问题看“标签预测”。
一、关联分析

1. 关联分析的核心思想
关联分析主要用于从大量数据中发现项与项之间的关联关系。最典型的形式是:
如果用户购买了 A,那么他也可能购买 B。
通常写作:A⇒B
其中:
- (A):规则前件,antecedent
- (B):规则后件,consequent
- A∩B=∅
例如:
![]()
含义是:如果一个交易中包含牛奶和面包,那么也较可能包含黄油。
2. 基本概念
1)事务 Transaction
事务是一次完整的记录,通常由多个项目组成。
例如:
|
交易编号 |
商品 |
|
T1 |
牛奶、面包、黄油 |
|
T2 |
牛奶、尿布、啤酒 |
|
T3 |
面包、黄油 |
每一行就是一个事务。
2)项 Item
项是事务中的基本元素。
例如:牛奶、面包、啤酒、尿布等。
3)项集 Itemset
由一个或多个项组成的集合。
例如:
- ({牛奶}):1-项集
- ({牛奶, 面包}):2-项集
- ({牛奶, 面包, 黄油}):3-项集
4)频繁项集 Frequent Itemset
如果一个项集在数据库中出现的频率足够高,就称为频繁项集。
判断依据是 支持度 support 是否不低于最小支持度阈值。
3. 关联规则的重要指标
1)支持度 Support
支持度衡量项集在全部事务中出现的频率。
对于项集 (X):

对于规则 (A⇒B):
![]()
含义是:A 和 B 同时出现的概率。
例如,1000 笔交易中,有 120 笔同时买了牛奶和面包,则:
support({牛奶,面包})=120/1000=12%
支持度反映的是规则的 覆盖范围。
2)置信度 Confidence
置信度衡量在 A 出现的情况下 B 也出现的概率。

也就是条件概率:P(B∣A)
例如:
- 买牛奶的交易有 200 笔;
- 同时买牛奶和面包的交易有 120 笔;
则:confidence(牛奶⇒面包)=120/200=60%
置信度反映规则的 可靠程度。
3)提升度 Lift
提升度衡量 A 与 B 是否真的有关联,而不是因为 B 本身就很常见。

也可以理解为:

解释:
|
Lift 值 |
含义 |
|
lift > 1 |
A 和 B 正相关,A 出现会提高 B 出现概率 |
|
lift = 1 |
A 和 B 独立,没有明显关联 |
|
lift < 1 |
A 和 B 负相关,A 出现会降低 B 出现概率 |
注意:置信度高不一定说明规则有价值,因为后件 B 本来就可能很常见,所以还要看 lift。
4. 关联规则挖掘的一般流程
关联规则挖掘通常分两步:
第一步:找频繁项集
找出所有满足最小支持度的项集。
例如:
- ({牛奶})
- ({面包})
- ({牛奶, 面包})
第二步:由频繁项集生成关联规则
对每个频繁项集,生成可能的规则,并筛选出满足最小置信度的规则。
例如,频繁项集:
![]()
可以生成:
![]()
![]()
![]()
5. Apriori 算法
Apriori 是关联分析中最经典的频繁项集挖掘算法。

1)核心思想
Apriori 基于一个重要性质(Apriori 性质 或 反单调性):
如果一个项集是频繁的,那么它的所有子集也一定是频繁的。
如果一个项集不是频繁的,那么包含它的所有超集也一定不是频繁的。
例如:
如果 ({牛奶, 面包}) 都不是频繁项集,那么
一定也不可能是频繁项集。
2)算法流程
Apriori 的基本过程是逐层搜索:
- 找出所有频繁 1-项集;
- 由频繁 1-项集连接生成候选 2-项集;
- 扫描数据库,计算候选 2-项集支持度;
- 保留频繁 2-项集;
- 继续生成候选 3-项集;
- 重复,直到无法生成新的频繁项集。
简化理解:
先找单个常见商品,再找两个一起常见的商品,再找三个一起常见的商品。
Apriori 的优点
- 思想简单,易于理解和实现;
- 利用了剪枝策略,减少无效搜索。
Apriori 的缺点
- 需要多次扫描数据库;
- 候选项集数量可能非常大;
- 当数据稠密或最小支持度较低时,计算代价高。
6. FP-Growth 算法
FP-Growth 用于改进 Apriori 的效率问题。

1)核心思想
FP-Growth 不显式生成大量候选项集,而是:
- 构建 FP-tree;
- 利用树结构压缩事务数据库;
- 通过条件模式基递归挖掘频繁项集。
2)FP-tree

FP-tree 是一种压缩存储频繁项信息的树结构。相同前缀的事务可以共享路径,从而减少存储空间。
例如:
- 牛奶、面包、黄油
- 牛奶、面包、啤酒
它们都以“牛奶、面包”开头,可以共享同一条前缀路径。
3)FP-Growth 的优点
- 不需要生成大量候选项集;
- 通常比 Apriori 更高效;
- 适合大规模事务数据。
4)FP-Growth 的局限
- FP-tree 构建和递归挖掘实现复杂;
- 对内存有一定要求;
- 当数据非常稀疏时,压缩效果可能有限。
7. 关联规则的应用场景举例
1)购物篮分析
发现商品之间的共购关系,用于货架摆放、捆绑销售、优惠券推荐。
例如经典的:尿布⇒啤酒
2)推荐系统
根据用户历史行为推荐相关商品、内容或服务。
例如:
- 看过 A 电影的人也喜欢 B;
- 买过手机的人可能需要手机壳。
3)网页行为分析:发现用户访问路径, 例如:访问“首页”和“商品页”的用户,是否会访问“支付页”。
4)医疗诊断:发现症状、疾病、药物之间的关联。例如:高血压⇒某类并发症
8. 关联分析易混点
易混点 1:支持度和置信度
|
指标 |
回答的问题 |
|
支持度 |
A 和 B 一起出现得多不多? |
|
置信度 |
出现 A 时,B 出现的概率高不高? |
支持度看“普遍性”,置信度看“可靠性”。
易混点 2:置信度和提升度
置信度高,不一定说明 A 对 B 有促进作用。
例如:如果 90% 的人都买水,那么:面包⇒水 的置信度可能很高,但这不代表面包和水有强关联,这时需要看 lift。
易混点 3:频繁项集和关联规则
- 频繁项集:只是说明这些项经常一起出现;
- 关联规则:进一步说明项之间可能存在方向性关系。
例如:
频繁项集:![]()
可以生成两条规则:
牛奶⇒面包
面包⇒牛奶
两条规则的置信度可能不同。
二、聚类分析

1. 核心思想
聚类分析是一种无监督学习方法,目标是:
在没有类别标签的情况下,根据对象之间的相似性,把数据划分为若干组。
聚类结果希望满足:
- 同一簇内对象尽可能相似;
- 不同簇之间对象尽可能不同。
即:类内相似,类间相异。
2. 聚类与分类的区别
|
对比维度 |
聚类 Clustering |
分类 Classification |
|
学习类型 |
无监督学习 |
监督学习 |
|
是否有标签 |
没有标签 |
有标签 |
|
目标 |
自动发现数据结构 |
预测已知类别 |
|
输出 |
簇 cluster |
类别 label |
|
例子 |
用户自然分群 |
判断用户是否流失 |
例如:
- 聚类:把客户分为高价值客户、价格敏感客户、沉默客户;
- 分类:判断一个新客户是否会流失。
3. 相似度与距离度量
聚类的基础是度量对象之间的相似性或距离。
1)欧氏距离 Euclidean Distance

最常见的距离度量。

适合连续数值型数据。
特点:
- 几何意义直观;
- 对量纲敏感;
- 容易受异常值影响。
因此使用前通常需要标准化。
2)曼哈顿距离 Manhattan Distance


像在城市街区中沿网格行走,所以也叫城市街区距离。适合高维稀疏或路径累积差异问题。
3)闵可夫斯基距离 Minkowski Distance

欧氏距离和曼哈顿距离的推广形式:
![]()
当:
- (p=1):曼哈顿距离;
- (p=2):欧氏距离。
余弦相似度 Cosine Similarity

衡量两个向量方向是否相似。

常用于文本、推荐系统、高维稀疏数据。例如,两篇文章词频向量方向相近,说明主题相似。
Jaccard 相似系数

用于集合相似度:

常用于购物篮、标签集合、用户兴趣集合等。
4. 聚类方法分类
常见聚类方法包括:
- 划分式聚类;
- 层次聚类;
- 基于密度的聚类;
- 基于网格的聚类;
- 基于模型的聚类。
5. 划分式聚类:K-Means
1)K-Means 核心思想
K-Means 是最经典的划分式聚类算法。目标是把数据划分为 K 个簇,使每个样本到所属簇中心的距离尽可能小。
目标函数通常是最小化簇内平方误差:

其中:
- Ci:第 i 个簇;
- μi:该簇中心;
- x:簇内样本。
2)K-Means 算法流程
- 选择 K 个初始中心;
- 将每个样本分配到最近的中心;
- 根据分配结果重新计算每个簇的中心;
- 重复步骤 2 和 3;
- 直到簇中心不再明显变化或达到迭代次数。
3)K-Means 的优点
- 简单高效,易于实现;
- 适合大规模数值型数据;
- 聚类结果容易解释。
4)K-Means 的缺点
- 需要提前指定 K;
- 对初始中心和异常值敏感;
- 更适合球状簇,不适合发现任意形状簇;
- 对不同量纲敏感,需要标准化。
5)K-Means++ 简介
K-Means++ 是对初始中心选择的改进。
核心思想:初始中心之间尽可能分散。
这样可以降低 K-Means 陷入较差局部最优的概率。
6. K-Medoids
K-Medoids 与 K-Means 类似,但它选择真实样本点作为簇代表。
区别:
|
方法 |
簇中心 |
|
K-Means |
均值点,可能不是实际样本 |
|
K-Medoids |
中心对象,必须是实际样本 |
K-Medoids 相比 K-Means:
- 对异常值更鲁棒;
- 计算成本更高。
7. 层次聚类
层次聚类通过构造层次结构来表示数据之间的聚类关系。
主要分为两类:
1)凝聚型层次聚类 AGNES 自底向上。
流程:
- 初始时每个对象都是一个簇;
- 每次合并距离最近的两个簇;
- 重复合并;
- 直到所有对象合成一个簇或达到停止条件。
2)分裂型层次聚类 DIANA 自顶向下。
流程:
- 初始时所有对象属于一个簇;
- 每次选择一个簇进行分裂;
- 重复;
- 直到每个对象单独成簇或达到停止条件。
3)簇间距离度量
层次聚类中,需要定义两个簇之间的距离。常见方式:
|
方法 |
定义 |
特点 |
|
单链接 Single Linkage |
两簇中最近两个点的距离 |
容易形成链状簇 |
|
全链接 Complete Linkage |
两簇中最远两个点的距离 |
簇更紧凑 |
|
平均链接 Average Linkage |
两簇所有点对距离平均值 |
折中稳定 |
|
质心距离 Centroid |
两簇中心之间距离 |
直观,但可能产生层次反转 |
4)层次聚类特点
优点:
- 不一定需要提前指定簇数;
- 可以生成树状图 dendrogram,便于观察不同粒度下的聚类结构。
缺点:
- 计算复杂度较高;
- 一旦合并或分裂,通常不能回退;
- 对噪声和异常值较敏感。
8. 基于密度的聚类:DBSCAN
1)DBSCAN 核心思想
DBSCAN 认为簇是由高密度区域组成的,低密度区域是簇之间的边界或噪声。它可以发现任意形状的簇,并识别离群点。
2)关键参数
DBSCAN 有两个核心参数:
ε(epsilon, 𝜀 > 0)邻域半径:表示以某个点为中心,多大范围内算邻居。
MinPts最小点数:表示一个点的 𝜀 - 邻域内至少包含多少点,才算高密度区域。
3)核心概念
核心对象 Core Point 如果某点的𝜀 - 邻域内至少有 MinPts 个点,则该点是核心对象。
边界点 Border Point 不是核心对象,但落在某个核心对象的邻域内。
噪声点 Noise Point 既不是核心对象,也不属于任何核心对象邻域的点。
直接密度可达 如果点 q 在核心点 p 的𝜀 - 邻域内,则 q 从 p 直接密度可达。
密度可达 如果存在一条核心点链,使得一个点可以沿着密度连接关系到达另一个点,则称为密度可达。
密度相连 如果两个点都可以由某个核心点密度可达,则它们密度相连。
4)DBSCAN 优点
- 不需要提前指定簇数;
- 能发现任意形状簇;
- 可以识别噪声点,对异常值相对鲁棒。
5)DBSCAN 缺点
- 对参数𝜀 - 邻域和 MinPts 敏感;
- 不适合不同密度差异很大的数据;
- 高维数据中距离度量可能失效。
9. 基于网格的聚类
基于网格的聚类把数据空间划分成有限数量的网格单元,然后在网格层面进行聚类。
代表思想:
- 将空间划分为网格;
- 统计每个网格中的数据密度;
- 合并高密度相邻网格;
- 形成簇。
常见算法包括 STING、CLIQUE、WaveCluster 等。
优点:
- 速度快,适合大规模空间数据。
- 与数据对象数量关系较弱;
缺点:
- 聚类质量受网格粒度影响;
- 网格太粗会丢失细节,网格太细会增加计算量。
10. 聚类质量评价
聚类评价通常分为:
1)内部评价:不依赖真实标签,只看聚类结果本身。
常见指标:
SSE:衡量簇内误差平方和,越小越好。
但 SSE 通常会随着 K 增大而减小,所以不能单独使用。
轮廓系数 Silhouette Coefficient
综合衡量类内紧密度和类间分离度。
对样本 i:
- a(i):样本 i 到同簇其他样本的平均距离;
- b(i):样本 i 到最近其他簇样本的平均距离。

范围:![]()
解释:
|
值 |
含义 |
|
接近 1 |
聚类效果好,a(i)/b(i)接近0 |
|
接近 0 |
样本在簇边界附近, a(i)/b(i)接近1 |
|
小于 0 |
可能被分错簇,a(i)/b(i)>1 |
2)外部评价
依赖真实标签,将聚类结果与真实类别比较。
常见指标包括:
- Rand Index;
- Adjusted Rand Index;
- NMI;
- Purity。
3)选择 K 的方法
肘部法 Elbow Method
观察 K 增大时 SSE 的下降曲线。当 SSE 下降速度明显变慢的位置,就是较合适的 K。
像手肘一样的拐点。
三、分类问题

1. 分类的核心思想
分类是监督学习任务,目标是:
根据已知类别标签的数据,学习一个从特征到类别的映射函数。
形式上可以表示为:y=f(x)
其中:
- x:样本特征;
- y:类别标签;
- f:分类模型。
2. 分类任务的两个阶段
1)学习阶段 Training
利用训练集学习分类器。
训练数据包含:
![]()
模型通过这些样本学习特征与标签之间的关系。
2)测试阶段 Testing
使用训练好的分类器预测新样本的类别。
3. 常见分类模型
课程中涉及的分类方法主要包括:
- 决策树;
- K 近邻分类器;
- 集成学习;
- 随机森林;
- AdaBoost;
- 时序预测模型;
- RNN、LSTM、GRU;
- 分类模型评价。
4. 决策树
1)决策树定义
决策树是一种类似流程图的树形分类模型。
它由结点和有向边组成:
- 内部结点:表示某个属性上的测试;
- 分支:表示测试结果;
- 叶结点:表示类别标签。
例如:
是否有房?
├── 是:信用好
└── 否:
├── 收入高:信用好
└── 收入低:信用差
2)决策树构建步骤
通常包括三步:
- 特征选择;
- 决策树生成;
- 决策树剪枝。
3)属性选择度量
决策树构建的核心问题是:当前结点应该选择哪个属性进行划分?
目标是使划分后的子结点尽可能“纯”。
常见度量包括:
- 信息增益,ID3;
- 信息增益率,C4.5;
- 基尼系数,CART。
4)信息熵 Entropy
信息熵衡量不确定性。

其中:
- pi:样本属于第 i 类的概率;
- 类别越混杂,熵越大;类别越纯,熵越小。就跟整理桌面一样,桌面越干净整齐尚越小。
例如:
- 全部样本属于同一类:熵为 0;
- 正负样本各一半:熵较大。
5)信息增益 Information Gain
信息增益表示使用某个属性划分数据后,不确定性减少了多少。

其中:
- S:当前样本集;
- A:候选属性;
- Sv:属性 A 取值为 v 的子集。
信息增益越大,说明该属性划分效果越好。ID3 使用信息增益选择属性。
6)ID3 决策树
ID3 的特点:
- 使用信息增益选择划分属性,倾向于选择分支较多的属性;
- 不擅长处理连续属性和缺失值;
- 没有剪枝机制,容易过拟合。
7)信息增益率 Gain Ratio
C4.5 针对 ID3 的偏向问题,引入信息增益率。

其中:

信息增益率可以降低对多分支属性的偏好。
8)C4.5 决策树
C4.5 是 ID3 的改进版本,主要改进包括:
- 使用信息增益率;
- 可以处理连续属性和缺失值;
- 引入剪枝策略,缓解过拟合。
9)基尼系数 Gini Index
CART 决策树常使用基尼系数衡量不纯度。

基尼系数越小,样本集越纯。CART 选择使划分后基尼指数最小的属性。
解决计算效率问题和规避“多值偏向”问题(本质上每次只划分两个,分裂都只产生2个分支)
10)CART 决策树
CART,全称 Classification and Regression Tree。
特点:
- 可以用于分类,也可以用于回归;
- 通常生成二叉树,可以配合剪枝提高泛化能力。
- 分类时常使用基尼系数;回归时常使用平方误差。
11)决策树的优缺点
优点
- 可解释性强;
- 分类速度快;
- 可以处理非线性关系;
- 对数据分布假设少。
缺点
- 容易过拟合,对数据扰动敏感;
- 贪心划分不一定得到全局最优树;
- 对连续变量和缺失值需要额外处理。
5. 偏差-方差困境
分类模型需要在偏差和方差之间取得平衡。
|
类型 |
含义 |
现象 |
|
偏差 Bias |
模型假设与真实规律之间的误差 |
欠拟合 |
|
方差 Variance |
模型对训练数据变化的敏感程度 |
过拟合 |
一般来说:
- 简单模型:偏差高,方差低;
- 复杂模型:偏差低,方差高。
决策树通常方差较高,因此容易过拟合,需要剪枝或集成学习。
6. 集成学习
1)核心思想
集成学习通过组合多个模型,提高整体预测性能。
基本形式:多个弱模型⇒更强模型
常见组合方式:
- 投票法;
- 平均法;
- 加权投票;
- 加权平均。
2)Bagging
Bagging 是并行式集成方法。
核心思想:
- 从原始数据中有放回抽样;
- 构造多个训练子集;
- 分别训练多个基学习器;
- 分类时投票,回归时平均。
优点:
- 降低方差,提高模型稳定性;
- 适合高方差模型,例如决策树。
3)随机森林 Random Forest
随机森林是以 CART 决策树为基学习器的 Bagging 方法。
“随机”体现在两方面:
- 样本随机:Bootstrap 有放回抽样;
- 特征随机:每次划分时随机选择部分特征,再从中选最优特征。
特点:
- 泛化能力强,不容易过拟合;
- 能处理高维数据;
- 可评估特征重要性;
- 可解释性弱于单棵决策树。
4)Boosting
Boosting 是串行式集成方法,核心思想:后一个模型重点学习前一个模型分错的样本。
每一轮训练都会调整样本权重,使错误样本获得更高关注。
5)AdaBoost(Adaptive Boosting)
主要机制:
- 初始化样本权重;
- 训练一个弱分类器;
- 计算该分类器错误率;
- 根据错误率计算分类器权重;
- 提高被错分样本的权重;
- 重复训练多个弱分类器;
- 最终按分类器权重加权投票。
分类器权重:

其中:
- 𝜀 :分类器加权错误率;
- 错误率越低,分类器权重越大。
AdaBoost 优点:
- 通常分类精度较高,能把弱分类器提升为强分类器。
缺点:
- 对噪声和异常值敏感;
- 训练过程是串行的,不如 Bagging 易并行。
7. K 近邻分类器 KNN
1)核心思想
KNN 是一种惰性学习方法,它在训练阶段几乎不显式建模,而是在预测时:
- 找到距离测试样本最近的 K 个训练样本;
- 根据这些邻居的类别进行投票;
- 得票最多的类别作为预测结果。
2)KNN 三个基本要素
- K 值选择;
- 距离度量;
- 分类决策规则。
3)K 值影响
|
K 值 |
影响 |
|
K 太小 |
对噪声敏感,容易过拟合 |
|
K 太大 |
边界过于平滑,容易欠拟合 |
通常通过交叉验证选择 K。
4)KNN 优点
- 简单直观,不需要训练复杂模型;
- 适合非线性分类;
- 对类别边界没有强假设。
5)KNN 缺点
- 预测速度慢;
- 对距离度量敏感,对特征尺度敏感,需要标准化;
- 高维数据中效果下降;
- 存储开销大。
8. 时序预测
分类章节中还涉及了时序预测相关内容。
1)时序数据
时序数据是按照时间顺序排列的数据,目标是根据历史数据预测未来趋势
例如:股票价格、电力负荷、用户访问量、传感器数据、销售额变化。
2)传统时序模型
传统方法通常依赖统计假设,例如:
- 线性趋势;
- 周期性;
- 平稳性。
优点:
- 简单,可解释性强,适合规律清晰的数据。
缺点:
- 对复杂非线性关系建模能力有限。
3)RNN
RNN,Recurrent Neural Network,循环神经网络。
特点:
- 适合处理序列数据;
- 通过隐藏状态保存历史信息;
- 可以处理任意长度序列。
基本思想:
Ht=tanh(UHt-1+WXt+b)
Yt=VHt![]()
![]()
其中:
- Ht:当前时刻隐藏状态;
- Xt:当前输入;
- Ht-1:上一时刻隐藏状态。
缺点:
- 难以捕捉长期依赖;
- 容易出现梯度消失或梯度爆炸。
4)LSTM
LSTM,Long Short-Term Memory。
它是特殊的 RNN,擅长处理长期依赖。
核心改进:
- 引入记忆单元 (C_t);
- 使用门控机制控制信息流动。
主要门:
- 遗忘门:决定丢弃哪些旧信息;
- 输入门:决定写入哪些新信息;
- 输出门:决定输出哪些状态。
优点:
- 能建模长期依赖;
- 比普通 RNN 更稳定。
缺点:
- 参数较多;
- 训练成本较高。
5)GRU
GRU,Gated Recurrent Unit。
它是 LSTM 的简化版本。
主要门:
- 更新门;
- 重置门。
对比:
|
模型 |
特点 |
|
LSTM |
记忆能力更强,适合长期依赖 |
|
GRU |
结构更简单,参数更少,训练更快 |
9. 分类模型评价
1)混淆矩阵 Confusion Matrix
二分类中,混淆矩阵包括:
|
预测正例 |
预测负例 | |
|
实际正例 |
TP |
FN |
|
实际负例 |
FP |
TN |
含义:
- TP(True Positive):真正例,实际为正,预测为正;
- TN(True Negative):真负例,实际为负,预测为负;
- FP(False Positive):假正例,实际为负,预测为正;
- FN(False Negative):假负例,实际为正,预测为负。
2)准确率 Accuracy

表示预测正确的比例。
注意:类别极不平衡时,准确率可能有误导性。
例如,疾病检测中,99% 都是健康人,模型全部预测健康,也能有 99% 准确率,但没有实际价值。
3)精确率 Precision

表示预测为正的样本中,真正为正的比例。
关注的是:
我预测为正的结果有多少是真的?
适合误报成本高的场景。例如垃圾邮件识别中,如果把正常邮件误判为垃圾邮件,影响较大,就要关注 Precision。
4)召回率 Recall

表示真实正例中,被模型找出来的比例。
关注的是:
真正的正例有多少被找到了?
适合漏报成本高的场景。例如疾病筛查、欺诈检测,更关注 Recall。
5)F1-score
F1 是 Precision 和 Recall 的调和平均:

适合 Precision 和 Recall 都重要的场景。
6)敏感性和特异性
敏感性 Sensitivity
也就是召回率:

衡量对正例的识别能力。
特异性 Specificity

衡量对负例的识别能力。
7)其他评价维度
除了数值指标,还可以考虑:
- 预测速度 Speed;
- 鲁棒性 Robustness;
- 可伸缩性 Scalability;
- 可解释性 Interpretability。
个人浅记:
下次改用markdown好了,word公式复制过来会变成图片。
诶,答辩项目问的没细看,主要看上课讲的了。答的一坨,虽然说项目都是自己一个人做的,但还是太紧张也没回顾项目。明天还有密码学,然后还有微机原理和计网,giao了,下次注意,后面也要锻炼自己演示项目的能力,要不然都宣传不出去。

4004

被折叠的 条评论
为什么被折叠?



