数据挖掘-关联分析、聚类分析与分类

这篇文章主要是帮助新手快速了解回顾数据挖掘关联分析、聚类分析与分类的基本概念,具体的实施步骤没有在此展开。老手可以跳过。

数据挖掘中,这三类任务可以从“是否有标签”和“挖掘目标”两个角度来快速区分:

任务

是否有标签

主要目标

典型问题

关联分析 Association Analysis

通常无标签

发现变量、项、事件之间的共现关系

买了啤酒的人是否也常买尿布?

聚类分析 Clustering

无标签

按相似性自动分组

用户能否自然分成几类?

分类 Classification

有标签

学习从特征到类别的映射

这个邮件是不是垃圾邮件?

关联分析看“共现关系”,聚类分析看“相似分组”,分类问题看“标签预测”。

一、关联分析

1. 关联分析的核心思想

关联分析主要用于从大量数据中发现项与项之间的关联关系。最典型的形式是:

如果用户购买了 A,那么他也可能购买 B。

通常写作:A⇒B

其中:

  • (A):规则前件,antecedent
  • (B):规则后件,consequent
  • A∩B=∅

例如:

含义是:如果一个交易中包含牛奶和面包,那么也较可能包含黄油。

2. 基本概念

1)事务 Transaction

事务是一次完整的记录,通常由多个项目组成。

例如:

交易编号

商品

T1

牛奶、面包、黄油

T2

牛奶、尿布、啤酒

T3

面包、黄油

每一行就是一个事务。

2)项 Item

项是事务中的基本元素。

例如:牛奶、面包、啤酒、尿布等。

3)项集 Itemset

由一个或多个项组成的集合。

例如:

  • ({牛奶}):1-项集
  • ({牛奶, 面包}):2-项集
  • ({牛奶, 面包, 黄油}):3-项集

4)频繁项集 Frequent Itemset

如果一个项集在数据库中出现的频率足够高,就称为频繁项集。

判断依据是 支持度 support 是否不低于最小支持度阈值。

3. 关联规则的重要指标

1)支持度 Support

支持度衡量项集在全部事务中出现的频率。

对于项集 (X):

        

对于规则 (A⇒B):

        

含义是:A 和 B 同时出现的概率。

例如,1000 笔交易中,有 120 笔同时买了牛奶和面包,则:

support({牛奶,面包})=120/1000=12%

支持度反映的是规则的 覆盖范围

2)置信度 Confidence

置信度衡量在 A 出现的情况下 B 也出现的概率。

也就是条件概率:P(BA)

例如:

  • 买牛奶的交易有 200 笔;
  • 同时买牛奶和面包的交易有 120 笔;

则:confidence(牛奶面包)=120/200=60%

置信度反映规则的 可靠程度

3)提升度 Lift

提升度衡量 A 与 B 是否真的有关联,而不是因为 B 本身就很常见。

也可以理解为:

解释:

Lift

含义

lift > 1

A 和 B 正相关,A 出现会提高 B 出现概率

lift = 1

A 和 B 独立,没有明显关联

lift < 1

A 和 B 负相关,A 出现会降低 B 出现概率

注意:置信度高不一定说明规则有价值,因为后件 B 本来就可能很常见,所以还要看 lift。

4. 关联规则挖掘的一般流程

关联规则挖掘通常分两步:

第一步:找频繁项集

找出所有满足最小支持度的项集。

例如:

  • ({牛奶})
  • ({面包})
  • ({牛奶, 面包})

第二步:由频繁项集生成关联规则

对每个频繁项集,生成可能的规则,并筛选出满足最小置信度的规则。

例如,频繁项集:

可以生成:

5. Apriori 算法

Apriori 是关联分析中最经典的频繁项集挖掘算法。

1)核心思想

Apriori 基于一个重要性质(Apriori 性质反单调性):

如果一个项集是频繁的,那么它的所有子集也一定是频繁的。

如果一个项集不是频繁的,那么包含它的所有超集也一定不是频繁的。

例如:

如果 ({牛奶, 面包}) 都不是频繁项集,那么一定也不可能是频繁项集。

2)算法流程

Apriori 的基本过程是逐层搜索:

  1. 找出所有频繁 1-项集;
  2. 由频繁 1-项集连接生成候选 2-项集;
  3. 扫描数据库,计算候选 2-项集支持度;
  4. 保留频繁 2-项集;
  5. 继续生成候选 3-项集;
  6. 重复,直到无法生成新的频繁项集。

简化理解:

先找单个常见商品,再找两个一起常见的商品,再找三个一起常见的商品。

Apriori 的优点

  • 思想简单,易于理解和实现;
  • 利用了剪枝策略,减少无效搜索。

Apriori 的缺点

  • 需要多次扫描数据库;
  • 候选项集数量可能非常大;
  • 当数据稠密或最小支持度较低时,计算代价高。

6. FP-Growth 算法

FP-Growth 用于改进 Apriori 的效率问题。

1)核心思想

FP-Growth 不显式生成大量候选项集,而是:

  1. 构建 FP-tree;
  2. 利用树结构压缩事务数据库;
  3. 通过条件模式基递归挖掘频繁项集。

2)FP-tree

FP-tree 是一种压缩存储频繁项信息的树结构。相同前缀的事务可以共享路径,从而减少存储空间。

例如:

  • 牛奶、面包、黄油
  • 牛奶、面包、啤酒

它们都以“牛奶、面包”开头,可以共享同一条前缀路径。

3)FP-Growth 的优点

  • 不需要生成大量候选项集;
  • 通常比 Apriori 更高效;
  • 适合大规模事务数据。

4)FP-Growth 的局限

  • FP-tree 构建和递归挖掘实现复杂;
  • 对内存有一定要求;
  • 当数据非常稀疏时,压缩效果可能有限。

7. 关联规则的应用场景举例

1)购物篮分析

发现商品之间的共购关系,用于货架摆放、捆绑销售、优惠券推荐。

例如经典的:尿布啤酒

2)推荐系统

根据用户历史行为推荐相关商品、内容或服务。

例如:

  • 看过 A 电影的人也喜欢 B;
  • 买过手机的人可能需要手机壳。

3)网页行为分析:发现用户访问路径, 例如:访问“首页”和“商品页”的用户,是否会访问“支付页”。

4)医疗诊断:发现症状、疾病、药物之间的关联。例如:高血压某类并发症

8. 关联分析易混点

易混点 1:支持度和置信度

指标

回答的问题

支持度

A 和 B 一起出现得多不多?

置信度

出现 A 时,B 出现的概率高不高?

支持度看“普遍性”,置信度看“可靠性”。

易混点 2:置信度和提升度

置信度高,不一定说明 A 对 B 有促进作用。

例如:如果 90% 的人都买水,那么:面包水  的置信度可能很高,但这不代表面包和水有强关联,这时需要看 lift。

易混点 3:频繁项集和关联规则

  • 频繁项集:只是说明这些项经常一起出现;
  • 关联规则:进一步说明项之间可能存在方向性关系。

例如:

频繁项集:

可以生成两条规则:

牛奶面包
面包牛奶

两条规则的置信度可能不同。

二、聚类分析

1. 核心思想

聚类分析是一种无监督学习方法,目标是:

在没有类别标签的情况下,根据对象之间的相似性,把数据划分为若干组。

聚类结果希望满足:

  • 同一簇内对象尽可能相似;
  • 不同簇之间对象尽可能不同。

即:类内相似,类间相异。

2. 聚类与分类的区别

对比维度

聚类 Clustering

分类 Classification

学习类型

无监督学习

监督学习

是否有标签

没有标签

有标签

目标

自动发现数据结构

预测已知类别

输出

簇 cluster

类别 label

例子

用户自然分群

判断用户是否流失

例如:

  • 聚类:把客户分为高价值客户、价格敏感客户、沉默客户;
  • 分类:判断一个新客户是否会流失。

3. 相似度与距离度量

聚类的基础是度量对象之间的相似性或距离。

1)欧氏距离 Euclidean Distance

最常见的距离度量。

                ​​​​​​​        

适合连续数值型数据。

特点:

  • 几何意义直观;
  • 对量纲敏感;
  • 容易受异常值影响。

因此使用前通常需要标准化。

2)曼哈顿距离 Manhattan Distance

        ​​​​​​​        ​​​​​​​        ​​​​​​​        

像在城市街区中沿网格行走,所以也叫城市街区距离。适合高维稀疏或路径累积差异问题。

3)闵可夫斯基距离 Minkowski Distance

欧氏距离和曼哈顿距离的推广形式:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        

当:

  • (p=1):曼哈顿距离;
  • (p=2):欧氏距离。

余弦相似度 Cosine Similarity

衡量两个向量方向是否相似。

        ​​​​​​​        ​​​​​​​        

常用于文本、推荐系统、高维稀疏数据。例如,两篇文章词频向量方向相近,说明主题相似。

Jaccard 相似系数

用于集合相似度:

常用于购物篮、标签集合、用户兴趣集合等。

4. 聚类方法分类

常见聚类方法包括:

  1. 划分式聚类;
  2. 层次聚类;
  3. 基于密度的聚类;
  4. 基于网格的聚类;
  5. 基于模型的聚类。

5. 划分式聚类:K-Means

1)K-Means 核心思想

K-Means 是最经典的划分式聚类算法。目标是把数据划分为 K 个簇,使每个样本到所属簇中心的距离尽可能小。

目标函数通常是最小化簇内平方误差:

其中:

  • Ci:第 i 个簇;
  • μi:该簇中心;
  • x:簇内样本。

2)K-Means 算法流程

  1. 选择 K 个初始中心;
  2. 将每个样本分配到最近的中心;
  3. 根据分配结果重新计算每个簇的中心;
  4. 重复步骤 2 和 3;
  5. 直到簇中心不再明显变化或达到迭代次数。

3)K-Means 的优点

  • 简单高效,易于实现;
  • 适合大规模数值型数据;
  • 聚类结果容易解释。

4)K-Means 的缺点

  • 需要提前指定 K;
  • 对初始中心和异常值敏感;
  • 更适合球状簇,不适合发现任意形状簇;
  • 对不同量纲敏感,需要标准化。

5)K-Means++ 简介

K-Means++ 是对初始中心选择的改进。

核心思想:初始中心之间尽可能分散

这样可以降低 K-Means 陷入较差局部最优的概率。

6. K-Medoids

K-Medoids 与 K-Means 类似,但它选择真实样本点作为簇代表。

区别:

方法

簇中心

K-Means

均值点,可能不是实际样本

K-Medoids

中心对象,必须是实际样本

K-Medoids 相比 K-Means:

  • 对异常值更鲁棒;
  • 计算成本更高。

7. 层次聚类

层次聚类通过构造层次结构来表示数据之间的聚类关系。

主要分为两类:

1)凝聚型层次聚类 AGNES  自底向上。

流程:

  1. 初始时每个对象都是一个簇;
  2. 每次合并距离最近的两个簇;
  3. 重复合并;
  4. 直到所有对象合成一个簇或达到停止条件。

2)分裂型层次聚类 DIANA   自顶向下。

流程:

  1. 初始时所有对象属于一个簇;
  2. 每次选择一个簇进行分裂;
  3. 重复;
  4. 直到每个对象单独成簇或达到停止条件。

3)簇间距离度量

层次聚类中,需要定义两个簇之间的距离。常见方式:

方法

定义

特点

单链接 Single Linkage

两簇中最近两个点的距离

容易形成链状簇

全链接 Complete Linkage

两簇中最远两个点的距离

簇更紧凑

平均链接 Average Linkage

两簇所有点对距离平均值

折中稳定

质心距离 Centroid

两簇中心之间距离

直观,但可能产生层次反转

4)层次聚类特点

优点:

  • 不一定需要提前指定簇数;
  • 可以生成树状图 dendrogram,便于观察不同粒度下的聚类结构。

缺点:

  • 计算复杂度较高;
  • 一旦合并或分裂,通常不能回退;
  • 对噪声和异常值较敏感。

8. 基于密度的聚类:DBSCAN

1)DBSCAN 核心思想

DBSCAN 认为簇是由高密度区域组成的,低密度区域是簇之间的边界或噪声。它可以发现任意形状的簇,并识别离群点。

2)关键参数

DBSCAN 有两个核心参数:

ε(epsilon, 𝜀 > 0)邻域半径:表示以某个点为中心,多大范围内算邻居。

MinPts最小点数:表示一个点的 𝜀 - 邻域内至少包含多少点,才算高密度区域。

3)核心概念

核心对象 Core Point  如果某点的𝜀 - 邻域内至少有 MinPts 个点,则该点是核心对象。

边界点 Border Point 不是核心对象,但落在某个核心对象的邻域内。

噪声点 Noise Point 既不是核心对象,也不属于任何核心对象邻域的点。

直接密度可达 如果点 q 在核心点 p 的𝜀 - 邻域内,则 q 从 p 直接密度可达。

密度可达 如果存在一条核心点链,使得一个点可以沿着密度连接关系到达另一个点,则称为密度可达。

密度相连 如果两个点都可以由某个核心点密度可达,则它们密度相连。

4)DBSCAN 优点

  • 不需要提前指定簇数;
  • 能发现任意形状簇;
  • 可以识别噪声点,对异常值相对鲁棒。

5)DBSCAN 缺点

  • 对参数𝜀 - 邻域和 MinPts 敏感;
  • 不适合不同密度差异很大的数据;
  • 高维数据中距离度量可能失效。

9. 基于网格的聚类

基于网格的聚类把数据空间划分成有限数量的网格单元,然后在网格层面进行聚类。

代表思想:

  1. 将空间划分为网格;
  2. 统计每个网格中的数据密度;
  3. 合并高密度相邻网格;
  4. 形成簇。

常见算法包括 STING、CLIQUE、WaveCluster 等。

优点:

  • 速度快,适合大规模空间数据。
  • 与数据对象数量关系较弱;

缺点:

  • 聚类质量受网格粒度影响;
  • 网格太粗会丢失细节,网格太细会增加计算量。

10. 聚类质量评价

聚类评价通常分为:

1)内部评价:不依赖真实标签,只看聚类结果本身。

常见指标:

SSE:衡量簇内误差平方和,越小越好。

但 SSE 通常会随着 K 增大而减小,所以不能单独使用。

轮廓系数 Silhouette Coefficient

综合衡量类内紧密度和类间分离度。

对样本 i:

  • a(i):样本 i 到同簇其他样本的平均距离;
  • b(i):样本 i 到最近其他簇样本的平均距离。

范围:

解释:

含义

接近 1

聚类效果好,a(i)/b(i)接近0

接近 0

样本在簇边界附近, a(i)/b(i)接近1

小于 0

可能被分错簇,a(i)/b(i)>1

2)外部评价

依赖真实标签,将聚类结果与真实类别比较。

常见指标包括:

  • Rand Index;
  • Adjusted Rand Index;
  • NMI;
  • Purity。

3)选择 K 的方法

肘部法 Elbow Method

观察 K 增大时 SSE 的下降曲线。当 SSE 下降速度明显变慢的位置,就是较合适的 K。

像手肘一样的拐点。

三、分类问题

1. 分类的核心思想

分类是监督学习任务,目标是:

根据已知类别标签的数据,学习一个从特征到类别的映射函数。

形式上可以表示为:y=f(x)

其中:

  • x:样本特征;
  • y:类别标签;
  • f:分类模型。

2. 分类任务的两个阶段

1)学习阶段 Training

利用训练集学习分类器。

训练数据包含:

        

模型通过这些样本学习特征与标签之间的关系。

2)测试阶段 Testing

使用训练好的分类器预测新样本的类别。

3. 常见分类模型

课程中涉及的分类方法主要包括:

  • 决策树;
  • K 近邻分类器;
  • 集成学习;
  • 随机森林;
  • AdaBoost;
  • 时序预测模型;
  • RNN、LSTM、GRU;
  • 分类模型评价。

4. 决策树

1)决策树定义

决策树是一种类似流程图的树形分类模型。

它由结点和有向边组成:

  • 内部结点:表示某个属性上的测试;
  • 分支:表示测试结果;
  • 叶结点:表示类别标签。

例如:

是否有房?

├── 是:信用好

└── 否:

    ├── 收入高:信用好

    └── 收入低:信用差

2)决策树构建步骤

通常包括三步:

  1. 特征选择;
  2. 决策树生成;
  3. 决策树剪枝。

3)属性选择度量

决策树构建的核心问题是:当前结点应该选择哪个属性进行划分?

目标是使划分后的子结点尽可能“纯”。

常见度量包括:

  • 信息增益,ID3;
  • 信息增益率,C4.5;
  • 基尼系数,CART。

4)信息熵 Entropy

信息熵衡量不确定性。

其中:

  • pi:样本属于第 i 类的概率;
  • 类别越混杂,熵越大;类别越纯,熵越小。就跟整理桌面一样,桌面越干净整齐尚越小。

例如:

  • 全部样本属于同一类:熵为 0;
  • 正负样本各一半:熵较大。

5)信息增益 Information Gain

信息增益表示使用某个属性划分数据后,不确定性减少了多少。

其中:

  • S:当前样本集;
  • A:候选属性;
  • Sv:属性 A 取值为 v 的子集。

信息增益越大,说明该属性划分效果越好。ID3 使用信息增益选择属性。

6)ID3 决策树

ID3 的特点:

  • 使用信息增益选择划分属性,倾向于选择分支较多的属性;
  • 不擅长处理连续属性和缺失值;
  • 没有剪枝机制,容易过拟合。

7)信息增益率 Gain Ratio

C4.5 针对 ID3 的偏向问题,引入信息增益率。

其中:

信息增益率可以降低对多分支属性的偏好。

8)C4.5 决策树

C4.5 是 ID3 的改进版本,主要改进包括:

  • 使用信息增益率;
  • 可以处理连续属性和缺失值;
  • 引入剪枝策略,缓解过拟合。

9)基尼系数 Gini Index

CART 决策树常使用基尼系数衡量不纯度。

基尼系数越小,样本集越纯。CART 选择使划分后基尼指数最小的属性。

解决计算效率问题和规避“多值偏向”问题(本质上每次只划分两个,分裂都只产生2个分支)

10)CART 决策树

CART,全称 Classification and Regression Tree。

特点:

  • 可以用于分类,也可以用于回归;
  • 通常生成二叉树,可以配合剪枝提高泛化能力。
  • 分类时常使用基尼系数;回归时常使用平方误差。

11)决策树的优缺点

优点

  • 可解释性强;
  • 分类速度快;
  • 可以处理非线性关系;
  • 对数据分布假设少。

缺点

  • 容易过拟合,对数据扰动敏感;
  • 贪心划分不一定得到全局最优树;
  • 对连续变量和缺失值需要额外处理。

5. 偏差-方差困境

分类模型需要在偏差和方差之间取得平衡。

类型

含义

现象

偏差 Bias

模型假设与真实规律之间的误差

欠拟合

方差 Variance

模型对训练数据变化的敏感程度

过拟合

一般来说:

  • 简单模型:偏差高,方差低;
  • 复杂模型:偏差低,方差高。

决策树通常方差较高,因此容易过拟合,需要剪枝或集成学习。

6. 集成学习

1)核心思想

集成学习通过组合多个模型,提高整体预测性能。

基本形式:多个弱模型更强模型

常见组合方式:

  • 投票法;
  • 平均法;
  • 加权投票;
  • 加权平均。

2)Bagging

Bagging 是并行式集成方法。

核心思想:

  1. 从原始数据中有放回抽样;
  2. 构造多个训练子集;
  3. 分别训练多个基学习器;
  4. 分类时投票,回归时平均。

优点:

  • 降低方差,提高模型稳定性;
  • 适合高方差模型,例如决策树。

3)随机森林 Random Forest

随机森林是以 CART 决策树为基学习器的 Bagging 方法。

“随机”体现在两方面:

  1. 样本随机:Bootstrap 有放回抽样;
  2. 特征随机:每次划分时随机选择部分特征,再从中选最优特征。

特点:

  • 泛化能力强,不容易过拟合;
  • 能处理高维数据;
  • 可评估特征重要性;
  • 可解释性弱于单棵决策树。

4)Boosting

Boosting 是串行式集成方法,核心思想:后一个模型重点学习前一个模型分错的样本。

每一轮训练都会调整样本权重,使错误样本获得更高关注。

5)AdaBoost(Adaptive Boosting)

主要机制:

  1. 初始化样本权重;
  2. 训练一个弱分类器;
  3. 计算该分类器错误率;
  4. 根据错误率计算分类器权重;
  5. 提高被错分样本的权重;
  6. 重复训练多个弱分类器;
  7. 最终按分类器权重加权投票。

分类器权重:

        ​​​​​​​        

其中:

  • 𝜀 :分类器加权错误率;
  • 错误率越低,分类器权重越大。

AdaBoost 优点:

  • 通常分类精度较高,能把弱分类器提升为强分类器。

缺点:

  • 对噪声和异常值敏感;
  • 训练过程是串行的,不如 Bagging 易并行。

7. K 近邻分类器 KNN

1)核心思想

KNN 是一种惰性学习方法,它在训练阶段几乎不显式建模,而是在预测时:

  1. 找到距离测试样本最近的 K 个训练样本;
  2. 根据这些邻居的类别进行投票;
  3. 得票最多的类别作为预测结果。

2)KNN 三个基本要素

  1. K 值选择;
  2. 距离度量;
  3. 分类决策规则。

3)K 值影响

K

影响

K 太小

对噪声敏感,容易过拟合

K 太大

边界过于平滑,容易欠拟合

通常通过交叉验证选择 K。

4)KNN 优点

  • 简单直观,不需要训练复杂模型;
  • 适合非线性分类;
  • 对类别边界没有强假设。

5)KNN 缺点

  • 预测速度慢;
  • 对距离度量敏感,对特征尺度敏感,需要标准化;
  • 高维数据中效果下降;
  • 存储开销大。

8. 时序预测

分类章节中还涉及了时序预测相关内容。

1)时序数据

时序数据是按照时间顺序排列的数据,目标是根据历史数据预测未来趋势

例如:股票价格、电力负荷、用户访问量、传感器数据、销售额变化。

2)传统时序模型

传统方法通常依赖统计假设,例如:

  • 线性趋势;
  • 周期性;
  • 平稳性。

优点:

  • 简单,可解释性强,适合规律清晰的数据。

缺点:

  • 对复杂非线性关系建模能力有限。

3)RNN

RNN,Recurrent Neural Network,循环神经网络。

特点:

  • 适合处理序列数据;
  • 通过隐藏状态保存历史信息;
  • 可以处理任意长度序列。

基本思想:

Ht=tanh(UHt-1+WXt+b)
Yt=VHt

其中:

  • Ht:当前时刻隐藏状态;
  • Xt:当前输入;
  • Ht-1:上一时刻隐藏状态。

缺点:

  • 难以捕捉长期依赖;
  • 容易出现梯度消失或梯度爆炸。

4)LSTM

LSTM,Long Short-Term Memory。

它是特殊的 RNN,擅长处理长期依赖。

核心改进:

  • 引入记忆单元 (C_t);
  • 使用门控机制控制信息流动。

主要门:

  • 遗忘门:决定丢弃哪些旧信息;
  • 输入门:决定写入哪些新信息;
  • 输出门:决定输出哪些状态。

优点:

  • 能建模长期依赖;
  • 比普通 RNN 更稳定。

缺点:

  • 参数较多;
  • 训练成本较高。

5)GRU

GRU,Gated Recurrent Unit。

它是 LSTM 的简化版本。

主要门:

  • 更新门;
  • 重置门。

对比:

模型

特点

LSTM

记忆能力更强,适合长期依赖

GRU

结构更简单,参数更少,训练更快

9. 分类模型评价

1)混淆矩阵 Confusion Matrix

二分类中,混淆矩阵包括:

预测正例

预测负例

实际正例

TP

FN

实际负例

FP

TN

含义:

  • TP(True Positive):真正例,实际为正,预测为正;
  • TN(True Negative):真负例,实际为负,预测为负;
  • FP(False Positive):假正例,实际为负,预测为正;
  • FN(False Negative):假负例,实际为正,预测为负。

2)准确率 Accuracy

表示预测正确的比例。

注意:类别极不平衡时,准确率可能有误导性。

例如,疾病检测中,99% 都是健康人,模型全部预测健康,也能有 99% 准确率,但没有实际价值。

3)精确率 Precision

表示预测为正的样本中,真正为正的比例。

关注的是:

我预测为正的结果有多少是真的?

适合误报成本高的场景。例如垃圾邮件识别中,如果把正常邮件误判为垃圾邮件,影响较大,就要关注 Precision。

4)召回率 Recall

表示真实正例中,被模型找出来的比例。

关注的是:

真正的正例有多少被找到了?

适合漏报成本高的场景。例如疾病筛查、欺诈检测,更关注 Recall。

5)F1-score

F1 是 Precision 和 Recall 的调和平均:

适合 Precision 和 Recall 都重要的场景。

6)敏感性和特异性

敏感性 Sensitivity

也就是召回率:

衡量对正例的识别能力。

特异性 Specificity

衡量对负例的识别能力。

7)其他评价维度

除了数值指标,还可以考虑:

  • 预测速度 Speed;
  • 鲁棒性 Robustness;
  • 可伸缩性 Scalability;
  • 可解释性 Interpretability。

个人浅记:

下次改用markdown好了,word公式复制过来会变成图片。

诶,答辩项目问的没细看,主要看上课讲的了。答的一坨,虽然说项目都是自己一个人做的,但还是太紧张也没回顾项目。明天还有密码学,然后还有微机原理和计网,giao了,下次注意,后面也要锻炼自己演示项目的能力,要不然都宣传不出去。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值