周志华机器学习（西瓜书）第二章模型评估与选择

最新推荐文章于 2024-08-29 22:42:35 发布

原创最新推荐文章于 2024-08-29 22:42:35 发布 · 687 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#机器学习 #深度学习 #人工智能

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了机器学习中两种误差——训练误差与泛化误差的概念，并详细解释了三种常用的评估方法：留出法、交叉验证法和自助法。此外还讨论了错误率、查准率、查全率、PR曲线、F1值及ROC曲线等性能度量指标。

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

（一）两种误差

1.训练误差（经验误差）：样本的测试集（样本的一部分，测试集有不同划分方法）的误差

2.泛化误差：新样本上的误差

（二）评估方法（或者说是测试集的选取方法）

1.留出法

分层采样，使训练集和测试集类别比例尽量一样。

适用于数据较多的情况。

2.交叉验证法

k折交叉验证，分k组，每次用k-1个组作为训练集，一组作为测试集（k个组都会轮一遍，所以是k次）。

适用于数据较多的情况。

ps:10次10折交叉验证法和100次留出法都是训练/测试一百次

3.自助法

从含有m个数据的样本集D随机不放回取样m个，形成新样本集D'，D'作为训练集，D\D'作为测试集。

适用于数据较少的情况。

（三）性能度量

1.错误率与精度

精度=1-错误率

2.查准率与查全率（见书上公式2.8和2.9）

查准率：预测的正例中有多少预测对了（是真正的正例）

查全率：真正的正例中有多少被模型预测出来了

PR曲线：y轴：查准率 x轴:查全率

平衡点（BEP）：查准率=查全率的点

F1：见P32公式

3.ROC：

纵轴—真正例率TPR：正例中有多少被检测出

横轴—假正例率FPR：反例中有多少没被检测出（被模型判定为正例）

AUC：RUC曲线的面积

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。