机器学习理论 | 周志华西瓜书第十二章：计算学习理论

最新推荐文章于 2025-04-12 18:32:52 发布

原创最新推荐文章于 2025-04-12 18:32:52 发布 · 1.2k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Machine Learning 专栏收录该内容

30 篇文章

订阅专栏

本文提炼了《机器学习》一书中计算学习理论的核心内容，包括PAC学习、VC维、Rademacher复杂度及稳定性等关键概念，并探讨了这些理论如何为机器学习算法提供理论保证。

第十二章计算学习理论

此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…

12.1 基础知识

1、概述
目的：分析学习任务的困难本质，为学习算法提供理论保证）

2、一些定义

令h为从X到Y的映射，h的泛化误差： $E(h;D)=Px∼D(h(x)≠y)E(h;\mathcal{D})=P_{\bm x\sim\mathcal{D}}(h(\bm x)≠y)$
h在D上的经验误差： $E^(h;D)=1m∑i=1mI(h(xi)≠yi)\hat{E}(h;D)=\frac 1 m\sum_{i=1}^m\mathbb{I}(h(\bm x_i)≠y_i)$
通过不合(disagreement)度量映射之间差别： $d(h1,h2)=Px∼D(h(x1)≠h(x2))d(h_1,h_2)=P_{\bm x\sim\mathcal{D}}(h(\bm x_1)≠h(\bm x_2))$

3、常用不等式
Jensen不等式：Hoeffding不等式：McDiarmid不等式：结论1结论2

12.2 PAC学习

1、概述
概率近似正确(Probably Approximately Correct)学习理论

2、一些定义
在这里插入图片描述
* PAC可学习(PAC Learnable)：
* PAC学习算法：
* 样本复杂度(Sample Complexity)：

12.3 有限假设空间

12.3.1 可分情形 $(c∈H)(c\in\mathcal{H})$

12.3.2 不可分情形 $(c∉H)(c\notin\mathcal{H})$

引理12.1推论12.1定理12.1不可知PAC可学习：
在这里插入图片描述

12.4 VC维

1、几个概念
标记结果的表示： $h∣D={(h(x1),h(x2),...,h(xm))}h|_D=\{(h(\bm x_1),h(\bm x_2),...,h(\bm x_m))\}$
增长函数(growth function)：
在这里插入图片描述
利用增长函数估计经验误差与泛化误差的关系：

对分(dichotomy)：H中的假设对D中实例赋予标记的每种可能结果称为对D的一种对分
打散(shattering)：假设空间H能实现示例集D上的所有对分

2、VC维的正式定义
定义12.7 假设空间H的VC维是能被H打散的最大示例集的大小：
VC维与增长函数的密切关系：
在这里插入图片描述
由此计算出增长函数的上界：

从而得到基于VC维的泛化误差界（分布无关、数据独立的）：

经验风险最小化(Empirical Risk Minimization, ERM)定理12.4 任何VC维有限的假设空间H都是(不可知)PAC可学习的

12.5 Rademacher复杂度

1、概述
另一种刻画假设空间复杂度的途径，一定程度考虑数据分布
定义12.8 函数空间F关于Z的经验Rademacher复杂度：在这里插入图片描述

2、关于函数空间F的泛化误差界

定理12.5（回归问题）
定理12.6（二分类问题）
定理12.7(从Rademacher复杂度和增长函数能推导出基于VC维的泛化误差界)

12.6 稳定性

1、一些定义

训练集D的变化
几种损失

2、算法的均匀稳定性(uniform stability)
定义12.10（移除示例稳定性包含替换示例稳定性）

定理12.8（给出基于稳定性分析推导出的学习算法学得假设的泛化误差界）

定理12.9 若学习算法是ERM且稳定的，则假设空间H可学习

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。