机器学习（00）—统计机器学习概念

最新推荐文章于 2024-11-30 15:43:50 发布

原创最新推荐文章于 2024-11-30 15:43:50 发布 · 554 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #python

统计机器学习专栏收录该内容

6 篇文章

订阅专栏

本文探讨了统计学习的基本概念，包括预测变量与响应变量的关系，预测与推断的区别，以及参数和非参数方法在估计未知函数fff中的应用。讨论了预测精度与模型解释性的权衡，以及如何通过统计学习方法来解决预测和推断问题。

统计机器学习概念

1. 什么是统计学习

1. 什么是统计学习

一般情况，假设观察到一个定量的响应变量（输出变量） $Y$ 和 $p$ 个不同的预测变量（输入变量） $X_1, X_2, ...,X_p$ 。假设 $Y$ 与 $X=(X_1, X_2, ...,X_p)$ 有一定的关系，可以表达为：
$\ Y = f(X) + \epsilon$
其中：
$f$ ——是关于 $X_1, X_2, ...,X_p$ 的固定未知函数；
$\epsilon$ ——是随机误差项，与 $X$ 独立，且均值为0.

Income数据集
图中的点为Income的观测值（千美元）和30个人的教育年限，右图中曲线代表真实的收入和教育年限的关系，一般情况下该曲线是未知的。竖线表示与每个观测值有关的误差项 $\epsilon$ 。

当有两个预测变量（教育年限和专业资质）时， $f$ 是一个基于观测值估计的二维曲面。

1.1什么时候需要估计 $f$

估计 $f$ 的原因有两个：预测和推断。

预测（可以不知道 $f$ 的具体形式）

当输入变量已知，输出变量未知时，由于误差项 $\epsilon$ 的均值是0，那么可以通过下式预测 $Y$ ：
$\hat{Y} = \hat{f}(X)$
其中：
$\hat{f}$ ——表示对 $f$ 的预测，且 $\hat{f}$ 是个黑箱，能准确的预测 $Y$ 但不知道 $\hat{f}$ 的函数表达式。
$\hat{Y}$ ——表示 $Y$ 的预测值。

$\hat{Y}$ 的精确性主要依靠两个量，可约误差和不可约误差。
因为 $\hat{f}$ 与 $f$ 并不完全相等，其引起的误差叫做可约误差，如果选择更合适的统计学习方法可以降低这类误差。
由 $\ Y = f(X) + \epsilon$ 可知， $Y$ 是一个关于 $\epsilon$ 的函数， $\epsilon$ 引起的误差叫做不可约误差。 $\epsilon$ 与 $X$ 相互独立，所以无论无何，都不能减少不可约误差。 $\epsilon$ 包含了不可测量的误差。

于是
$E(Y-\hat{Y})^2 = E[f(X)-\hat{f}(X)+\epsilon]^2 \\ =E[f(X)-\hat{f}(X)]^2（可约误差）+Var(\epsilon) （不可约误差）\\$
其中：
$E(Y-\hat{Y})^2$ ——表示预测值 $\hat{Y}$ 与实际值 $Y$ 的均方误差；
$Var(\epsilon)$ ——表示随机误差项的方差。
不可约误差提供了预测 $Y$ 精度的上界，在实践中这个上界是未知的。

推断（必须明确 $Y$ 与 $X$ 的关系）

当需要明确 $X$ 与 $Y$ 的关系时，必须知道 $f$ 的具体形式。例如，当涉及如下问题时，必须明确 $Y$ 与 $X$ 的关系：

哪些预测变量与响应变量有关（通常只有一小部分预测变量与响应变量相关）
响应变量与每个预测因子之间的关系是什么
响应变量与预测变量之间的关系能否用一个线性方程或者其他复杂形式的方程概括

建模问题无非三类：预测、推断或者二者兼而有之。这些问题采用的方法可能不同。线性模型适用于相对简单和需要解释的推断问题，但其预测的精度可能不太高。高度非线性的方法可以提供更准确的预测，但是其结果解释困难。

1.2 如何估计 $f$

参数方法

参数方法（基于模型的方法）是基于模型估计的两阶段方法

首先，假设函数 $f$ 具有一定的形式
选定模型后用训练数据去拟合模型

拟合复杂的模型会导致过拟合现象，这表示模型拟合了错误或噪声。

非参数方法

非参数方法不需要对函数 $f$ 的形式事先做出假设。这类方法追求的是接近数据点的估计，估计的函数在光滑处理后尽可能地与更多数据点接近。
与参数方法相比的优点：不限定函数 $f$ 的具体形式，可以在更大范围内选择更适宜的 $f$ 形式。
与参数方法相比的缺点：无法将估计的问题简化到仅仅对少数参数进行估计的问题，所以为了获得更为精确的估计，往往需要大量的观测点。