【ML模型详细推导1】- 线性回归

最新推荐文章于 2025-08-21 21:00:00 发布

原创最新推荐文章于 2025-08-21 21:00:00 发布 · 1.1k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#线性回归 #线性模型 #机器学习 #算法

机器学习模型详细推导专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了线性回归模型，包括数据集和目标、模型定义、最小二乘法策略、正规方程法及梯度下降法求解模型参数。重点探讨了线性回归的数学推导和广义线性模型的概念。

线性回归

0. 数据集和目标
1. 模型
2. 策略
3. 算法(模型求解)
- 3.1 正规方程法
- 3.2 梯度下降法
4. 广义线性模型

学习过程主要顺着周志华《机器学习》第三章线性模型内容，本次线性回归模型总结按照 “模型 + 策略 + 算法 ” 的统计学习三要素整理。

0. 数据集和目标

训练集假设m个样本，每个样本n个特征/属性，每个样本包含一个标记y。
表示为：
$D=\begin{bmatrix} X^{(1)}_1& X^{(1)}_2& ...& X^{(1)}_n& y_1& \\ X^{(2)}_1& X^{(2)}_2& ...& X^{(2)}_n& y_2& \\ ...& ...& ...& ...& ...& \\ X^{(m)}_1& X^{(m)}_2& ...& X^{(m)}_n& y_m& \\ \end{bmatrix}$ 其中， $X^{(i)}_j$ 代表第 i 个样本的第 j 个特征

模型的目标为：对于一个新的样本，给定特征 $(X^{(k)}_1, X^{(k)}_2, ... , X^{(k)}_n)$ ，可以给出它对应的 $y_k$ （在回归模型中， $y_k$ 是一个连续值）。

1. 模型

针对每个样本：
$f(x) = w_1x_1+ w_2x_2+ ...+ w_nx_n +b$ 其中， $w_i,b$ 为模型参数， $x_i$ 为每个样本的特征值。

线性模型试图学得一个通过特征的线性组合来进行预测的函数

为了方面操作，简化为矩阵形式：
$\theta$ 其中
$X=\begin{bmatrix} X^{(1)}_1& X^{(1)}_2& ...& X^{(1)}_n& 1& \\ X^{(2)}_1& X^{(2)}_2& ...& X^{(2)}_n& 1& \\ ...& ...& ...& ...& ...& \\ X^{(m)}_1& X^{(m)}_2& ...& X^{(m)}_n& 1& \\ \end{bmatrix}_{维度m*(n+1)} , \, \theta=\begin{bmatrix} w_1 \\ w_2 \\ ... \\ w_n \\ b \end{bmatrix}_{维度(n+1)*1}$ 所以
$X\theta = \begin{bmatrix} f(X_1) \\ f(X_2) \\ ... \\ f(X_m) \end{bmatrix}_{维度m*1} ,即为针对m个输入样本的预测值$

2. 策略

最小二乘法，均方误差作为损失函数
$\sum_{i=1}^{m}(f(x_i)-y_i))^2$ 矩阵形式：
$J(\theta) = (X\theta-y)^T(X\theta-y)$

最小二乘法：选择未知参数，使得理论值与观测值之差的平方和达到最小

所以，最优参数 $\theta^*$ ：
$(\theta^*) = arg \,minJ(\theta) = arg \,min (X\theta-y)^T(X\theta-y)$

3. 算法(模型求解)

算法是指学习模型参数的具体计算方法

求解最小二乘问题，可以采用正规方程法和迭代法（梯度下降法是迭代法的一种，可以用于求解线性和非线性最小二乘问题。高斯-牛顿法是另一种经常用于求解非线性最小二乘的迭代法）

（TODO1：进一步学习数值优化算法，迭代法）

3.1 正规方程法

因为 $J(\theta)$ 是关于 $\theta$ 的凸函数
所以 $J(\theta)$ 求导为0时，得到最小值，此时的 $\theta$ 即为最优解

何为凸函数：
对区间 [a, b] 上定义的函数 $f$ ，若它对区间中任意两点 $x_1, x_2$ 均有 $f(\frac{x_1+x_2}{2})\leqslant \frac{f(x_1)+f(x_2)}{2}$ ，则称 $f$ 为区间[a, b] 上的凸函数。
对实数集上的函数，可通过求二阶导数来判别：若二阶导数在区间上非负，则称为凸函数。

$J(\theta)$ 对θ向量求导取0，如下：
$\frac{\partial }{\partial \theta}J(\theta) = 2(X^TX\theta-X^Ty)=0$

求导过程：（其中一些矩阵求导公式参考：矩阵求导与转置运算或向量，标量对向量求导数）

$\begin{aligned} \frac{\partial }{\partial \theta}J(\theta) &=\frac{\partial }{\partial \theta} (X\theta-y)^T(X\theta-y)\\ &=\frac{\partial }{\partial \theta} [(\theta^TX^T-y^T)(X\theta-y)]\\ &=\frac{\partial }{\partial \theta} (\theta^TX^TX\theta - \theta^TX^Ty - y^TX\theta + y^Ty)\\ &=2X^TX\theta-X^Ty-X^Ty\\ &=2(X^TX\theta-X^Ty) \end{aligned}$

得：
$\theta = (X^TX)^{-1}X^Ty$

3.2 梯度下降法

针对损失函数： $J(\theta) = (X\theta-y)^T(X\theta-y)$ ，设定初始值 $\theta$ 、步长 $\alpha$
计算损失函数梯度：
$\triangledown = \frac{\partial }{\partial \theta}J(\theta) = 2X^T(X\theta-y)$
更新参数：
$\theta = \theta - \alpha \triangledown$