高数篇（四）-- 从最小二乘法到正则化：线性回归的优化与泛化

最新推荐文章于 2026-06-24 22:11:10 发布

原创

最新推荐文章于 2026-06-24 22:11:10 发布 · 594 阅读

标签

#线性回归 #最小二乘法 #正则化 #机器学习

1. 线性回归：从直觉到数学公式

大家好，我是老张，一个在AI和算法领域摸爬滚打了十多年的工程师。今天咱们来聊聊一个听起来高大上，但实际上离我们生活特别近的算法——线性回归。你可能觉得，线性回归不就是找条直线去拟合数据点吗？这有啥好讲的？别急，听我慢慢道来。线性回归不仅是机器学习的“Hello World”，更是理解整个监督学习范式的基石。从预测房价、股票趋势，到分析广告点击率，背后都有它的身影。更重要的是，理解了它，你就能顺藤摸瓜，搞懂更复杂的正则化、模型泛化等核心概念。

咱们先从最直观的一元线性回归说起。想象一下，你手头有一堆数据，比如记录了不同面积（x）和对应房价（y）的数据点，它们散乱地分布在坐标图上。你的任务就是找到一条直线，让这条直线尽可能地穿过所有这些点，或者说，让所有点到这条直线的“距离”之和最小。这条直线的方程就是 y = αx + β，我们的目标就是找到最合适的斜率 α 和截距 β。

怎么定义“尽可能近”呢？最直接的想法是，计算每个真实房价点 (x_i, y_i) 到我们预测直线对应点 (x_i, ŷ_i) 的垂直距离（即误差 ε_i = y_i - ŷ_i），然后让这些误差的绝对值之和最小。但绝对值在数学上处理起来比较麻烦（比如在零点不可导），所以前辈们想了个更“光滑”的办法：最小化误差的平方和。这就是最小二乘法的核心思想。

用数学公式表达，我们的目标就变成了找到 α 和 β，使得下面这个损失函数 L 最小： L(α, β) = Σ (y_i - α*x_i - β)²

这个式子就是均方误差。为什么是平方？除了求导方便，更深层的原因是，它对应着一种非常合理的假设：误差是随机的，并且服从高斯分布（也就是正态分布）。这个我们后面会详细说。

为了找到让 L 最小的 α 和 β，我们祭出微积分里的法宝——求偏导并令其为零。分别对 α 和 β 求偏导，解一个二元一次方程组，就能得到经典的解：

β = ȳ - α * x̄ α = Σ[(x_i - x̄)(y_i - ȳ)] / Σ[(x_i - x̄)²]

这里 x̄ 和 ȳ 分别是 x 和 y 的均值。这个公式是不是让你回想起了统计学里的“协方差除以方差”？没错，它本质上描述的就是 x 和 y 之间的线性相关程度。α 就是我们常说的回归系数。

我刚开始学的时候，总觉得这一堆求和符号看着头疼。后来发现，一旦引入矩阵，整个世界就清爽了。这也是我们从一元走向多元，从特例走向一般化的关键一步。

2. 最小二乘法的三重境界：代数、几何与概率

当我们从一元推广到多元（多个特征），比如用面积、卧室数量、房龄等多个因素来预测房价时，就需要使用矩阵语言。假设我们有 N 个样本，每个样本有 p 个特征，那么数据可以表示为一个 N×p 的矩阵 X，标签是一个 N×1 的列向量 Y。我们的模型是 Ŷ = Xw，其中 w 是一个 p×1 的权重向量，包含了我们需要求解的所有参数（包括截距项，通常通过在 X 中增加一列全1来实现）。

此时，损失函数可以写成非常优雅的矩阵形式： L(w) = ||Y - Xw||² 这里的 ||·|| 表示向量的 L2 范数（即各元素平方和再开方，平方后就是平方和）。我们的目标依然是： argmin_w L(w) = argmin_w ||Y - Xw||²