手推最小二乘法：从散点图到回归公式的完整推导

最新推荐文章于 2026-06-17 15:44:05 发布

原创

最新推荐文章于 2026-06-17 15:44:05 发布 · 302 阅读

标签

#最小二乘法 #线性回归 #残差平方和

1. 这不是公式默写，而是亲手推导出那条直线——从散点图到数学直觉的完整旅程

你有没有盯着一张散点图发过呆？那些密密麻麻的点，像一群没有队形的鸟，看似杂乱无章，却总在暗示某种秩序。线性回归要做的，就是从这片混沌里，亲手拉出一根最“诚实”的直线——它不强行穿过每一个点，也不随意摆弄姿态，而是用数学的尺子，量出所有点到它的平均距离最短的那一条。这根线，就是我们常说的回归线，而它的斜率和截距，不是凭感觉画出来的，是被最小二乘法这个“数学裁判”严格裁定出来的。我第一次真正理解它，不是在课本上看到那个漂亮的 y = ax + b 公式，而是在 Excel 里手动拖动一条线，看着下方的“误差平方和”数字不断跳动、变小、再变小，直到它停在一个再也无法降低的谷底——那一刻，公式活了。这篇文章，就是带你重走一遍这条从视觉直觉到代数推导、再到数值验证的完整路径。它不假设你精通微积分，但要求你愿意拿起笔，在草稿纸上跟着算几步；它不回避求导和偏导这些词，但会告诉你为什么非得用它们，而不是别的工具；它更不会只给你一个黑箱函数，调用完就结束。如果你正被“为什么截距 a 的公式长那样？”、“为什么非得用平方而不是绝对值？”、“手算三个点就能验证公式吗？”这类问题卡住，那你来对地方了。这是一份给实践者的推导笔记，不是给考试者的速记口诀。

2. 核心思路拆解：为什么是“最小二乘”，而不是“最小距离”或“最小绝对值”？

2.1 目标函数的诞生：我们到底在“最小化”什么？

线性回归的终极目标，是找到一条直线 y = ax + b，让它能最好地“代表”我们手头的所有数据点 (xᵢ, yᵢ)。这里的“最好”，必须量化。一个最朴素的想法是：让每个点到直线的垂直距离之和最小。这听起来很公平，对吧？但数学上，点到直线的垂直距离公式是 |axᵢ + b - yᵢ| / √(a² + 1)，分母里带着 a，这会让整个优化问题变得极其复杂，求导后方程非线性，没有解析解。我们想要的是一个能“一锤定音”算出 a 和 b 的公式，而不是一个需要反复试错的数值游戏。所以，我们必须简化这个距离的定义。

于是，统计学家们做了一个关键且精妙的妥协：他们不看真正的几何垂直距离，而是看 纵轴方向上的偏差 ，也就是 yᵢ - (axᵢ + b)。这个值叫“残差”（residual），它代表了模型预测值 (axᵢ + b) 和真实观测值 yᵢ 之间的差距。这个选择有坚实的现实基础：在绝大多数应用场景中，x 是我们能精确控制或测量的自变量（比如实验中的温度、投入的广告费），而 y 是我们试图预测的因变量（比如反应速率、销售额），其测量本身就带有随机误差。因此，我们默认 x 是“干净”的，所有不确定性都集中在 y 上。所以，衡量拟合好坏，自然就聚焦在 y 方向的误差上。

提示：这个“纵轴偏差”的假设，是线性回归模型成立的基石之一。如果 x 本身也存在巨大测量误差，那么普通最小二乘法（OLS）就不再是最优选择，你需要转向“主成分回归”或“误差变量模型”（Errors-in-Variables Model），那是另一个故事了。

2.2 为什么是“平方”，而不是“绝对值”或“四次方”？

有了残差 eᵢ = yᵢ - (axᵢ + b)，下一步就是把所有 eᵢ “加起来”。但直接相加不行，因为正负残差会相互抵消。比如一个点高估了 5，另一个点低估了 5，总和是 0，但这显然不代表拟合得好。所以我们需要一个能放大误差、且永远为正的度量。

第一个想到的可能是绝对值：∑|eᵢ|。这确实能避免正负抵消，而且计算直观。但它有一个致命的数学缺陷： 绝对值函数在 eᵢ = 0 处不可导 。这意味着，当我们想用微积分这个最强大的优化武器去寻找最优的 a 和 b 时，会在残差为零的点上“卡壳”，找不到一个平滑的下降路径。整个优化过程会变得笨拙，需要借助更复杂的算法（如线性规划），失去了我们追求“解析解”的初衷。

而平方和 ∑eᵢ² 就完美避开了这个问题。函数 f(e) = e² 在整个实数域上都是光滑可导的，它的导数是 2e，清晰明了。更重要的是，平方操作天然地 惩罚大误差 。一个 10 的误差，其平方是 100；而两个 5 的误差，其平方和是 25 + 25 = 50。这符合我们的直觉：一个巨大的错误，比几个中等错误更不可接受。它迫使模型去“照顾”那些离群的点，让整体的拟合更加稳健（虽然有时也会被异常值带偏，这是它的另一面）。

至于四次方 ∑eᵢ⁴，它惩罚大误差的力度更强，但同样会带来计算复杂度的上升，并且对异常值过于敏感，反而可能牺牲掉大部分数据点的拟合精度。平方，是在数学优雅性、计算可行性和实际解释性之间，找到的一个近乎完美的平衡点。

2.3 最小二乘法的几何本质：在高维空间里找一个“投影”

如果你熟悉线性代数，最小二乘法还有一个极其优美的几何解释。我们可以把所有的观测值 y 看作一个 n 维向量 y = [y₁, y₂, ..., yₙ]ᵀ。而所有可能的预测值 (axᵢ + b) 的集合，则构成了一个由两个向量张成的二维平面：一个是全 1 向量 1 = [1, 1, ..., 1]ᵀ（对应截距 b），另一个是特征向量 x = [x₁, x₂, ..., xₙ]ᵀ（对应斜率 a）。任何一条直线的预测结果，都可以表示为这个平面上的一个向量： ŷ = a x + b 1 。

那么，寻找最优的 a 和 b，就等价于在这个二维平面上，找到一个向量 ŷ ，使得它与真实向量 y 之间的欧氏距离 || y - ŷ || 最小。而在线性代数中，一个向量到一个子空间的最短距离，就是该向量在这个子空间上的 正交投影 。也就是说，最优的 ŷ 必须满足 ( y - ŷ ) ⊥ 平面，即 ( y </

最低0.47元/天解锁文章