手推最小二乘法:从散点图到回归公式的完整推导

1. 这不是公式默写,而是亲手推导出那条直线——从散点图到数学直觉的完整旅程

你有没有盯着一张散点图发过呆?那些密密麻麻的点,像一群没有队形的鸟,看似杂乱无章,却总在暗示某种秩序。线性回归要做的,就是从这片混沌里,亲手拉出一根最“诚实”的直线——它不强行穿过每一个点,也不随意摆弄姿态,而是用数学的尺子,量出所有点到它的平均距离最短的那一条。这根线,就是我们常说的回归线,而它的斜率和截距,不是凭感觉画出来的,是被最小二乘法这个“数学裁判”严格裁定出来的。我第一次真正理解它,不是在课本上看到那个漂亮的 y = ax + b 公式,而是在 Excel 里手动拖动一条线,看着下方的“误差平方和”数字不断跳动、变小、再变小,直到它停在一个再也无法降低的谷底——那一刻,公式活了。这篇文章,就是带你重走一遍这条从视觉直觉到代数推导、再到数值验证的完整路径。它不假设你精通微积分,但要求你愿意拿起笔,在草稿纸上跟着算几步;它不回避求导和偏导这些词,但会告诉你为什么非得用它们,而不是别的工具;它更不会只给你一个黑箱函数,调用完就结束。如果你正被“为什么截距 a 的公式长那样?”、“为什么非得用平方而不是绝对值?”、“手算三个点就能验证公式吗?”这类问题卡住,那你来对地方了。这是一份给实践者的推导笔记,不是给考试者的速记口诀。

2. 核心思路拆解:为什么是“最小二乘”,而不是“最小距离”或“最小绝对值”?

2.1 目标函数的诞生:我们到底在“最小化”什么?

线性回归的终极目标,是找到一条直线 y = ax + b,让它能最好地“代表”我们手头的所有数据点 (xᵢ, yᵢ)。这里的“最好”,必须量化。一个最朴素的想法是:让每个点到直线的垂直距离之和最小。这听起来很公平,对吧?但数学上,点到直线的垂直距离公式是 |axᵢ + b - yᵢ| / √(a² + 1),分母里带着 a,这会让整个优化问题变得极其复杂,求导后方程非线性,没有解析解。我们想要的是一个能“一锤定音”算出 a 和 b 的公式,而不是一个需要反复试错的数值游戏。所以,我们必须简化这个距离的定义。

于是,统计学家们做了一个关键且精妙的妥协:他们不看真正的几何垂直距离,而是看 纵轴方向上的偏差 ,也就是 yᵢ - (axᵢ + b)。这个值叫“残差”(residual),它代表了模型预测值 (axᵢ + b) 和真实观测值 yᵢ 之间的差距。这个选择有坚实的现实基础:在绝大多数应用场景中,x 是我们能精确控制或测量的自变量(比如实验中的温度、投入的广告费),而 y 是我们试图预测的因变量(比如反应速率、销售额),其测量本身就带有随机误差。因此,我们默认 x 是“干净”的,所有不确定性都集中在 y 上。所以,衡量拟合好坏,自然就聚焦在 y 方向的误差上。

提示:这个“纵轴偏差”的假设,是线性回归模型成立的基石之一。如果 x 本身也存在巨大测量误差,那么普通最小二乘法(OLS)就不再是最优选择,你需要转向“主成分回归”或“误差变量模型”(Errors-in-Variables Model),那是另一个故事了。

2.2 为什么是“平方”,而不是“绝对值”或“四次方”?

有了残差 eᵢ = yᵢ - (axᵢ + b),下一步就是把所有 eᵢ “加起来”。但直接相加不行,因为正负残差会相互抵消。比如一个点高估了 5,另一个点低估了 5,总和是 0,但这显然不代表拟合得好。所以我们需要一个能放大误差、且永远为正的度量。

第一个想到的可能是绝对值:∑|eᵢ|。这确实能避免正负抵消,而且计算直观。但它有一个致命的数学缺陷: 绝对值函数在 eᵢ = 0 处不可导 。这意味着,当我们想用微积分这个最强大的优化武器去寻找最优的 a 和 b 时,会在残差为零的点上“卡壳”,找不到一个平滑的下降路径。整个优化过程会变得笨拙,需要借助更复杂的算法(如线性规划),失去了我们追求“解析解”的初衷。

而平方和 ∑eᵢ² 就完美避开了这个问题。函数 f(e) = e² 在整个实数域上都是光滑可导的,它的导数是 2e,清晰明了。更重要的是,平方操作天然地 惩罚大误差 。一个 10 的误差,其平方是 100;而两个 5 的误差,其平方和是 25 + 25 = 50。这符合我们的直觉:一个巨大的错误,比几个中等错误更不可接受。它迫使模型去“照顾”那些离群的点,让整体的拟合更加稳健(虽然有时也会被异常值带偏,这是它的另一面)。

至于四次方 ∑eᵢ⁴,它惩罚大误差的力度更强,但同样会带来计算复杂度的上升,并且对异常值过于敏感,反而可能牺牲掉大部分数据点的拟合精度。平方,是在数学优雅性、计算可行性和实际解释性之间,找到的一个近乎完美的平衡点。

2.3 最小二乘法的几何本质:在高维空间里找一个“投影”

如果你熟悉线性代数,最小二乘法还有一个极其优美的几何解释。我们可以把所有的观测值 y 看作一个 n 维向量 y = [y₁, y₂, ..., yₙ]ᵀ。而所有可能的预测值 (axᵢ + b) 的集合,则构成了一个由两个向量张成的二维平面:一个是全 1 向量 1 = [1, 1, ..., 1]ᵀ(对应截距 b),另一个是特征向量 x = [x₁, x₂, ..., xₙ]ᵀ(对应斜率 a)。任何一条直线的预测结果,都可以表示为这个平面上的一个向量: ŷ = a x + b 1

那么,寻找最优的 a 和 b,就等价于在这个二维平面上,找到一个向量 ŷ ,使得它与真实向量 y 之间的欧氏距离 || y - ŷ || 最小。而在线性代数中,一个向量到一个子空间的最短距离,就是该向量在这个子空间上的 正交投影 。也就是说,最优的 ŷ 必须满足 ( y - ŷ ) ⊥ 平面,即 ( y </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值