高数篇(四)-- 从最小二乘法到正则化:线性回归的优化与泛化

1. 线性回归:从直觉到数学公式

大家好,我是老张,一个在AI和算法领域摸爬滚打了十多年的工程师。今天咱们来聊聊一个听起来高大上,但实际上离我们生活特别近的算法——线性回归。你可能觉得,线性回归不就是找条直线去拟合数据点吗?这有啥好讲的?别急,听我慢慢道来。线性回归不仅是机器学习的“Hello World”,更是理解整个监督学习范式的基石。从预测房价、股票趋势,到分析广告点击率,背后都有它的身影。更重要的是,理解了它,你就能顺藤摸瓜,搞懂更复杂的正则化、模型泛化等核心概念。

咱们先从最直观的一元线性回归说起。想象一下,你手头有一堆数据,比如记录了不同面积(x)和对应房价(y)的数据点,它们散乱地分布在坐标图上。你的任务就是找到一条直线,让这条直线尽可能地穿过所有这些点,或者说,让所有点到这条直线的“距离”之和最小。这条直线的方程就是 y = αx + β,我们的目标就是找到最合适的斜率 α 和截距 β。

怎么定义“尽可能近”呢?最直接的想法是,计算每个真实房价点 (x_i, y_i) 到我们预测直线对应点 (x_i, ŷ_i) 的垂直距离(即误差 ε_i = y_i - ŷ_i),然后让这些误差的绝对值之和最小。但绝对值在数学上处理起来比较麻烦(比如在零点不可导),所以前辈们想了个更“光滑”的办法:最小化误差的平方和。这就是最小二乘法的核心思想。

用数学公式表达,我们的目标就变成了找到 α 和 β,使得下面这个损失函数 L 最小: L(α, β) = Σ (y_i - α*x_i - β)²

这个式子就是均方误差。为什么是平方?除了求导方便,更深层的原因是,它对应着一种非常合理的假设:误差是随机的,并且服从高斯分布(也就是正态分布)。这个我们后面会详细说。

为了找到让 L 最小的 α 和 β,我们祭出微积分里的法宝——求偏导并令其为零。分别对 α 和 β 求偏导,解一个二元一次方程组,就能得到经典的解:

β = ȳ - α * x̄ α = Σ[(x_i - x̄)(y_i - ȳ)] / Σ[(x_i - x̄)²]

这里 分别是 x 和 y 的均值。这个公式是不是让你回想起了统计学里的“协方差除以方差”?没错,它本质上描述的就是 x 和 y 之间的线性相关程度。α 就是我们常说的回归系数。

我刚开始学的时候,总觉得这一堆求和符号看着头疼。后来发现,一旦引入矩阵,整个世界就清爽了。这也是我们从一元走向多元,从特例走向一般化的关键一步。

2. 最小二乘法的三重境界:代数、几何与概率

当我们从一元推广到多元(多个特征),比如用面积、卧室数量、房龄等多个因素来预测房价时,就需要使用矩阵语言。假设我们有 N 个样本,每个样本有 p 个特征,那么数据可以表示为一个 N×p 的矩阵 X,标签是一个 N×1 的列向量 Y。我们的模型是 Ŷ = Xw,其中 w 是一个 p×1 的权重向量,包含了我们需要求解的所有参数(包括截距项,通常通过在 X 中增加一列全1来实现)。

此时,损失函数可以写成非常优雅的矩阵形式: L(w) = ||Y - Xw||² 这里的 ||·|| 表示向量的 L2 范数(即各元素平方和再开方,平方后就是平方和)。我们的目标依然是: argmin_w L(w) = argmin_w ||Y - Xw||²

2.1 代数视角:直接求解与伪逆

对矩阵形式的 L(w) 求导(涉及一些矩阵微积分知识),令导数等于零,我们可以得到著名的正规方程XᵀX w =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值