高数篇（四）-- 最小二乘法的几何解释与正则化的贝叶斯视角

最新推荐文章于 2026-06-20 09:38:28 发布

原创

最新推荐文章于 2026-06-20 09:38:28 发布 · 393 阅读

标签

#最小二乘法 #正则化 #机器学习 #线性回归

1. 从“找最近”到“画垂线”：最小二乘法的几何直觉

大家好，我是老张，在AI和算法领域摸爬滚打了十几年。今天咱们不聊复杂的代码，就聊聊一个最基础、但也是最核心的数学概念——最小二乘法。很多人学它，都是从一堆公式开始的，什么求偏导、解方程，搞得人头大。但在我眼里，它其实是一个特别“几何”、特别直观的故事。咱们今天就用画图的方式，把它讲明白。

想象一下，你面前有一张白纸，上面散落着七八个点。你的任务，是画一条直线，让这条直线“尽可能好”地穿过这些点。什么叫“尽可能好”呢？你可能会想，让这条直线离所有点都“最近”。没错，最小二乘法干的就是这个事：它找的，就是那条让所有点到直线的垂直距离的平方和最小的那条线。

为什么是“平方和”，而不是直接加距离？这里有个小坑。如果直接用距离（绝对值），在数学上不太好处理，因为绝对值函数在零点不可导，你没法用那些好用的求导工具去找最小值。而用距离的平方，函数就变得光滑了，求导、找极值点都方便得多。这就像你搬东西，直接抬一个奇形怪状的箱子很费劲，但如果你把它装进一个方方正正的纸箱里，就好搬多了。平方就是这个“方正的纸箱”，它把问题包装成了一个我们擅长解决的“凸优化”问题。

所以，最小二乘法的目标函数，用大白话说就是：找一条线，使得所有数据点到这条线的“落差”（垂直距离）的平方，加起来最小。 这个“落差”，就是我们常说的“残差”或“误差”。每一个数据点，都像是一个想站在这条直线上的小个子，但因为各种原因（比如测量误差、环境噪声），它只能站在直线上面或下面的某个位置。最小二乘法，就是帮这些小个子找到一条大家“平均”站得最舒服的基准线。