1. 从“找最近”到“画垂线”:最小二乘法的几何直觉
大家好,我是老张,在AI和算法领域摸爬滚打了十几年。今天咱们不聊复杂的代码,就聊聊一个最基础、但也是最核心的数学概念——最小二乘法。很多人学它,都是从一堆公式开始的,什么求偏导、解方程,搞得人头大。但在我眼里,它其实是一个特别“几何”、特别直观的故事。咱们今天就用画图的方式,把它讲明白。
想象一下,你面前有一张白纸,上面散落着七八个点。你的任务,是画一条直线,让这条直线“尽可能好”地穿过这些点。什么叫“尽可能好”呢?你可能会想,让这条直线离所有点都“最近”。没错,最小二乘法干的就是这个事:它找的,就是那条让所有点到直线的垂直距离的平方和最小的那条线。
为什么是“平方和”,而不是直接加距离?这里有个小坑。如果直接用距离(绝对值),在数学上不太好处理,因为绝对值函数在零点不可导,你没法用那些好用的求导工具去找最小值。而用距离的平方,函数就变得光滑了,求导、找极值点都方便得多。这就像你搬东西,直接抬一个奇形怪状的箱子很费劲,但如果你把它装进一个方方正正的纸箱里,就好搬多了。平方就是这个“方正的纸箱”,它把问题包装成了一个我们擅长解决的“凸优化”问题。
所以,最小二乘法的目标函数,用大白话说就是:找一条线,使得所有数据点到这条线的“落差”(垂直距离)的平方,加起来最小。 这个“落差”,就是我们常说的“残差”或“误差”。每一个数据点,都像是一个想站在这条直线上的小个子,但因为各种原因(比如测量误差、环境噪声),它只能站在直线上面或下面的某个位置。最小二乘法,就是帮这些小个子找到一条大家“平均”站得最舒服的基准线。
2. 升维思考:在向量空间里“投影”
刚才我们是在二维平面上画点画线。但现实中的数据,往往不止一个特征。比如预测房价,你得考虑面积、楼层、地段、房龄等等,这就是一个多维空间的问题。这时候,最小二乘法的几何美感才真正显现出来。
我们把数据矩阵 X 想象成一个多维空间(比如100个样本,10个特征,就是在一个10维空间里有100个点)。我们的目标值 Y,也是一

-- 最小二乘法的几何解释与正则化的贝叶斯视角&spm=1001.2101.3001.5002&articleId=150996293&d=1&t=3&u=1849a1bdf9d747f0a0906c7e9b586b66)
1222

被折叠的 条评论
为什么被折叠?



