Logistic Regression 逻辑回归简单易懂的笔记 by hch

最新推荐文章于 2026-06-17 22:07:45 发布

原创最新推荐文章于 2026-06-17 22:07:45 发布 · 927 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能 #机器学习 #逻辑回归 #logistic regression

本文深入解析Logistic回归算法，从参数理解与预测，到sigmod函数应用，再到损失函数与梯度下降法，全面覆盖算法核心。同时，探讨正则化解决过拟合问题，包括L1与L2范式的原理及差异。

Logistic Regression

简单易懂的笔记 by hch

首先要搞懂干什么：

x	特征值1	特征值2	…	特征值n	y
x1	1	0	…	1	0
x2	0	1	…	1	1
…	…	…	…	…	…
xm	1	0	…	1	0

xj表示第j个样本，共有m个样本
xji表示第j个样本的第i维特征值
yj表示第j个样本的tag，即结果
我们试图通过已知tag的数据去训练模型，从而预测未知tag的数据
(下面数学公式有哪里不懂了，记得回来看这里的定义)

形象理解参数与预测

借用二维（假设只有两个特征）图像，我们可以把样本表示到二维图上
在这里插入图片描述
我们查看此图会发现，线段很好地分割了样本点该线段函数为

$y = a x$
我们换种表达方式

$Q=w_1x+w_2y$
点处于线段时，Q=0
点处于线段上方时，Q>0
点处于线段下方时，Q<0
也就如图中所显示的那样，我们通过这条线便可分出点的类别
那么开始延伸，预测xj样本，它有n维向量，表达式即为

$Q= w_1x_{j1}+w_2x_{j2}+w_3x_{j3}+...+w_nx_{jn}$
我们的问题也就演变成了如何求参（w1，w2，w3,…,wn）

sigmod函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pr7bR2wr-1581673388008)(C2A7B48D0FF5418DB440A49DEDDC6A78)]
即大于0时其趋近于1，小于0时其趋近于0,我们可以得到表达式

$h_\theta(x_j)=sigmoid(w_1x_{j1}+w_2x_{j2}+w_3x_{j3}+...+w_nx_{jn})$
当y=1时，我们希望h(xj)预测也为1
当y=0时，我们希望h(xj)预测也为0

合二为一

观察下面这个式子

$p（y_j|x_{j}）= h_\theta(x_j)^{y_j}*(1-h_\theta(x_j))^{1-y_j}$
当yj=1时，p(yj|xj)=1
当yj=0时，p(yj|xj)=1
我们只要希望这个函数输出1就好了

损失函数

（习惯于损失函数越小越好，所以加了负号）

$loss=-ln(\prod_{j=1}^mp(y_j|x_{j}))=\sum_{j=1}^m-y_jlnh_\theta(x_j)-(1-y_j)ln(1-h_\theta(x_j))$

梯度下降法

我们想要求上面那个函数的极大值点，第一想法是求导，然后让导数等于0，且得到的该点代入二阶导后小于0，就得到极大值点了，即

$f^{'}(x_0)=0$

$f^{''}(x_0)<0$
即x0为极大值点。但这是求一个自变量的函数极值的方法，我们有n个wi是未知的，也就是有n个自变量，这种方法自然是不管用了。那么是否仍然有特定的算数方法得到极大值呢？想必考过研的同学都知道二元是怎么求的，十分麻烦的方法，这时计算机提出了它自己的方法，我们依旧先用二维来理解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EsYfcOVK-1581673388009)(F4062D003294489DB9BEE2D0BD5DE983)]

$y=-x^2+6x$

导数的真正意义—方向

观察绿点（1，5），其导数为4
观察绿点（5，5），其导数为-4
导数的本质为“方向”
在（1，5）点x要往左移一些
在（5，5）点x要往右移一些

$x_1=x_0+\alpha*\frac{\delta y}{\delta x}$

计算机在（1，5）点，以α的学习速率向左移动x，一步步移动，最后会收敛到极大值点。拓展：针对我们的loss函数，我们对每一个自变量wi求导，并以α的学习速率更新wi。

$\frac{\delta loss}{\delta w_i}=\sum_{j=1}^{m}\frac{\delta loss}{\delta h_\theta(x_j)}*\frac{\delta loss}{\delta w}*\frac{\delta w}{\delta w_i}$

$\frac{\delta loss}{\delta h_\theta(x_j)}= -\frac{y_i}{ h_{\theta}(x_j)}+\frac{1-y_i}{1-h_{\theta}(x_j)}$

$sigmoid(x)=\frac{1}{1-e^{-x}}$

$sigmoid(x))^{'}=sigmoid(x)*(1-sigmoid(x))$

$\frac{\delta h_{\theta}(x_j)}{\delta w}=(1-sigmoid(h_\theta(x_j))sigmoid(h_\theta(x_j))$

$w=w_1*x_{j1}+w_1*x_{j2}+w_1*x_{j3}+....+w_1*x_{jn}$

$\frac{\delta w}{\delta w_i}=x_{ji}$

$wi=wi+α∗δlossδwiw_i=w_i+\alpha*\frac{\delta loss}{\delta w_i}$

以上收敛到wi即可，我们即求参完成，预测模型也完成了。

正则化

欠拟合与过拟合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0XoKszN1-1581673388011)(64E1EC463929494B9C5446CB3D6FC6BF)]
你觉得哪个图像能描绘这些点的走向最好？
一图完全是没描这叫“欠拟合” 也就是模型没训练好
二图虽然描的简单，但形象地表现了数据的大体走向，这叫“适当容量”，训练的不错
三图每个点都描上了，但描“过了”，用马克思原理来说，把“偶然性”表现在了我们追求的“必然性”之中，这叫“过拟合”