《统计学习方法》六：手推“逻辑回归与最大熵模型”

最新推荐文章于 2025-06-29 19:58:50 发布

原创最新推荐文章于 2025-06-29 19:58:50 发布 · 270 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #统计学 #统计模型 #逻辑回归

机器学习同时被 2 个专栏收录

21 篇文章

订阅专栏

数学

19 篇文章

订阅专栏

本文深入探讨了逻辑回归和最大熵模型在机器学习中的应用。逻辑回归主要用于解决二分类问题，通过离散化特征增强模型鲁棒性和表达能力。最大熵模型遵循最大熵原理，选择熵最大的概率模型，与逻辑回归有类似形式，同属对数线性模型。

第六章逻辑回归与最大熵模型

逻辑回归主要用于二分类问题，与线性回归的核心区别在于，逻辑回归是一个对数线性模型。
6.1.逻辑回归模型
6.1.1.逻辑分布
在这里插入图片描述
6.1.2.二项逻辑回归模型

6.1.3.模型参数估计

6.1.4.多项逻辑回归

实际应用中通常将特征离散化带入逻辑回归模型，因为这这样做模型鲁棒性更强，同事模型表达内容更丰富。下面一段话摘自逻辑回归LR的特征为什么要先离散化:
在工业界，很少直接将连续值作为特征喂给逻辑回归模型，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：

稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰。
逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合。
离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力。
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问。

6.2.最大熵模型
6.2.1.最大熵原理
最大熵原理是概率学习模型的一个准则。最大熵原理认为，在学习概率模型时，所有可能的概率模型中，熵最大的模型时最好的。最大熵原理表述为在满足约束条件的模型集合中选择熵最大的模型
在这里插入图片描述
6.2.2.最大熵模型定义

6.2.4.最大熵模型的学习

6.2.5.极大似然估计

最大熵模型与逻辑回归模型有类似的形式，他呢吧又称为对数线性模型，模型学习就是在给定的训练数据条件下对模型进行极大似然估计或者正则化的极大似然估计