目录
前言
本篇主要总结了机器学习入门知识,内容摘自《机器学习公式详解》配套视频,如有不足,恳请指正,欢迎交流~
第 1 章 线性模型
0. 机器学习三要素
- 模型:根据问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略
- 算法:求解损失函数,确定最优模型
1. 一元线性回归
1.1 最小二乘法估计
最小二乘法:基于均方误差最小化来进行模型求解的方法,试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
线性回归试图学得
f
(
x
i
)
=
w
x
i
+
b
,使得
f
(
x
i
)
≈
y
i
f(x_{i})=wx_{i}+b,使得f(x_{i})≈y_{i}
f(xi)=wxi+b,使得f(xi)≈yi
要想确定w和b,关键在于衡量f(x)与y之间的差别,可以考虑使均方误差最小化,即

1.2 极大似然估计



极大似然估计在一元线性回归模型的应用



1.3 求解 w 和 b

凸集

注*:此处的凸函数与《高等数学》中的凸函数是相反的概念,类似《高等数学》中的凹函数
[推荐教材:王燕军.《最优化基础理论与方法》]
梯度

Hessian 矩阵

凸函数判定

求解关于 w 的一阶偏导数

求解关于 w 的二阶偏导数

求解关于 w 和 b 的混合偏导数

求解关于 b 的二阶偏导数

证明凸函数


一阶偏导数为 0 的点为最小值点的依据

求解参数 w 和 b

1.4 向量化

2. 多元线性回归
2.1 导出 Ew hat
最小二乘法



2.2 向量化 Ew hat



2.3 求解 w hat
推导思路

求解 Hessian 矩阵

[标量-向量] 矩阵微分公式

[推荐教材:张贤达. 《矩阵分析与应用》]
[推荐手册:https://en.wikipedia.org/wiki/Matrix_calculus]
关于 w hat 求解一阶偏导数



3. 对数几率回归(逻辑回归)
[拓展阅读:https://sm1les.com/2019/01/17/logistic-regression-and-maximum-entropy/]
3.1 极大似然估计
确定概率密度函数


写出似然函数

求解损失函数


3.2 信息论
信息论和信息熵

相对熵

最优分布


单个样本的交叉熵

全体样本的交叉熵


对数几率回归三要素
- 模型:线性模型,输出值的范围是[0, 1],近似阶跃的单调可微函数
- 策略:极大似然估计,信息论
- 算法:梯度下降,牛顿法
4. 二分类线性判别分析
4.1 算法原理
从几何的角度,让全体训练样本经过投影后
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小
4.2 损失函数推导



4.3 拉格朗日乘子法

4.4 求解 w
拉格朗日函数



疑难解答

4.5 广义特征值

4.6 广义瑞利商



801

被折叠的 条评论
为什么被折叠?



