注:其实不是原创,可也不是转载和翻译,是整理的邹博《机器学习》视频配套ppt里关于朴素贝叶斯的算法推导。怎么就没有个其它选项,不选还不行?
数学基本公式
条件概率公式:
P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B)
全概率公式:
P(A)=∑iP(A|Bi)P(Bi)P(A)=∑iP(A|Bi)P(Bi)
贝叶斯公式:
P(Bi|A)=P(A|Bi)P(Bi)∑jP(A|Bj)P(Bj)P(Bi|A)=P(A|Bi)P(Bi)∑jP(A|Bj)P(Bj)
朴素贝叶斯算法 Naive Bayes
1、问题
对于给定的特征向量X(x1,x2,...,xn)X(x1,x2,...,xn),类别yy的概率可以根据贝叶斯公式得到:
求给定新的样本xn+1xn+1时,其类别y^y^是什么。
2、推导
(1)特征独立性假设:一个特征出现的概率,与其它特征(条件)独立,每个特征同等重要。
(2)由上面假设推出:
P(xi|y,x1,x2,...,xi−1,xi+1,...,xn)=P(xi|y)P(xi|y,x1,x2,...,xi−1,xi+1,...,xn)=P(xi|y)
则有:
P(y|x1,x2,...,xn)=P(y)P(x1,x2,...,xn|y)P(x1,x2,...,xn)=P(y)∏ni=1P(xi|y)P(x1,x2,...,xn)P(y|x1,x2,...,xn)=P(y)P(x1,x2,...,xn|y)P(x1,x2,...,xn)=P(y)∏i=1nP(xi|y)P(x1,x2,...,xn)
(3)又,在给定样本集的前提下,P(x1,x2,...,xn)P(x1,x2,...,xn)是常数,则有
P(y|x1,x2,...,xn)∝P(y)∏i=1nP(xi|y)P(y|x1,x2,...,xn)∝P(y)∏i=1nP(xi|y)
(4)从而
y^=argmaxyP(y)∏i=1nP(xi|y)y^=argmaxyP(y)∏i=1nP(xi|y)
高斯朴素贝叶斯Gaussian Naive Bayes
假定特征服从高斯分布,即有:
P(xi|y)=12π−−√σyexp(−(xi−μy)22σ2y)P(xi|y)=12πσyexp(−(xi−μy)22σy2)
参数使用MLE估计即可:
假定训练集为T
μ=1n∑xϵTxiμ=1n∑xϵTxi
σ2=1n∑xϵT(xi−μ)2σ2=1n∑xϵT(xi−μ)2
将P(xi|y)P(xi|y)代入朴素贝叶斯公式求出y^y^
多项式朴素贝叶斯 Multinomial Naive Bayes
假定特征服从多项式分布,对每个类别yy,参数为
其中nn为特征的数目,的概率为θyiθyi
参数θyθy使用MLE估计的结果为:
θyi=Nyi+αNy+αn, α⩾0θyi=Nyi+αNy+αn, α⩾0
假定训练集为T,属于y类别的样本集为TyTy,则有:
Nyi=∑xϵTyxiNyi=∑xϵTyxi (属于yy类别的样本中出现多少次)
Ny=∑Ti=1NyiNy=∑i=1TNyi (属于yy类别的样本个数)
其中:
称为Laplace平滑,避免θyiθyi出现0/0的算法异常;
α<1α<1称为Lidstone平滑
将P(xi|y)P(xi|y)代入朴素贝叶斯公式求出y^y^
本文详细介绍了朴素贝叶斯算法的基本原理,包括条件概率、全概率及贝叶斯公式等数学基础知识,并深入探讨了朴素贝叶斯算法的推导过程。此外,还介绍了两种特殊形式——高斯朴素贝叶斯与多项式朴素贝叶斯的应用场景及其参数估计方法。

1万+

被折叠的 条评论
为什么被折叠?



