朴素贝叶斯算法原理数学公式案例及python代码

最新推荐文章于 2025-07-28 13:24:10 发布

原创

最新推荐文章于 2025-07-28 13:24:10 发布 · 990 阅读

标签

#机器学习 #python #算法

本文详细介绍了朴素贝叶斯算法，包括贝叶斯定理的案例解析、算法原理、参数估计（极大似然估计与贝叶斯估计），并探讨了条件独立假设对分类准确率的影响。同时提供了朴素贝叶斯分类器的Python代码示例，推荐学习机器学习理论的读者参考。

本文先通过介绍简单的案例来了解贝叶斯定理。案例如下：

例：一口袋里有3只红球，2只白球，采取不放回方式摸取，求：(1) 第一次摸到红球(记做A)的概率; (2) 第二次摸到红球(记做B)的概率; (3) 已知第二次摸到了红球，求第一次摸到的是红球的概率。

解: (1) $P (A) = 0.6$ #这就是先验概率

(2) $P(A^{’})=0.4，P(B|A)=0.5,P(B|A^{'}=0.75,P(B)=P(B|A)*P(A)+P(B|A^{’})*P(A^{'})=0.6$

(3) $\frac{P(B|A)*P(A)}{P(B)}=0.5$ #这就是后验概率

朴素贝叶斯(naive Bayes)法是基于贝叶斯定力与特定条件独立假设的分类方法。对于给定的数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ,利用贝叶斯定理求出后验概率最大的输出 $y$ 。

1 朴素贝叶斯的学习与分类

设输入空间 $\chi \subseteq R^{n}$ 为 $n$ 维向量的集合，输出空间为类标记集合 $Y={c_1,c_2,...,c_K}$ 。输入为特征向量 $\in \chi$ ，输出为类标记(class label) $\in Y$ 。 $X$ 是定义在输入空间 $\chi$ 上的随机变量， $Y$ 是定义在输出空间上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集 $T$ 由 $P (X, Y)$ 独立同分布产生。
$T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})}$
朴素贝叶斯法通过训练数据集学习联合概率分布 $P (X, Y)$ 。具体的，学习以下先验概率分布及条件概率分布。先验概率分布
$P(Y=C_k),k=1,2,...,K$
条件概率分布
$P(X=x|Y=c_k)=P(X^{(1)}=x^{1},...,X^{(n)}=x^{n}|Y=c_k),k=1,2,...,K$
于是学习到联合概率分布 $P (X, Y)$ 。