贝叶斯分类器完整学习笔记（详细）

最新推荐文章于 2026-03-27 19:44:08 发布

原创

最新推荐文章于 2026-03-27 19:44:08 发布 · 3.5k 阅读

标签

#机器学习 #人工智能 #大数据 #数据挖掘 #深度学习

本文深入探讨了贝叶斯决策理论，解析了先验概率与后验概率的概念，介绍了生成模型与判别模型的区别。并通过实例讲解了极大似然估计、朴素贝叶斯分类器、半朴素贝叶斯分类器的工作原理，以及EM算法在处理隐变量问题中的应用。

大数据实验室学习记录 第N次 打卡

一、引言

根据自己的经验，由于是小白，一开始看不太懂西瓜书中的第七章贝叶斯相关知识，所以我把需要提前了解的小知识点给先放出来，如下：

先验概率（prior probability）
简单来说，就是指根据以往经验和分析得到的概率，即在事情发生之前，推测未来此事件发生概率。可看作“由因求果”。
举个通俗易懂的栗子：李华在成都春熙路观察了5周，发现每周末的时候好看的小姐姐最多，所以他打算以后每周末去春熙路，因为他根据以往的经验推测周末漂亮小姐姐多的概率比工作日大得多。
后验概率（posterior probability）
而后验概率是指在事情发生之后，依据得到的结果信息所计算出的最有可能是哪种原因导致发生，可看作“由果寻因”。
举个通俗的栗子：小明（李华的朋友）发现李华选择每周末去成都春熙路逛街，于是小明在想：选择周末去的原因有很多，比如周末小姐姐最多、周末发工资、周末才有时间等等，但是小明根据分析得出最有可能的原因是春熙路周末好看的小姐姐最多！
最大化后验准则（Maximum A Posterior ，MAP）
在对一个物体进行分类时，最直观的方法就是根据这个物体的特征，选择契合这个特征的类，这种思想就是MAP。通俗来讲就是根据此物体的特征，估计每个类在这个特征下的后验概率，然后选择后验概率最大的类！
举个通俗的栗子：好西瓜的特征是外观圆润、敲声清脆，那么我们就需要判断每一个西瓜的外观是否匹配圆润、敲声是否匹配清脆，从而判断这个西瓜是否属于好西瓜这一大类！
生成模型和判别模型
贝叶斯决策就属于生成模型，所谓 生成模型 就是分别对类的条件密度进行建模，然后利用贝叶斯公式计算后验概率。还比如概率图模型等。
判别模型 则是不经过概率推导，直接学习出后验概率，比如KNN、SVM等。

二、贝叶斯决策论（Bayesian decision theory）

什么是贝叶斯决策论？
贝叶斯决策论是概率框架下实施决策的基本方法。
对于分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
分类
a.基于最小风险的贝叶斯决策
b.基于最小错误率的贝叶斯决策
为什么最小风险和最小错误率不一样？
因为在实际问题中，错误率最小并不是普遍适用的最佳选择，比如，医生把病人的正常细胞误诊为癌细胞，和把癌细胞误诊为正常细胞，两者带来的影响是完全不一样的，前者固然会给人带来一定不必要的痛苦，但是后者则可能使病人失去及早治疗的机会而遭受巨大损失。因此从不同性质的错误会引起不同程度的损失这一角度考虑出发，我们宁肯扩大一些总的错误，但也要使总的损失减少，即考虑风险。

假设由有N种类别标记，即 $\gamma$ = {c₁，c₂，… ，c_N}， $\lambda$ _ij是将一个真是标记为c_j的样本误分类为c_i所产生的损失。
基于后验概率P（c_i | x）可获得将样本x分类为c_i所产生的期望损失，即在样本x上的”条件风险“为：
在这里插入图片描述

1.基于最小风险的贝叶斯决策

任务是寻找一个判定准则 h：X–> $\gamma$ 以最小化总体风险
在这里插入图片描述
显然，若对每个样本 x，h能最小化条件风险R(h(x) | x)，则总体风险R(h)也将被最小化，即贝叶斯判定准则：为最小化总体风险，只需在每个样本上选择哪个能使条件风险 R(c | x)最小的类别标记：

此时，h* 被称为贝叶斯最优分类器，与之对应的总体风险R(h*) 称为贝叶斯风险。
1-R(h*) 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度理论上限。

2.基于最小错误率的贝叶斯决策

误判损失 $\lambda$ 可写为：
在这里插入图片描述
也就是说若预判正确了，则损失为0，若预判错误了，则损失为1.
此时x的条件风险就是1减去后验概率，即：

于是，基于最小错误率的贝叶斯最优分类器为：

即对每个样本x，选择能使后验概率P(c | x)最大的类别标记。

怎么得到后验概率P(c | x) ?
怎么通过有限的训练样本集学习到能尽可能准确地估计出后验概率的模型呢？在现实任务中难以直接获得，由此就产生了引言中所说到的两大阵营：判别式和生成式。

判别式模型（discriminative models）：直接建模后验概率p(c∣x)。
生成式模型，（generative models）:对联合概率分布p(c,x)建模，再得到后验p(c∣x) 。对生成式模型必有：

基于贝叶斯定理，P(c | x)可写为：

其中，P©是类”先验“概率；
P(x | c)是样本x相对于类标记c的类条件概率，或称为“似然（likelihood）”；
P(x)是用于归一化的”证据“因子，对给定样本x，证据因子P(x)与类标记无关，因此，
估计P(x | c)的问题就转化为如何基于训练数据D来估计先验P(c )和似然P(x | c).其中P( c)可通过各类样本出现的频率来进行估计，但是对于类条件概率P(x | c)来说，由于它涉及关于x所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重的困难。因为训练集中很难把每一个样本取值都包括进去。（后面将会讲到用拉普拉多修正法来对待未出现的样本取值）