离散概率模型在机器学习分类任务中的应用解析

原创于 2026-06-18 09:44:59 发布 · 16 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习 #分类 #人工智能 #深度学习 #数学

AI 专栏收录该内容

195 篇文章

订阅专栏

前言

在机器学习领域中，我们经常会遇到各种分类任务：

垃圾邮件识别
用户流失预测
商品类别识别
新闻文本分类
疾病诊断
图像分类

例如：

给定一封邮件
判断它是否是垃圾邮件

或者：

给定一张猫的图片
判断它属于哪个类别

再或者：

给定用户的行为数据
预测用户是否会购买商品

这些问题看起来各不相同，但本质上都属于：

分类问题（Classification）

而分类问题背后的数学基础，很大程度上来源于：

离散概率模型（Discrete Probability Model）

事实上，在深度学习出现之前，大量机器学习算法都是建立在离散概率理论之上的。

例如：

朴素贝叶斯（Naive Bayes）
贝叶斯网络（Bayesian Network）
隐马尔可夫模型（HMM）
决策树中的概率计算
信息增益与熵

甚至今天的大语言模型，本质上也在不断预测：

下一个离散Token出现的概率

因此可以说：

离散概率模型是连接概率论与机器学习的重要桥梁

本文将系统讲解：

什么是离散概率模型
为什么分类任务离不开概率
离散概率模型如何描述分类问题
朴素贝叶斯分类器原理
贝叶斯决策思想
离散概率模型在机器学习中的应用
与深度学习的关系

帮助大家真正理解：

概率论是如何一步步演化成机器学习算法的

一、什么是离散概率模型

回顾离散随机变量

在上一篇文章中我们学习过：

离散随机变量

例如：

掷骰子：

X ∈ {1,2,3,4,5,6}

抛硬币：

X ∈ {正面,反面}

用户点击广告：

X ∈ {点击,未点击}

这些变量的特点是：

取值有限
或者可数无限

因此称为：

离散随机变量

什么是离散概率模型

离散概率模型描述：

随机变量取各个值的概率分布

例如：

结果	概率
正面	0.5
反面	0.5

或者：

类别	概率
猫	0.8
狗	0.15
鸟	0.05

这就是：

离散概率分布

二、机器学习分类问题是什么

一个简单例子

假设有如下用户数据：

年龄	收入	是否购买
25	5000	是
30	8000	是
20	3000	否
22	3500	否

现在来了一个新用户：

年龄：28
收入：7000

要求：

预测是否购买商品

这就是分类任务。

分类的本质

很多初学者认为：

分类就是找规律

实际上更准确的说法是：

分类是在计算概率

例如：

P(购买 | 年龄=28,收入=7000)

以及：

P(不购买 | 年龄=28,收入=7000)

谁更大：

就预测谁。

三、为什么分类离不开概率

现实世界充满不确定性。

例如：

两个收入相同的人：

一个购买
一个不购买

两个年龄相同的人：

一个点击广告
一个直接关闭

因此：

不存在绝对规则

只能说：

出现某个结果的概率更高

所以分类问题实际上是在解决：

哪个类别出现概率最大

的问题。

四、离散概率模型如何描述分类

分类标签

假设：

Y = 商品类别

可能取值：

Y ∈ {手机,电脑,平板}

这就是一个离散随机变量。

特征变量

例如：

X1 = 年龄

X2 = 收入

X3 = 性别

目标：

利用：

X1,X2,X3

预测：

本质上求解：

P(Y | X1,X2,X3)

五、贝叶斯决策思想

分类问题中最重要的思想之一：

贝叶斯决策

核心问题：

已知用户特征
求用户属于某类别概率

例如：

P(垃圾邮件 | 邮件内容)

或者：

P(患病 | 检测结果)

这实际上就是条件概率问题。

六、朴素贝叶斯分类器

什么是朴素贝叶斯

机器学习历史上最经典分类算法之一：

Naive Bayes

其思想非常简单：

利用贝叶斯公式进行分类

垃圾邮件案例

邮件内容：

免费
中奖
点击领取

训练数据统计发现：

这些词在垃圾邮件中经常出现。

因此：

P(垃圾邮件 | 邮件内容)

会非常大。

模型就会预测：

垃圾邮件

七、朴素贝叶斯为什么叫“朴素”

因为它做了一个大胆假设：

所有特征相互独立

例如：

年龄
收入
学历

之间没有关系。

现实中显然不成立。

但令人惊讶的是：

很多场景效果很好

八、离散概率模型与文本分类

文本分类是离散概率模型最经典应用之一。

新闻分类

输入：

世界杯开幕
梅西进球
阿根廷获胜

模型发现：

世界杯
梅西
足球

高频出现。

于是：

体育新闻概率最高

完成分类。

九、离散概率模型与推荐系统

推荐系统同样大量使用概率思想。

例如：

用户：

年龄25岁
男性
喜欢篮球

系统统计发现：

此类用户：

80%喜欢运动鞋

于是预测：

购买运动鞋概率高

并进行推荐。

十、离散概率模型与医疗诊断

医疗AI中：

目标：

预测是否患病

输入：

年龄
性别
化验结果
症状

模型计算：

P(患病 | 症状)

如果概率超过阈值：

建议进一步检查

十一、离散概率模型与图像分类

很多人认为：

图像分类属于深度学习

实际上：

最终输出仍然是：

离散类别

例如：

类别	概率
猫	0.92
狗	0.05
鸟	0.03

模型最终选择：

概率最大的类别

因此：

深度学习最终依然回归概率

十二、从离散概率到Softmax

现代神经网络最后一层经常使用：

Softmax

作用：

把任意实数转换成概率

例如：

神经网络输出：

[2.5,1.2,0.3]

经过Softmax：

[0.72,0.21,0.07]

表示：

类别	概率
猫	72%
狗	21%
鸟	7%

这实际上就是：

离散概率分布

十三、离散概率模型与大语言模型

今天最热门的大模型：

例如：

GPT
DeepSeek
Claude
Gemini

其核心工作是：

预测下一个Token

例如：

输入：

中国的首都是

模型预测：

词语	概率
北京	0.98
上海	0.01
广州	0.01

然后选择：

概率最高的Token

本质上：

仍然是离散概率建模

十四、离散概率模型的优缺点

优点

原理简单

容易理解和实现。

可解释性强

能够直接看到：

为什么预测这个结果

训练速度快

尤其适合：

文本分类
风险预测
推荐系统

缺点

特征独立假设过强

现实数据往往存在关联。

表达能力有限

面对复杂非线性问题：

效果不如深度学习

十五、从概率论到人工智能

离散概率模型的发展路径：

概率论
↓
随机变量
↓
条件概率
↓
贝叶斯推断
↓
离散概率模型
↓
机器学习
↓
深度学习
↓
大语言模型

可以说：

现代人工智能的发展
始终建立在概率理论之上

总结

离散概率模型是机器学习分类任务的重要理论基础，它通过概率分布描述类别出现的可能性，并利用条件概率完成分类决策。

本文系统讲解了：

1、什么是离散概率模型
2、分类问题的本质
3、概率与分类的关系
4、贝叶斯决策思想
5、朴素贝叶斯分类器原理
6、文本分类应用
7、推荐系统应用
8、医疗诊断应用
9、图像分类应用
10、大语言模型中的概率预测

可以将离散概率模型总结为：

离散概率模型本质上是在回答一个问题：面对多个可能结果，哪一个出现的概率最大？从最早的朴素贝叶斯，到今天的GPT和大语言模型，虽然模型结构发生了巨大变化，但核心思想始终没有改变——利用概率分布描述世界，并基于概率做出最优决策。

当你真正理解离散概率模型之后，就会发现：机器学习中的分类问题，本质上是一场关于概率的计算与决策过程。