目录
前言
在机器学习领域中,我们经常会遇到各种分类任务:
-
垃圾邮件识别
-
用户流失预测
-
商品类别识别
-
新闻文本分类
-
疾病诊断
-
图像分类
例如:
给定一封邮件
判断它是否是垃圾邮件
或者:
给定一张猫的图片
判断它属于哪个类别
再或者:
给定用户的行为数据
预测用户是否会购买商品
这些问题看起来各不相同,但本质上都属于:
分类问题(Classification)
而分类问题背后的数学基础,很大程度上来源于:
离散概率模型(Discrete Probability Model)
事实上,在深度学习出现之前,大量机器学习算法都是建立在离散概率理论之上的。
例如:
-
朴素贝叶斯(Naive Bayes)
-
贝叶斯网络(Bayesian Network)
-
隐马尔可夫模型(HMM)
-
决策树中的概率计算
-
信息增益与熵
甚至今天的大语言模型,本质上也在不断预测:
下一个离散Token出现的概率
因此可以说:
离散概率模型是连接概率论与机器学习的重要桥梁
本文将系统讲解:
-
什么是离散概率模型
-
为什么分类任务离不开概率
-
离散概率模型如何描述分类问题
-
朴素贝叶斯分类器原理
-
贝叶斯决策思想
-
离散概率模型在机器学习中的应用
-
与深度学习的关系
帮助大家真正理解:
概率论是如何一步步演化成机器学习算法的
一、什么是离散概率模型
回顾离散随机变量
在上一篇文章中我们学习过:
离散随机变量
例如:
掷骰子:
X ∈ {1,2,3,4,5,6}
抛硬币:
X ∈ {正面,反面}
用户点击广告:
X ∈ {点击,未点击}
这些变量的特点是:
取值有限
或者可数无限
因此称为:
离散随机变量
什么是离散概率模型
离散概率模型描述:
随机变量取各个值的概率分布
例如:
| 结果 | 概率 |
|---|---|
| 正面 | 0.5 |
| 反面 | 0.5 |
或者:
| 类别 | 概率 |
|---|---|
| 猫 | 0.8 |
| 狗 | 0.15 |
| 鸟 | 0.05 |
这就是:
离散概率分布
二、机器学习分类问题是什么
一个简单例子
假设有如下用户数据:
| 年龄 | 收入 | 是否购买 |
|---|---|---|
| 25 | 5000 | 是 |
| 30 | 8000 | 是 |
| 20 | 3000 | 否 |
| 22 | 3500 | 否 |
现在来了一个新用户:
年龄:28
收入:7000
要求:
预测是否购买商品
这就是分类任务。
分类的本质
很多初学者认为:
分类就是找规律
实际上更准确的说法是:
分类是在计算概率
例如:
P(购买 | 年龄=28,收入=7000)
以及:
P(不购买 | 年龄=28,收入=7000)
谁更大:
就预测谁。
三、为什么分类离不开概率
现实世界充满不确定性。
例如:
两个收入相同的人:
一个购买
一个不购买
两个年龄相同的人:
一个点击广告
一个直接关闭
因此:
不存在绝对规则
只能说:
出现某个结果的概率更高
所以分类问题实际上是在解决:
哪个类别出现概率最大
的问题。
四、离散概率模型如何描述分类
分类标签
假设:
Y = 商品类别
可能取值:
Y ∈ {手机,电脑,平板}
这就是一个离散随机变量。
特征变量
例如:
X1 = 年龄
X2 = 收入
X3 = 性别
目标:
利用:
X1,X2,X3
预测:
Y
本质上求解:
P(Y | X1,X2,X3)
五、贝叶斯决策思想
分类问题中最重要的思想之一:
贝叶斯决策
核心问题:
已知用户特征
求用户属于某类别概率
例如:
P(垃圾邮件 | 邮件内容)
或者:
P(患病 | 检测结果)
这实际上就是条件概率问题。
六、朴素贝叶斯分类器
什么是朴素贝叶斯
机器学习历史上最经典分类算法之一:
Naive Bayes
其思想非常简单:
利用贝叶斯公式进行分类
垃圾邮件案例
邮件内容:
免费
中奖
点击领取
训练数据统计发现:
这些词在垃圾邮件中经常出现。
因此:
P(垃圾邮件 | 邮件内容)
会非常大。
模型就会预测:
垃圾邮件
七、朴素贝叶斯为什么叫“朴素”
因为它做了一个大胆假设:
所有特征相互独立
例如:
年龄
收入
学历
之间没有关系。
现实中显然不成立。
但令人惊讶的是:
很多场景效果很好
八、离散概率模型与文本分类
文本分类是离散概率模型最经典应用之一。
新闻分类
输入:
世界杯开幕
梅西进球
阿根廷获胜
模型发现:
世界杯
梅西
足球
高频出现。
于是:
体育新闻概率最高
完成分类。
九、离散概率模型与推荐系统
推荐系统同样大量使用概率思想。
例如:
用户:
年龄25岁
男性
喜欢篮球
系统统计发现:
此类用户:
80%喜欢运动鞋
于是预测:
购买运动鞋概率高
并进行推荐。
十、离散概率模型与医疗诊断
医疗AI中:
目标:
预测是否患病
输入:
-
年龄
-
性别
-
化验结果
-
症状
模型计算:
P(患病 | 症状)
如果概率超过阈值:
建议进一步检查
十一、离散概率模型与图像分类
很多人认为:
图像分类属于深度学习
实际上:
最终输出仍然是:
离散类别
例如:
| 类别 | 概率 |
|---|---|
| 猫 | 0.92 |
| 狗 | 0.05 |
| 鸟 | 0.03 |
模型最终选择:
概率最大的类别
因此:
深度学习最终依然回归概率
十二、从离散概率到Softmax
现代神经网络最后一层经常使用:
Softmax
作用:
把任意实数转换成概率
例如:
神经网络输出:
[2.5,1.2,0.3]
经过Softmax:
[0.72,0.21,0.07]
表示:
| 类别 | 概率 |
|---|---|
| 猫 | 72% |
| 狗 | 21% |
| 鸟 | 7% |
这实际上就是:
离散概率分布
十三、离散概率模型与大语言模型
今天最热门的大模型:
例如:
-
GPT
-
DeepSeek
-
Claude
-
Gemini
其核心工作是:
预测下一个Token
例如:
输入:
中国的首都是
模型预测:
| 词语 | 概率 |
|---|---|
| 北京 | 0.98 |
| 上海 | 0.01 |
| 广州 | 0.01 |
然后选择:
概率最高的Token
本质上:
仍然是离散概率建模
十四、离散概率模型的优缺点
优点
原理简单
容易理解和实现。
可解释性强
能够直接看到:
为什么预测这个结果
训练速度快
尤其适合:
-
文本分类
-
风险预测
-
推荐系统
缺点
特征独立假设过强
现实数据往往存在关联。
表达能力有限
面对复杂非线性问题:
效果不如深度学习
十五、从概率论到人工智能
离散概率模型的发展路径:
概率论
↓
随机变量
↓
条件概率
↓
贝叶斯推断
↓
离散概率模型
↓
机器学习
↓
深度学习
↓
大语言模型
可以说:
现代人工智能的发展
始终建立在概率理论之上
总结
离散概率模型是机器学习分类任务的重要理论基础,它通过概率分布描述类别出现的可能性,并利用条件概率完成分类决策。
本文系统讲解了:
1、什么是离散概率模型
2、分类问题的本质
3、概率与分类的关系
4、贝叶斯决策思想
5、朴素贝叶斯分类器原理
6、文本分类应用
7、推荐系统应用
8、医疗诊断应用
9、图像分类应用
10、大语言模型中的概率预测
可以将离散概率模型总结为:
离散概率模型本质上是在回答一个问题:面对多个可能结果,哪一个出现的概率最大?从最早的朴素贝叶斯,到今天的GPT和大语言模型,虽然模型结构发生了巨大变化,但核心思想始终没有改变——利用概率分布描述世界,并基于概率做出最优决策。
当你真正理解离散概率模型之后,就会发现:机器学习中的分类问题,本质上是一场关于概率的计算与决策过程。

896

被折叠的 条评论
为什么被折叠?



