目录
前言
在机器学习领域中,分类问题是最常见的一类任务。
例如:
-
判断邮件是否为垃圾邮件
-
判断用户是否会购买商品
-
判断用户是否会流失
-
判断图片是否包含目标物体
-
判断患者是否患病
-
判断交易是否存在欺诈
这些问题都有一个共同特点:
最终结果只有两种可能
例如:
是 / 否
成功 / 失败
1 / 0
正样本 / 负样本
这种只有两个结果的问题,被称为:
二分类问题(Binary Classification)
而二分类问题背后最重要的概率模型之一,就是:
伯努利分布(Bernoulli Distribution)
伯努利分布看似简单,但它却是很多机器学习算法的数学基础:
-
逻辑回归(Logistic Regression)
-
二分类神经网络
-
二元交叉熵损失函数
-
推荐系统点击预测
-
风险预测模型
都建立在伯努利分布思想之上。
本文将系统讲解:
-
什么是伯努利分布
-
伯努利分布数学表达
-
成功概率如何建模
-
与二分类机器学习的关系
-
逻辑回归中的应用
-
交叉熵损失函数原理
-
深度学习中的实际意义
帮助大家理解:
二分类模型为什么本质上是在预测一个概率
一、什么是伯努利分布
从现实问题开始
生活中有大量随机事件:
例如:
用户是否购买商品:
购买
不购买
邮件:
垃圾邮件
正常邮件
医学:
患病
未患病
这些问题都有特点:
结果只有两个
概率论中:
这种随机实验称为:
伯努利试验(Bernoulli Trial)
二、伯努利试验是什么
伯努利试验需要满足三个条件:
条件一:只有两个结果
例如:
成功
失败
或者:
1
0
条件二:每次实验只有一次结果
例如:
一次点击:
点击或者未点击
不能同时:
点击 + 未点击
条件三:成功概率固定
假设:
点击概率:
p=0.3
则:
未点击概率:
1-p=0.7
三、伯努利分布的定义
假设随机变量:
X
表示实验结果。
规定:
X=1 表示成功
X=0 表示失败
那么:
X服从伯努利分布
记作:
X~Bernoulli(p)
其中:
p表示成功概率
四、伯努利分布概率公式
伯努利分布概率质量函数:
P(X=x)=p^x(1-p)^(1-x)
其中:
x∈{0,1}
当x=1
表示成功:
P(X=1)=p
例如:
用户购买概率:
p=0.8
那么:
购买概率:
80%
当x=0
表示失败:
P(X=0)=1-p
购买失败:
20%
五、伯努利分布的概率图像
假设:
成功概率:
p=0.7
分布:
| 结果 | 概率 |
|---|---|
| 0 | 0.3 |
| 1 | 0.7 |
可以看到:
两个柱状概率
这就是离散概率分布。
六、伯努利分布中的期望
在前面的文章中,我们学习过:
数学期望
伯努利分布期望:
E(X)=p
为什么?
因为:
成功:
概率p
结果1
失败:
概率1-p
结果0
所以:
长期平均:
=1*p+0*(1-p)
得到:
E(X)=p
含义
如果点击概率:
p=0.2
长期来看:
100次:
大约:
20次点击
七、伯努利分布中的方差
方差表示:
结果波动程度
伯努利分布:
Var(X)=p(1-p)
当:
p接近0或者1
方差较小:
说明:
结果比较稳定
当:
p=0.5
方差最大:
说明:
最不确定
八、伯努利分布与二分类问题
机器学习中的二分类:
目标:
输入:
X(特征)
输出:
Y(类别)
其中:
Y∈{0,1}
例如:
垃圾邮件:
Y=1 垃圾邮件
Y=0 正常邮件
因此:
Y天然符合伯努利分布
九、机器学习如何预测伯努利概率
模型输入:
例如:
用户信息:
年龄
收入
浏览记录
模型输出:
p=0.86
表示:
购买概率86%
然后:
设定阈值:
p>0.5
预测:
购买
这就是二分类。
十、逻辑回归中的伯努利分布
逻辑回归虽然名字叫:
回归
但实际上用于:
分类
它的核心思想:
预测:
P(Y=1|X)
也就是:
成功概率
模型输出:
经过Sigmoid函数:
0~1之间的概率
例如:
0.95
表示:
95%概率属于正类。
十一、二元交叉熵损失函数
为什么分类模型使用交叉熵?
因为:
模型预测的是:
伯努利概率
真实标签:
y∈{0,1}
损失函数:
Binary Cross Entropy
公式:
L=-(ylog(p)+(1-y)log(1-p))
当真实值y=1
损失:
-log(p)
如果预测:
p=0.99
损失很小。
如果预测:
p=0.01
损失巨大。
因此模型会不断调整:
让概率更接近真实。
十二、伯努利分布在工业领域的应用
风控系统
判断:
是否欺诈
输出:
欺诈概率0.92
系统:
拒绝交易
十三、推荐系统中的应用
用户是否点击:
点击=1
未点击=0
模型预测:
P(点击)=0.7
推荐排序:
按照概率排序。
十四、神经网络中的伯努利分布
二分类神经网络:
最后一层:
Sigmoid
输出:
0~1概率
本质:
伯努利分布参数p
因此:
神经网络实际上学习的是:
如何预测伯努利概率
十五、从伯努利分布到人工智能
发展路径:
伯努利试验
↓
伯努利分布
↓
二项分布
↓
概率模型
↓
逻辑回归
↓
神经网络分类
↓
深度学习
可以看到:
最简单的概率模型
支撑了复杂AI系统
总结
伯努利分布是概率论中最基础但最重要的分布之一,它专门描述只有两个结果的随机事件。
本文系统讲解了:
1、什么是伯努利试验
2、伯努利分布定义
3、概率质量函数
4、期望与方差
5、二分类任务中的应用
6、逻辑回归原理
7、二元交叉熵损失
8、推荐系统应用
9、风控系统应用
10、深度学习中的作用
可以将伯努利分布总结为:
伯努利分布描述的是一次只有成功或失败两种结果的随机过程。在机器学习中,二分类任务的本质就是学习一个成功概率p,而逻辑回归、神经网络分类器等模型,本质上都是在估计这个概率。
理解伯努利分布,你就真正理解了二分类模型背后的概率基础。

932

被折叠的 条评论
为什么被折叠?



