伯努利分布原理：二分类问题中的成功概率建模方法

原创已于 2026-06-18 09:48:12 修改 · 14 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #深度学习 #数学 #ai #概率论

于 2026-06-18 09:46:35 首次发布

AI 专栏收录该内容

195 篇文章

订阅专栏

前言

在机器学习领域中，分类问题是最常见的一类任务。

例如：

判断邮件是否为垃圾邮件
判断用户是否会购买商品
判断用户是否会流失
判断图片是否包含目标物体
判断患者是否患病
判断交易是否存在欺诈

这些问题都有一个共同特点：

最终结果只有两种可能

例如：

是 / 否

成功 / 失败

1 / 0

正样本 / 负样本

这种只有两个结果的问题，被称为：

二分类问题（Binary Classification）

而二分类问题背后最重要的概率模型之一，就是：

伯努利分布（Bernoulli Distribution）

伯努利分布看似简单，但它却是很多机器学习算法的数学基础：

逻辑回归（Logistic Regression）
二分类神经网络
二元交叉熵损失函数
推荐系统点击预测
风险预测模型

都建立在伯努利分布思想之上。

本文将系统讲解：

什么是伯努利分布
伯努利分布数学表达
成功概率如何建模
与二分类机器学习的关系
逻辑回归中的应用
交叉熵损失函数原理
深度学习中的实际意义

帮助大家理解：

二分类模型为什么本质上是在预测一个概率

一、什么是伯努利分布

从现实问题开始

生活中有大量随机事件：

例如：

用户是否购买商品：

购买
不购买

邮件：

垃圾邮件
正常邮件

医学：

患病
未患病

这些问题都有特点：

结果只有两个

概率论中：

这种随机实验称为：

伯努利试验（Bernoulli Trial）

二、伯努利试验是什么

伯努利试验需要满足三个条件：

条件一：只有两个结果

例如：

成功
失败

或者：

1
0

条件二：每次实验只有一次结果

例如：

一次点击：

点击或者未点击

不能同时：

点击 + 未点击

条件三：成功概率固定

假设：

点击概率：

p=0.3

则：

未点击概率：

1-p=0.7

三、伯努利分布的定义

假设随机变量：

表示实验结果。

规定：

X=1 表示成功

X=0 表示失败

那么：

X服从伯努利分布

记作：

X~Bernoulli(p)

其中：

p表示成功概率

四、伯努利分布概率公式

伯努利分布概率质量函数：

P(X=x)=p^x(1-p)^(1-x)

其中：

x∈{0,1}

当x=1

表示成功：

P(X=1)=p

例如：

用户购买概率：

p=0.8

那么：

购买概率：

80%

当x=0

表示失败：

P(X=0)=1-p

购买失败：

20%

五、伯努利分布的概率图像

假设：

成功概率：

p=0.7

分布：

结果	概率
0	0.3
1	0.7

可以看到：

两个柱状概率

这就是离散概率分布。

六、伯努利分布中的期望

在前面的文章中，我们学习过：

数学期望

伯努利分布期望：

E(X)=p

为什么？

因为：

成功：

概率p
结果1

失败：

概率1-p
结果0

所以：

长期平均：

=1*p+0*(1-p)

得到：

E(X)=p

含义

如果点击概率：

p=0.2

长期来看：

100次：

大约：

20次点击

七、伯努利分布中的方差

方差表示：

结果波动程度

伯努利分布：

Var(X)=p(1-p)

当：

p接近0或者1

方差较小：

说明：

结果比较稳定

当：

p=0.5

方差最大：

说明：

最不确定

八、伯努利分布与二分类问题

机器学习中的二分类：

目标：

输入：

X(特征)

输出：

Y(类别)

其中：

Y∈{0,1}

例如：

垃圾邮件：

Y=1 垃圾邮件

Y=0 正常邮件

因此：

Y天然符合伯努利分布

九、机器学习如何预测伯努利概率

模型输入：

例如：

用户信息：

年龄
收入
浏览记录

模型输出：

p=0.86

表示：

购买概率86%

然后：

设定阈值：

p>0.5

预测：

购买

这就是二分类。

十、逻辑回归中的伯努利分布

逻辑回归虽然名字叫：

回归

但实际上用于：

分类

它的核心思想：

预测：

P(Y=1|X)

也就是：

成功概率

模型输出：

经过Sigmoid函数：

0~1之间的概率

例如：

0.95

表示：

95%概率属于正类。

十一、二元交叉熵损失函数

为什么分类模型使用交叉熵？

因为：

模型预测的是：

伯努利概率

真实标签：

y∈{0,1}

损失函数：

Binary Cross Entropy

公式：

L=-(ylog(p)+(1-y)log(1-p))

当真实值y=1

损失：

-log(p)

如果预测：

p=0.99

损失很小。

如果预测：

p=0.01

损失巨大。

因此模型会不断调整：

让概率更接近真实。

十二、伯努利分布在工业领域的应用

风控系统

判断：

是否欺诈

输出：

欺诈概率0.92

系统：

拒绝交易

十三、推荐系统中的应用

用户是否点击：

点击=1

未点击=0

模型预测：

P(点击)=0.7

推荐排序：

按照概率排序。

十四、神经网络中的伯努利分布

二分类神经网络：

最后一层：

Sigmoid

输出：

0~1概率

本质：

伯努利分布参数p

因此：

神经网络实际上学习的是：

如何预测伯努利概率

十五、从伯努利分布到人工智能

发展路径：

伯努利试验
↓
伯努利分布
↓
二项分布
↓
概率模型
↓
逻辑回归
↓
神经网络分类
↓
深度学习

可以看到：

最简单的概率模型
支撑了复杂AI系统

总结

伯努利分布是概率论中最基础但最重要的分布之一，它专门描述只有两个结果的随机事件。

本文系统讲解了：

1、什么是伯努利试验
2、伯努利分布定义
3、概率质量函数
4、期望与方差
5、二分类任务中的应用
6、逻辑回归原理
7、二元交叉熵损失
8、推荐系统应用
9、风控系统应用
10、深度学习中的作用

可以将伯努利分布总结为：

伯努利分布描述的是一次只有成功或失败两种结果的随机过程。在机器学习中，二分类任务的本质就是学习一个成功概率p，而逻辑回归、神经网络分类器等模型，本质上都是在估计这个概率。

理解伯努利分布，你就真正理解了二分类模型背后的概率基础。