伯努利分布原理:二分类问题中的成功概率建模方法

目录

前言

一、什么是伯努利分布

从现实问题开始

二、伯努利试验是什么

条件一:只有两个结果

条件二:每次实验只有一次结果

条件三:成功概率固定

三、伯努利分布的定义

四、伯努利分布概率公式

当x=1

当x=0

五、伯努利分布的概率图像

六、伯努利分布中的期望

含义

七、伯努利分布中的方差

八、伯努利分布与二分类问题

九、机器学习如何预测伯努利概率

十、逻辑回归中的伯努利分布

十一、二元交叉熵损失函数

当真实值y=1

十二、伯努利分布在工业领域的应用

风控系统

十三、推荐系统中的应用

十四、神经网络中的伯努利分布

十五、从伯努利分布到人工智能

总结


前言

在机器学习领域中,分类问题是最常见的一类任务。

例如:

  • 判断邮件是否为垃圾邮件

  • 判断用户是否会购买商品

  • 判断用户是否会流失

  • 判断图片是否包含目标物体

  • 判断患者是否患病

  • 判断交易是否存在欺诈

这些问题都有一个共同特点:

最终结果只有两种可能

例如:

是 / 否

成功 / 失败

1 / 0

正样本 / 负样本

这种只有两个结果的问题,被称为:

二分类问题(Binary Classification)

而二分类问题背后最重要的概率模型之一,就是:

伯努利分布(Bernoulli Distribution)

伯努利分布看似简单,但它却是很多机器学习算法的数学基础:

  • 逻辑回归(Logistic Regression)

  • 二分类神经网络

  • 二元交叉熵损失函数

  • 推荐系统点击预测

  • 风险预测模型

都建立在伯努利分布思想之上。

本文将系统讲解:

  • 什么是伯努利分布

  • 伯努利分布数学表达

  • 成功概率如何建模

  • 与二分类机器学习的关系

  • 逻辑回归中的应用

  • 交叉熵损失函数原理

  • 深度学习中的实际意义

帮助大家理解:

二分类模型为什么本质上是在预测一个概率

一、什么是伯努利分布

从现实问题开始

生活中有大量随机事件:

例如:

用户是否购买商品:

购买
不购买

邮件:

垃圾邮件
正常邮件

医学:

患病
未患病

这些问题都有特点:

结果只有两个

概率论中:

这种随机实验称为:

伯努利试验(Bernoulli Trial)

二、伯努利试验是什么

伯努利试验需要满足三个条件:

条件一:只有两个结果

例如:

成功
失败

或者:

1
0

条件二:每次实验只有一次结果

例如:

一次点击:

点击或者未点击

不能同时:

点击 + 未点击

条件三:成功概率固定

假设:

点击概率:

p=0.3

则:

未点击概率:

1-p=0.7

三、伯努利分布的定义

假设随机变量:

X

表示实验结果。

规定:

X=1 表示成功

X=0 表示失败

那么:

X服从伯努利分布

记作:

X~Bernoulli(p)

其中:

p表示成功概率

四、伯努利分布概率公式

伯努利分布概率质量函数:

P(X=x)=p^x(1-p)^(1-x)

其中:

x∈{0,1}

当x=1

表示成功:

P(X=1)=p

例如:

用户购买概率:

p=0.8

那么:

购买概率:

80%

当x=0

表示失败:

P(X=0)=1-p

购买失败:

20%

五、伯努利分布的概率图像

假设:

成功概率:

p=0.7

分布:

结果概率
00.3
10.7

可以看到:

两个柱状概率

这就是离散概率分布。


六、伯努利分布中的期望

在前面的文章中,我们学习过:

数学期望

伯努利分布期望:

E(X)=p

为什么?

因为:

成功:

概率p
结果1

失败:

概率1-p
结果0

所以:

长期平均:

=1*p+0*(1-p)

得到:

E(X)=p

含义

如果点击概率:

p=0.2

长期来看:

100次:

大约:

20次点击

七、伯努利分布中的方差

方差表示:

结果波动程度

伯努利分布:

Var(X)=p(1-p)

当:

p接近0或者1

方差较小:

说明:

结果比较稳定

当:

p=0.5

方差最大:

说明:

最不确定

八、伯努利分布与二分类问题

机器学习中的二分类:

目标:

输入:

X(特征)

输出:

Y(类别)

其中:

Y∈{0,1}

例如:

垃圾邮件:

Y=1 垃圾邮件

Y=0 正常邮件

因此:

Y天然符合伯努利分布

九、机器学习如何预测伯努利概率

模型输入:

例如:

用户信息:

年龄
收入
浏览记录

模型输出:

p=0.86

表示:

购买概率86%

然后:

设定阈值:

p>0.5

预测:

购买

这就是二分类。


十、逻辑回归中的伯努利分布

逻辑回归虽然名字叫:

回归

但实际上用于:

分类

它的核心思想:

预测:

P(Y=1|X)

也就是:

成功概率

模型输出:

经过Sigmoid函数:

0~1之间的概率

例如:

0.95

表示:

95%概率属于正类。


十一、二元交叉熵损失函数

为什么分类模型使用交叉熵?

因为:

模型预测的是:

伯努利概率

真实标签:

y∈{0,1}

损失函数:

Binary Cross Entropy

公式:

L=-(ylog(p)+(1-y)log(1-p))

当真实值y=1

损失:

-log(p)

如果预测:

p=0.99

损失很小。


如果预测:

p=0.01

损失巨大。


因此模型会不断调整:

让概率更接近真实。


十二、伯努利分布在工业领域的应用

风控系统

判断:

是否欺诈

输出:

欺诈概率0.92

系统:

拒绝交易

十三、推荐系统中的应用

用户是否点击:

点击=1

未点击=0

模型预测:

P(点击)=0.7

推荐排序:

按照概率排序。


十四、神经网络中的伯努利分布

二分类神经网络:

最后一层:

Sigmoid

输出:

0~1概率

本质:

伯努利分布参数p

因此:

神经网络实际上学习的是:

如何预测伯努利概率

十五、从伯努利分布到人工智能

发展路径:

伯努利试验
↓
伯努利分布
↓
二项分布
↓
概率模型
↓
逻辑回归
↓
神经网络分类
↓
深度学习

可以看到:

最简单的概率模型
支撑了复杂AI系统

总结

伯努利分布是概率论中最基础但最重要的分布之一,它专门描述只有两个结果的随机事件。

本文系统讲解了:

1、什么是伯努利试验
2、伯努利分布定义
3、概率质量函数
4、期望与方差
5、二分类任务中的应用
6、逻辑回归原理
7、二元交叉熵损失
8、推荐系统应用
9、风控系统应用
10、深度学习中的作用

可以将伯努利分布总结为:

伯努利分布描述的是一次只有成功或失败两种结果的随机过程。在机器学习中,二分类任务的本质就是学习一个成功概率p,而逻辑回归、神经网络分类器等模型,本质上都是在估计这个概率。

理解伯努利分布,你就真正理解了二分类模型背后的概率基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Calvad0s

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值