1.信息量:表示信息多少的量度,用来衡量信息的不确定度(衡量混乱程度的)即一个集合里面各部分比例越均衡越混乱,各部分越两极分化越不混乱。。只与随机变量概率分布有关。
2.不确定性强->信息量越大->概率低。
3.机器学习中以e为底对应单位nit,以2为底对应单位bit。

4. 满足可叠加性质。
5.自信息的性质:

6.信息的本质是对不确定性的消除。
7.那么如何使用数学来衡量混乱程度呢?
我们显然发现当物品的总数不变的情况下,两种物品数目的乘积越大越混乱,越小越不混乱。那么我们显然就可以用这个相乘的结果来衡量数据混乱程度。既然如此,如果袋子中有多种球,我们可以将他们的概率连乘即可。



相对熵(Relative Entropy),也叫 KL 散度 (Kullback-Leibler Divergence),具有非负的特性。用于衡量两个分布之间距离的指标,用P分布近似Q的分布,相对熵可以计算这个中间的损失。

P往往表示样本的真实分布,Q表示模型所预测的分布

本文探讨了信息量的概念,它与随机变量的概率分布有关,且表明不确定性强的信息量越大。信息本质是消除不确定性,自信息是衡量单个事件信息量的度量。相对熵(KL散度)作为衡量两个概率分布间差异的工具,常用于评估模型预测与真实分布的接近程度。在机器学习中,信息量通常以e或2为底计算,单位分别为nit和bit。理解这些概念有助于更好地理解和优化模型的性能。

2136

被折叠的 条评论
为什么被折叠?



