- 指数分布在x趋于无穷时,是以指数的速度趋于0,以指数分布为分界线,将x->无穷时下降速度更快的称为Thin-tailed distribution, 比如正态分布。即在远离峰值的尾部区域,时间发生的概率更低一些。所以正态分布用来对那些主流事件发生较多,非主流事件发生较少的情况进行建模更为合适。
- 相对的,把x->无穷时下降速度慢于指数分布的称为重尾分布(heavy-tailed distribution)。
- 重尾分布:
- 更适用于对那些离峰值较远的稀有事件也会有相当的概率发生的情况。重尾分布作为一个大的类别,还包含三个重要的子类别,分别是肥尾分布(Fat-tailed distribution),长尾分布(Long-tailed distribution)和次指数分布(Subexponential distribution)。
- 长尾分布:
- 帕累托法则(Pareto principle),又称为二八定律。比如80%的财富集中在20%的人手里,图书馆里20%的书可以满足80%的顾客。
- 但在一些网上零售业中,如Amazon和Netflix,数据表明右端黄色的尾巴虽然平均需求小但是由于数量巨大,导致其总的营销收益甚至超过主流的商品。这一发现似乎对商业界的触动极大,也说明了正确建模的重要性。如果用指数分布进行建模,这些远端的需求也许就会被忽视;而用长尾分布进行建模就可以发现这些新的需求从而带来效益的提高。
- 长尾分布的数据定义理解,当x很大时,很有可能 x 实际上更大:当一个长尾分布的变量超过一个阈值时,那么很有可能它也会超过一个更高的阈值。也就是说,如果你发现情况很糟糕了,那么情况很有可能比你想象的更糟糕。
- 肥尾分布:
- 从建模的角度来看,肥尾分布就是针对那些罕见事件虽然发生的概率低,但也必须要考虑到的情况。比如一个保险公司考虑灾害的发生和保险的定价,那么像自然灾害这种情况,如果不考虑的话就可能面临真的发生时要赔很多的情况。因为正如肥尾分布的

06-17


被折叠的 条评论
为什么被折叠?



