f分布的k阶矩_卡方分布的概率密度函数和它的一些衍生问题

本文详细介绍了卡方分布的定义、概率密度函数的推导过程及其与正态分布的内在联系。通过数学公式展示k阶原点矩、中心矩、期望、方差、偏度和峰度等统计特性,并探讨了自由度对分布形状的影响。同时,文章提及了由卡方分布派生的t分布和F分布,以及它们的应用。

最近在上一门叫做生物统计学与试验设计的课(估计大二+的人会比较熟悉),里面讲到了3种重要的统计分布。但让我感到非常奇怪的是,书上和老师的给我们讲的是,介绍了这个分布的概念,下一步直接翻附表查概率,其余基本啥也没讲。这让我感到好奇心大受挫损,遂在课余时间研究推导了一下这些分布(也有的推导过程是我上网查询的),写了这篇文章。

卡方分布定义:

X1, X2, …, Xi, …, Xn~N(0, 1)且X1, X2, …, Xi, …, Xn相互独立(或(X1, X2, …, Xi, …, Xn)是某个标准正态总体某次独立随机抽样的样本),则称Y=ΣXi2服从df=n的卡方分布,写作Y~χ²(n)。这个分布由詹姆斯·麦克斯韦(James Clerk Maxwell, 1831-1879)在研究空气分子的运动速度的分布时发现的,他发现分子运动速度的平方v²~χ²(3)。后来又有多人提出这种分布,例如弗里德里希·罗伯特·海尔默特(Friedrich Robert Helmert, 1843-1917)于1875年,故卡方分布有时(在德国常见,因海尔默特是德国人)也称海尔默特分布;另外,这一结果被英国生物统计学家、优生学家、数理统计学创始人和社会达尔文主义理论家卡尔·皮尔逊(Karl Pearson, 1857-1936)推广并于1900年发表。

03d15009d43321c4ba040eddbbd2af2d.png
卡尔·皮尔逊,1912年

下面推导χ²分布的概率密度函数。

对于df=1,有

037078c105de6853cf032c797aa9a1c9.png

d45bc54a7582fecda46e5a9261bd8d0d.png

对于df=2,可将所得的二重积分做极坐标变换处理,于是

a3d82b9e632036f2e15878bda0f774f5.png

其中D是一个以原点为圆心的圆区。

1a2e42beffd6b0ff83767abef1097a4e.png

对于df=3,有

168bff4c9deb8726986f7b73a6628195.png

621132698f8552ec6fe9bc6cf77bb076.png

需要说明一下,这里对加以处理时使用的球坐标系方法也一般性地称作“极坐标系”(也有之后表述方便之需要)。

则对于一般情况df=n,有

b7a0d00f370740e50aa825cbf54d89ad.png

根据观察推敲和前面的推导过程实际上可以发现,式中除了最后一项是x的函数以外,其他全是常数。其原因在于,在极坐标积分确定的体积元中有关角度的项只与维数(自由度)n有关,而与r本身无关。所以上面的积分可以重新表示为

86bfe667ec9aa86eeb69c4552ad5ce68.png

其中An是常数。

(严谨起见,又把被1/2π消掉的第一项写了回来。)

如果强行根据维数推广极坐标系,数学上将是非常困难的。(当然,其实主要还是因为我们没法想象高维空间,所以也很难直观地用几何的方法构造体积元。再说了,即便我们推了很多个不同维数的极坐标系体积元,然后归纳得出了一个一般情况,我们何成能证明它呢?)但我们有其他的方法可以避开这个复杂的步骤。根据归一化条件,应该有

319128ffc8aa8f16fbf51940a484a162.png

换元t=ρ²/2,dt=ρdρ,上面的方程变为

1da35f2be2faf32a7413d05c1627fe38.png

注意到这个积分是伽马函数

33c80d76275320f11f2a4a26a96fa4f7.png

dd715733a5f36e947a6817c00e6e5bad.png

再以

868a8c679f01ac1ef432bc4cd4b35181.png

对x(x>0)导数,得

4a6f7684ca161522a8cab5dba9ea9e5c.png

这就是卡方分布的概率密度函数。可以看到,卡方分布的概率密度函数与Γ函数积分式中的原函数具有相同的形式。这反映了卡方分布与正态分布之间一种怎样的内在联系呢?

我们已经有

f2dbd5a42745ad6bd9def33fe9fb58ad.png

还可以求出

7f782e54895f533e0b923095a9ec861b.png

或者有递推公式:

5b740cf341763c11ce77aa518ae1759f.png

或者

e2329613cc21b8c356da153c1f32b3b2.png

自由度df=1~20的所有线的图像呈现如下图:

e5ba9bfe627aff63134fd892b84d38fc.png

分布函数

0d636beeda079fb6bc8e16255f024b18.png

的图像:

7d6a10316d37f318679da4d60f02922b.png

可以利用这个函数研究一下卡方分布的性质。比如:

k阶原点矩

c12be5d360c88f54c2f21cc28ddb95ed.png

k阶中心矩:

8b2caef0b248d33e2c3195f14c162a7e.png

期望

a9e411ef0d63e445dd6a7cc7f6bc718a.png

方差(二阶中心矩):

dc54daf278261bf31ae7507ffb370ec2.png

偏度(统计数据分布偏斜方向和程度的度量,偏度小于0为右偏态(负偏态),偏读大于0为左偏态(正偏态),直观上看,即函数图像显得不对称):

311625f9023cbfb28bb793e31a8cb217.png

由此可见,n越大,概率密度函数的图像越对称。

峰度(反映概率密度函数在平均值处的峰值高低,若峰度较大,那么峰的形状比较尖):

001f6627154c3072c2c2fd8b078c2979.png

也即n越大,概率密度函数越扁平。

(关于偏态和峰态,读者可以从上面的图像中直观感受到。)

另,由于任何自由度的卡方分布的概率密度都可以看作是相互独立且服从χ²(1)(期望为1,方差为2)的n个随机变量之和,即

f0ae3b3eca1388cd6eea2f545b891387.png

根据(独立同分布)中心极限定理,

47be7ed1cac7599137fc1fa83c07ce60.png

换言之即

5c18c7b5a7739257b1b1b021cb474d64.png

这个结论能不能通过概率概率密度函数的极限逼近来证明呢?事实上是可以的。

由斯特林公式

7aeef0234df98e0c062df93dd0e06994.png

bf9871504e4932e98df99d4ef0ee4a37.png

所以

59010bb96f302950fb6410a64f5cd10c.png

e80e01c595db9e326939ad85875fe734.png

803205f83807b3888459e54080a53751.png

布鲁克·泰勒,科林·麦克劳林,yyds!!

另外一个很有趣的特征:

极(大)值点和分布函数的拐点(n>2):

a52eb5e8bc8328b0310c77b65d008663.png

注意x0必为整数,而且

ace74613b7d96b4d28c32bdb3dc5f095.png

这说明fn(x)(n>2)的极值点必然也经过f(n-2)(x)的曲线。这些都可以从图像中看出来。

卡方分布是可以推广的,这就是非中心卡方分布(central chi distribution)。若

4e32a64bec2913faf10cfb829c02ec1a.png

且这些变量相互独立,则称随机变量

041be1db8432b0950c4b0370707f6449.png

服从自由度(df)为n、非中心参数为λ的非中心χ²分布,即Y~χ²(n, λ),其中

2b8b80cdea7106bcfac9858b993d4a06.png

也有的规定所有的Xi具有同一的方差或者这些方差都为1,不同的定义可能导致混淆。非中心卡方分布的概率密度函数为

497452d07750d7b4e3c02d0e2cd0f641.png

还有一种定义是规定所有的Xi具有同一的方差,而令

23976d5a12ee65cf6af06dd9d64c3c1c.png

为构造的随机变量,这种情况下概率密度函数为

c32807b300d7c327c4a35fa0d60ca5b5.png

其中Ip是第一类修正贝塞尔函数,

b37fed81e129265cac5b5dc3f9590ff9.png

按第一个定义,我们有

d3b960714f067856d6d47948f710ed84.png

不过这些结论就不证明了。

由卡方分布衍生出了另外两个抽样分布,即t分布和F分布。

ddaf4c73cc864e40eadda94d9cb03f06.png

t分布(准确来讲是学生氏(student's)t分布。这个分布最初于1876年由海尔默特和雅各布·吕罗思(Jacob Lüroth, 1844-1910)作为一种后验分布(posterior distribution)而提出,后来又出现在卡尔·皮尔逊的1895年的论文里,即作为皮尔逊第四类分布。(“皮尔逊分布”一般讲一共有六类,第一类是β的推广;第二类是第一类的特殊情况;第三类是γ分布的一个推广,也即卡方分布;第五类是一个逆γ分布;第六类是一个F分布。)至于“学生氏”这个名字,那是一个于1908年将其引入英文文献并为其命名的英国数学家(海尔默特和吕罗思都是德国人)威廉·西利·哥赛特(William Sealy Gosset, 1876-1937)的假名。

F分布,又或者斯内德克(Snedecor’s)的F分布或者费舍尔(Fisher)-斯内德克分布,即以他们的两位主要贡献者罗纳德·阿尔默·费舍尔(Sir Ronald Aylmer Fisher, 1890-1962)和乔治·威德尔·斯内德克(George Waddel Snedecor, 1881, 1974)而命名。

罗纳德·费希尔可能是大家比较熟悉的一个人,而且我也多次在我的文章中提到过此人。他是杰出的生物统计学家、遗传学家、进化学家,此外还是优生学家,种群遗传学三杰之一,“一手为现代统计科学打下基础的天才”,“达尔文最成功的继承者”,费舍尔性比理论(揭示了为什么大多数生物的性别比是1:1)、费舍尔私奔模型、“性感的儿子”(sexy son)假说提出者(性选择理论的卓著贡献者),在将孟德尔的遗传理论和自然选择结合方面做了卓著的工作。1924年,他同斯内德克一同提出了F分布。

若X~N(0, 1);Y~χ²(n), 则称

268f8cfd1a3d27f6229934a592de543d.png

服从自由度(df)为n的t分布,即t~t(n)。

现在来推导它的概率密度函数。

对于

50d1d32b5d8ae82930b897ffaae24198.png

可得其概率密度函数为

fa52deb44185ff906ebc1fc8a6d27761.png

0fac920e19b241432f434645a0efca64.png

若建立z-x坐标轴,那么D就是其中的点与原点的连线(极径)所在直线的斜率小于

的区域。注意到Z>0且X∈R,故角的取值范围只有(-π/2, π/2)。转换成极坐标即

2fa61ff168d66380043cac7ca5e12c7c.png

结果发现含有极径的积分变成了一个常数,因为

4868678e9292cf1db5350d7c4f444f68.png

原积分变为

7e34c25d5c10d504a0f53f57a7338a8f.png

求导,即得概率密度函数

cd71c20de068d023adb90bfc4219d119.png

其中B(., .)是beta函数。

从概率密度函数可以很明显地看出,t分布是一个关于y轴对称的分布,且x=0必然为其的一个极大(最大)值点,其最大值为

,并且这个极值点随自由度单调递增且有上限值,

ddb51751eaf0f09977e825e6981240e0.png

自由度1-20的图像:

0d740f3b2bf1514fc86b80d2c6a4d688.png

部分细节:

d66052b21f6588d7a8aeee7376d9450b.png

看到这个

就又能让人来劲了。因为

4a819b3b19a3e671f3cd830d438da514.png

因故t分布在自由度极大的时候逼近标准正态分布。

方差:

e8d7d1595811f2bf8116f4eddcb4eb78.png

其中

9e0ce62f09a4f8f47c31daf2a0a8040c.png

7126a8e7299fc43324e8e789d9196878.png

与之前那一大串系数几乎全都抵消了,所以原式=

715e95380330850ca74203e296586b7a.png

t分布的方差只有当n>2时才存在。另外,可以证明,t的期望也仅在n>1时存在,且为0;t的偏度仅在n>3时存在,且为0;t的峰度仅在n>4时存在,等于

。一般地,t分布的k阶中心矩仅在n>k时存在,且奇数阶中心矩如果存在则都为0。

F分布的随机变量是由两个服从各自的自由度的卡方分布的变量与它们自由度的商相除所构造的。F分布的密度函数就更好求了,它是

0e2c31f1ef42711b5434e111d71253a0.png

(虽然说这个形式看起来有那么点小复杂(老大堆全都是系数)……)

图像:

741dec69f676e1d04ea5bf5046ebead8.png

89f298cfaec17719e63b90f6dedc6f92.png

F分布的期望和分布也经常不存在。读者还可以自己研究F分布的其他性质,这里就不再赘述了。

注释:

1. 严格来讲,上面所提到的概率密度函数,对于F分布和卡方分布,指的是x>0的情况,“=0, 其他”的情形被隐去了。

2. 上面的函数图像是用matplotlib画的。

3. B(beta)函数的定义:

c69d2a05ba938e3953a102edccec1349.png

其实,由伽马函数和贝塔函数还分别衍生出伽马分布和贝塔分布。它俩的概率密度函数是:

594ade2704b828ad0d4048e22ca57604.png

可以看到,卡方分布其实是伽马分布的一个特例。

60d029be0608dfd087f9396c8b9d92b4.png

4. 顺带一提,在求卡方分布的密度函数的时候我们用了归一化条件的方法。处理上面那个n重积分的方法还能用来计算n维球体(对于2维来说是面积)的体积,因为我们用的体积元就是球体(极坐标系)的体积元。换言之即

c4421ecdd7335bb6d1e46f0b489e38d3.png

不过,

628d7a1039653e83087e6483676d67d6.png

所以

987eafed711f9a821a2537e241c52abc.png

比如

9b8b0f9228841125e7b330467e5beca8.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值