最近在上一门叫做生物统计学与试验设计的课(估计大二+的人会比较熟悉),里面讲到了3种重要的统计分布。但让我感到非常奇怪的是,书上和老师的给我们讲的是,介绍了这个分布的概念,下一步直接翻附表查概率,其余基本啥也没讲。这让我感到好奇心大受挫损,遂在课余时间研究推导了一下这些分布(也有的推导过程是我上网查询的),写了这篇文章。
卡方分布定义:
X1, X2, …, Xi, …, Xn~N(0, 1)且X1, X2, …, Xi, …, Xn相互独立(或(X1, X2, …, Xi, …, Xn)是某个标准正态总体某次独立随机抽样的样本),则称Y=ΣXi2服从df=n的卡方分布,写作Y~χ²(n)。这个分布由詹姆斯·麦克斯韦(James Clerk Maxwell, 1831-1879)在研究空气分子的运动速度的分布时发现的,他发现分子运动速度的平方v²~χ²(3)。后来又有多人提出这种分布,例如弗里德里希·罗伯特·海尔默特(Friedrich Robert Helmert, 1843-1917)于1875年,故卡方分布有时(在德国常见,因海尔默特是德国人)也称海尔默特分布;另外,这一结果被英国生物统计学家、优生学家、数理统计学创始人和社会达尔文主义理论家卡尔·皮尔逊(Karl Pearson, 1857-1936)推广并于1900年发表。

下面推导χ²分布的概率密度函数。
对于df=1,有

则

对于df=2,可将所得的二重积分做极坐标变换处理,于是

其中D是一个以原点为圆心的圆区。
则

对于df=3,有

故

需要说明一下,这里对加以处理时使用的球坐标系方法也一般性地称作“极坐标系”(也有之后表述方便之需要)。
则对于一般情况df=n,有

根据观察推敲和前面的推导过程实际上可以发现,式中除了最后一项是x的函数以外,其他全是常数。其原因在于,在极坐标积分确定的体积元中有关角度的项只与维数(自由度)n有关,而与r本身无关。所以上面的积分可以重新表示为

其中An是常数。
(严谨起见,又把被1/2π消掉的第一项写了回来。)
如果强行根据维数推广极坐标系,数学上将是非常困难的。(当然,其实主要还是因为我们没法想象高维空间,所以也很难直观地用几何的方法构造体积元。再说了,即便我们推了很多个不同维数的极坐标系体积元,然后归纳得出了一个一般情况,我们何成能证明它呢?)但我们有其他的方法可以避开这个复杂的步骤。根据归一化条件,应该有

换元t=ρ²/2,dt=ρdρ,上面的方程变为

注意到这个积分是伽马函数

故

再以

对x(x>0)导数,得

这就是卡方分布的概率密度函数。可以看到,卡方分布的概率密度函数与Γ函数积分式中的原函数具有相同的形式。这反映了卡方分布与正态分布之间一种怎样的内在联系呢?
我们已经有

还可以求出

或者有递推公式:

或者

自由度df=1~20的所有线的图像呈现如下图:

分布函数

的图像:

可以利用这个函数研究一下卡方分布的性质。比如:
k阶原点矩

k阶中心矩:

期望

方差(二阶中心矩):

偏度(统计数据分布偏斜方向和程度的度量,偏度小于0为右偏态(负偏态),偏读大于0为左偏态(正偏态),直观上看,即函数图像显得不对称):

由此可见,n越大,概率密度函数的图像越对称。
峰度(反映概率密度函数在平均值处的峰值高低,若峰度较大,那么峰的形状比较尖):

也即n越大,概率密度函数越扁平。
(关于偏态和峰态,读者可以从上面的图像中直观感受到。)
另,由于任何自由度的卡方分布的概率密度都可以看作是相互独立且服从χ²(1)(期望为1,方差为2)的n个随机变量之和,即

根据(独立同分布)中心极限定理,

换言之即

这个结论能不能通过概率概率密度函数的极限逼近来证明呢?事实上是可以的。
由斯特林公式

则

所以

令

则

布鲁克·泰勒,科林·麦克劳林,yyds!!
另外一个很有趣的特征:
极(大)值点和分布函数的拐点(n>2):

注意x0必为整数,而且

这说明fn(x)(n>2)的极值点必然也经过f(n-2)(x)的曲线。这些都可以从图像中看出来。
卡方分布是可以推广的,这就是非中心卡方分布(central chi distribution)。若

且这些变量相互独立,则称随机变量

服从自由度(df)为n、非中心参数为λ的非中心χ²分布,即Y~χ²(n, λ),其中

也有的规定所有的Xi具有同一的方差或者这些方差都为1,不同的定义可能导致混淆。非中心卡方分布的概率密度函数为

还有一种定义是规定所有的Xi具有同一的方差,而令

为构造的随机变量,这种情况下概率密度函数为

其中Ip是第一类修正贝塞尔函数,

按第一个定义,我们有

不过这些结论就不证明了。
由卡方分布衍生出了另外两个抽样分布,即t分布和F分布。

t分布(准确来讲是学生氏(student's)t分布。这个分布最初于1876年由海尔默特和雅各布·吕罗思(Jacob Lüroth, 1844-1910)作为一种后验分布(posterior distribution)而提出,后来又出现在卡尔·皮尔逊的1895年的论文里,即作为皮尔逊第四类分布。(“皮尔逊分布”一般讲一共有六类,第一类是β的推广;第二类是第一类的特殊情况;第三类是γ分布的一个推广,也即卡方分布;第五类是一个逆γ分布;第六类是一个F分布。)至于“学生氏”这个名字,那是一个于1908年将其引入英文文献并为其命名的英国数学家(海尔默特和吕罗思都是德国人)威廉·西利·哥赛特(William Sealy Gosset, 1876-1937)的假名。
F分布,又或者斯内德克(Snedecor’s)的F分布或者费舍尔(Fisher)-斯内德克分布,即以他们的两位主要贡献者罗纳德·阿尔默·费舍尔(Sir Ronald Aylmer Fisher, 1890-1962)和乔治·威德尔·斯内德克(George Waddel Snedecor, 1881, 1974)而命名。
罗纳德·费希尔可能是大家比较熟悉的一个人,而且我也多次在我的文章中提到过此人。他是杰出的生物统计学家、遗传学家、进化学家,此外还是优生学家,种群遗传学三杰之一,“一手为现代统计科学打下基础的天才”,“达尔文最成功的继承者”,费舍尔性比理论(揭示了为什么大多数生物的性别比是1:1)、费舍尔私奔模型、“性感的儿子”(sexy son)假说提出者(性选择理论的卓著贡献者),在将孟德尔的遗传理论和自然选择结合方面做了卓著的工作。1924年,他同斯内德克一同提出了F分布。
若X~N(0, 1);Y~χ²(n), 则称

服从自由度(df)为n的t分布,即t~t(n)。
现在来推导它的概率密度函数。
对于

可得其概率密度函数为

由

若建立z-x坐标轴,那么D就是其中的点与原点的连线(极径)所在直线的斜率小于
的区域。注意到Z>0且X∈R,故角的取值范围只有(-π/2, π/2)。转换成极坐标即

结果发现含有极径的积分变成了一个常数,因为

原积分变为

求导,即得概率密度函数

其中B(., .)是beta函数。
从概率密度函数可以很明显地看出,t分布是一个关于y轴对称的分布,且x=0必然为其的一个极大(最大)值点,其最大值为

自由度1-20的图像:

部分细节:

看到这个

因故t分布在自由度极大的时候逼近标准正态分布。
方差:

其中


与之前那一大串系数几乎全都抵消了,所以原式=

t分布的方差只有当n>2时才存在。另外,可以证明,t的期望也仅在n>1时存在,且为0;t的偏度仅在n>3时存在,且为0;t的峰度仅在n>4时存在,等于
F分布的随机变量是由两个服从各自的自由度的卡方分布的变量与它们自由度的商相除所构造的。F分布的密度函数就更好求了,它是

(虽然说这个形式看起来有那么点小复杂(老大堆全都是系数)……)
图像:


F分布的期望和分布也经常不存在。读者还可以自己研究F分布的其他性质,这里就不再赘述了。
注释:
1. 严格来讲,上面所提到的概率密度函数,对于F分布和卡方分布,指的是x>0的情况,“=0, 其他”的情形被隐去了。
2. 上面的函数图像是用matplotlib画的。
3. B(beta)函数的定义:

其实,由伽马函数和贝塔函数还分别衍生出伽马分布和贝塔分布。它俩的概率密度函数是:

可以看到,卡方分布其实是伽马分布的一个特例。

4. 顺带一提,在求卡方分布的密度函数的时候我们用了归一化条件的方法。处理上面那个n重积分的方法还能用来计算n维球体(对于2维来说是面积)的体积,因为我们用的体积元就是球体(极坐标系)的体积元。换言之即

不过,

所以

比如

本文详细介绍了卡方分布的定义、概率密度函数的推导过程及其与正态分布的内在联系。通过数学公式展示k阶原点矩、中心矩、期望、方差、偏度和峰度等统计特性,并探讨了自由度对分布形状的影响。同时,文章提及了由卡方分布派生的t分布和F分布,以及它们的应用。

1万+

被折叠的 条评论
为什么被折叠?



