19.数理统计备考(1)

最新推荐文章于 2024-04-23 07:30:00 发布

原创最新推荐文章于 2024-04-23 07:30:00 发布 · 2k 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#概率论

《数理统计》学习笔记专栏收录该内容

21 篇文章

订阅专栏

本文深入探讨了数理统计的基本概念与高级主题，包括样本、统计量、分布族、经验分布函数等内容，详细讲解了正态分布、Γ分布、B分布、三大分布等常用分布及其性质，同时介绍了次序统计量、指数族、充分完全统计量等关键知识点。

备考篇(1)

第一章

本章是数理统计中的基本知识和基础概念，包含样本、统计量、样本分布、经验分布函数等基本内容。

样本是从总体中抽取的一部分个体，具有两重性。当样本作为随机变量看待时，拥有和总体一样的分布函数，同时样本也有联合分布函数，其联合密度函数或联合密度函数为
$f(x_1,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n)$
统计量是样本的函数，是根据样本可以直接算出的值。常用的统计量有样本均值、样本方差、经验分布函数、样本偏度与样本峰度、样本矩等。其中样本均值和样本方差最为常用，为
$\bar X=\frac1n\sum_{i=1}^nX_i, S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2$
其他的统计量大多可以由总体数字特征直接置换样本矩得到。样本矩分为样本原点矩和中心矩，分别是
$a_{n,k}=\frac1n\sum_{i=1}^nX_i^k, m_{n,k}=\frac1n\sum_{i=1}^n (X_i-\bar X)^k$
特别地，记 $Xˉ=an,1,Sn2=mn,2=(n−1)S2/n\bar X=a_{n,1},S_n^2=m_{n,2}=(n-1) S^2/n$ 。

次序统计量是将样本从小到大排列以后，排列在第几个的样本就是其第几次序统计量，这包括最大值、最小值。

统计量也有两重性，当统计量作为随机变量时也有它的分布函数。

数理统计中，取统计量是为了估计分布族中的未知参数。分布族是一类分布构成的集合，如正态分布族、指数分布族等，它们都具有未知参数，所有可能取到的参数构成参数空间。

经验分布函数是 $,Xn<x}F_n(x)=\#\{X_1,\cdots,X_n <x\}$ ，即样本观测值中小于 $x$ 的个数。格里汶科定理表明当 $n→∞n\to \infty$ 时， $F_n(x)$ 以概率1收敛于 $F (x)$ 。

第二章

本章重点是数理统计中的常用分布与相关性质，包含正态分布、 $Γ\Gamma$ 分布、 $B\Beta$ 分布、三大分布、 $Z$ 分布、次序统计量分布、指数族、充分完全统计量等。

正态分布是三大分布的基础，独立的正态随机变量可以经过线性组合变换成另一个正态随机变量，具体有以下定理（以下正态变量均独立）：
$X_k\sim N(a_k,\sigma_k^2)\Rightarrow \sum_{k=1}^nX_k\sim N(a,\sigma^2),a=\sum_{i=1 }^na_k,\sigma^2=\sum_{i=1}^n \sigma_k^2\\ X\sim N(a,\sigma^2)\Rightarrow nX\sim N(na, n^2\sigma^2) \\ X\sim N(a,\sigma^2)\Rightarrow \bar X\sim N(a,\sigma^2/n)$
对于正态分布总体 $N(a,σ2)N(a,\sigma^2)$ ，其样本均值、样本方差有以下结论：

$Xˉ∼N(a,σ2/n)\bar X\sim N(a,\sigma^2/n)$ ；
$(n−1)S2/σ2∼χn−12(n-1)S^2/\sigma^2\sim \chi^2_{n-1}$ ；
$Xˉ,S2\bar X,S^2$ 相互独立，这只对正态总体成立。

为了证明以上结论，常常构造一个正交矩阵 $A\boldsymbol A$ 为
$\left( \begin{array}{c} \frac{1}{\sqrt n}&\frac1{\sqrt n}&\frac1{\sqrt n}&\cdots&\frac1{\sqrt n}\\ \frac1{\sqrt {2\cdot 1}}&\frac{-1}{\sqrt {2\cdot1}}&0&\cdots&0\\ \frac1{\sqrt{3\cdot2}}&\frac1{\sqrt{3\cdot2}}&\frac{-2}{\sqrt {3\cdot2}}&\cdots&0\\ \cdots&\cdots&\cdots &\cdots&\cdots\\ \frac1{\sqrt {n(n-1)}}&\frac1{\sqrt {n(n-1)}}&\frac1{\sqrt {n(n-1)}}&\cdots&\frac{-(n-1)}{\sqrt{n(n-1)}} \end{array} \right)$
然后利用 $Y=AX\boldsymbol Y=\boldsymbol {AX}$ ，可以证明得到2、3两个结论。

数理统计中常常用到两个欧拉积分以及相关变化， $Γ\Gamma$ 积分与 $B\Beta$ 积分如下：
$\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx\\ \Beta(a,b)=\int_0^1 x^{a-1}(1-x)^{b-1}dx$
欧拉积分的相关变换还有
$\begin{aligned} \Gamma(\alpha+1)=&\alpha\Gamma(\alpha) \\ \Beta(a,b)=&\int_0^1x^{a-1}(1-x)^{b-1}dx\\ {\xlongequal[x=\frac{t}{1+t}]{t=\frac{x}{1-x}}{}}&\int_0^\infty t^{a-1}(1+t)^{-(a+b)}dt\\ =&\int_0^\infty\frac{x^{a-1}}{(1+x)^{a+b}}dx\\ \quad\\ \Beta(a,b)=&\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \end{aligned}$
基于此，有三种分布： $Γ\Gamma$ 分布、 $B\Beta$ 分布、 $Z$ 分布，其密度函数分别为：
$\Gamma(\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}I_{(0,\infty)}(x)\\ \Beta(a,b)=\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1}I_{(0,1)}(x)\\ Z(a,b)=\frac1{\Beta(a,b)}\frac{x^{a-1}}{(1+x)^{a+b}}I_{(0,\infty)}(x)$
三种分布的矩都可以通过欧拉积分变换求均值，分别为
$E(\Gamma(\alpha,\lambda))=\frac{\alpha}{\lambda},E(\Beta(a,b))=\frac a{a+b},E(Z(a,b))=\frac{a}{b-1}$
三种分布的独立随机变量还满足以下一些关系：
$X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow X_1+X_2\sim \Gamma(\alpha_1+\alpha_2,\lambda)\\ X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow \frac{X_1}{X_1+X_2}\sim \Beta(\alpha_1,\alpha_2)\\ X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow \frac{X_1}{X_2}\sim Z(\alpha_1,\alpha_2) \\ Y\sim \Beta(a,b)\Rightarrow \frac{Y}{1-Y}\sim Z(a,b)\\ X\sim Z(a,b)\Rightarrow \frac{X}{1+X}\sim \Beta(a,b)$

关于次序统计量，其密度函数可以由几何意义得出，这里写出几个常用的密度函数（分布函数），下设总体分布为 $F (x)$ ，总体密度为 $p (x)$ 。

$X_{(k)}$ 的密度函数为
$p_k(x)=\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[(1-F(x))]^{n-k}p(x)$
特别地对于最大最小值，有
$p_1(x)=np(x)[1-F(x)]^{n-1},\quad F_1(x)=1-[1-F(x)]^{n}\\ p_n(x)=np(x)[F(x)]^{n-1},\quad F_n(x)=[F(x)]^n$
$X_{(i)},X_{(j)})$ 的联合密度为
$p_{i,j}(x_i,x_j)=\frac{n!}{(x_i-1)!(x_j-x_i-1)!(n-x_j)!}[F(x_i)]^{x_i-1}\cdot\\ [F(x_j)-f(x_i)]^{x_j-x_i-1}[1-f(x_j)]^{n-x_j}p(x_i)p(x_j)I(x_i<x_j)$
特别地对于 $X_{(1)},X_{(n)})$ ，有
$p_{1,n}(x,y)=n(n-1)[F(y)-F(x)]^{n-2}p(x)p(y)I(x<y)$
$,X(n))(X_{(1)},\cdots,X_{(n)})$ 的联合密度为
$p(x_{(1)},\cdots,x_{(n)})=n!p(x_{(1)})\cdots p(x_{(n)})I(x_{(1)}<\cdots<x_{(n)})$
对于均匀分布 $U (0, 1)$ ，其极差分布为
$p_R(r)=n(n-1)r^{n-2}(1-r)I(0<r<1)$

三大分布族指 $χ2\chi^2$ 分布、 $t$ 分布与 $F$ 分布，他们都是与正态分布相关的分布。

$χn2\chi^2_n$ 分布是 $n$ 个独立的 $N (0, 1)$ 变量和的分布，其密度函数为 $Γ(n/2,1/2)\Gamma(n/2,1/2)$ 。其相关变形有
$X\sim \Gamma(n,\lambda)\Rightarrow 2\lambda X\sim \chi^2_{2n}\\ X_1\sim \chi^2_{a},X_2\sim \chi^2_b\Rightarrow X_1+X_2\sim \chi^2_{a+b}$
$t$ 分布是 $N (0, 1)$ 与 $χn2\chi^2_n$ 分布正则化后的比值，即
$X\sim N(0,1), Y\sim \chi^2_n\Rightarrow T=\frac{X}{\sqrt{Y/n}}\sim t_n$
$F$ 分布是两个正则化 $χ2\chi^2$ 分布的比值，即
$X\sim \chi^2_m, Y\sim \chi^2_n\Rightarrow F=\frac{X/m}{Y/n}\sim F_{m,n}$
三大分布都有其各自的分位数表，可以用来进行区间估计和假设检验。 $F$ 分布在查表时还会用到以下用来求 $α\alpha$ 较接近1时的转换公式：
$F_{m,n}(1-\alpha)=\frac1{F_{n,m}(\alpha)}$
正态分布的相关统计量中，也有与三大分布的关联。以下单样本时设 $X∼(a,σ2)X\sim(a,\sigma^2)$ 样本个数为 $n$ ；双样本时设 $X∼N(a1,σ12)X\sim N(a_1,\sigma_1^2)$ 样本个数为 $m$ ， $Y∼N(a2,σ22)Y\sim N(a_2,\sigma_2^2)$ 样本个数为 $n$ 。
$\sum_{i=1}^n\left(\frac{X_i-a}{\sigma}\right)^2\sim \chi^2_n\\ \quad\\ T=\frac{\sqrt n(\bar X-a)}{S}\sim t_{n-1}\\ \quad\\ F=\frac{S_1^2}{S_2^2}\frac{\sigma_2^2}{\sigma_1^2}\sim F_{m-1,n-1}$

指数族是一系列具有特殊形式样本密度函数（概率分布列）的参数分布族，如果可以将联合密度函数写成如下形式：
$f(\boldsymbol x)=C(\theta)\exp\left\{ \sum_{i=1}^kQ_i(\theta)T_i(\boldsymbol x) \right\}h(\boldsymbol x)$
指数族拥有良好的性质，最典型的是指数分布族拥有共同的支撑集，因此 $U(0,θ)U(0,\theta)$ 显然不是指数族。而正态分布族、二项分布族、Gamma分布族、泊松分布族等都是指数族。

在指数族的形式中，如果令 $φi=Qi(θ)\varphi_i=Q_i(\theta)$ ，将 $f(x;θ)f(\boldsymbol x;\theta)$ 改写成 $f(x;φ)f(\boldsymbol x;\varphi)$ ，就得到指数族的自然形式如下：
$f(\boldsymbol x)=C^*(\varphi)\exp\left\{ \sum_{i=1}^k\varphi_iT_i(\boldsymbol x) \right\}h(\boldsymbol x)$
指数族的自然参数空间为凸集；指数族求导可以在积分号下求导，且可以求任意阶导数。

充分统计量指的是蕴含样本中所有关于未知参数信息的统计量，即在已知 $T$ 的条件下，样本的条件分布与未知参数 $θ\theta$ 无关。对于离散情形，要验证 $P(X∈A∣T)\mathbf P(\boldsymbol X\in A|T)$ 与 $θ\theta$ 无关；对于连续情形，要验证 $p(x∣T)p(\boldsymbol x|T)$ 与 $θ\theta$ 无关，这里
$\mathbf P(\boldsymbol X\in A|T=t)=\frac{P(\boldsymbol X\in A,T=t)}{P(T=t)}\\ p(\boldsymbol x|t)=\frac{p(x,t)}{p(t)}$
用定义验证统计量的充分性是麻烦的，如果可以将样本的联合密度函数写成
$p(\boldsymbol x;\theta)=g(T(\boldsymbol x),\theta)$
的形式，则 $T(X)T(\boldsymbol X)$ 是充分统计量，这是因子分解定理。

完备统计量指的是对于某一个统计量 $T$ ，对任何满足 $E(φ(T))=0E(\varphi(T))=0$ 都能推出 $φ=0\varphi=0$ 以概率1成立。要证明统计量的完备性，一般会写出 $E(φ(T))E(\varphi(T))$ 的离散和式或连续积分式，然后比较未知参数的系数或者对未知参数求导，从而得到 $φ=0\varphi=0$ 。

在指数族的自然形式中，分布函数为
$f(\boldsymbol x;\theta)=C(\theta)\exp\left\{ \sum_{i=1 }^k\theta_iT_i(\boldsymbol x) \right\}h(\boldsymbol x)$
在 $θ\theta$ 的自然参数空间 $Θ∗\Theta^*$ 中，如果其作为 $R^k$ 的子集有内点，则 $,Tk(X))\boldsymbol T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X))$ 是完全统计量；如果 $h(x)=1h(\boldsymbol x)=1$ ，则它还是充分统计量。