第四章 区间估计(1)
1.区间估计的基本概念
区间估计,指用一个误差限d(X)d(\boldsymbol X)d(X)作为点估计的偏离限度,将g(θ)g(\theta)g(θ)的取值限制在[g^(X)−d(X),g^(X)+d(X)][\hat g(\boldsymbol X)-d(\boldsymbol X),\hat g(\boldsymbol X)+d(\boldsymbol X)][g^(X)−d(X),g^(X)+d(X)]之中。更一般地,取两个具有确定大小关系的统计量g^1(X)≤g^2(X)\hat g_1(\boldsymbol X)\le \hat g_2(\boldsymbol X)g^1(X)≤g^2(X),将[g^1(X),g^2(X)][\hat g_1(\boldsymbol X),\hat g_2(\boldsymbol X)][g^1(X),g^2(X)]作为参数g(θ)g(\theta)g(θ)的区间估计。与点估计不同,点估计不可能取到实际参数值,但区间估计却存在包含实际参数值的可能;从定义也可以看出,区间估计依赖于好的点估计。
评价区间估计优劣主要有两个指标:可靠度,精度。
- 可靠度:待估参数g(θ)g(\theta)g(θ)被包含在区间[g^1(X),g^2(X)][\hat g_1(\boldsymbol X),\hat g_2(\boldsymbol X)][g^1(X),g^2(X)]的可能性大小;
- 精度:区间的平均长度Eθ(g^2(X)−g^1(X))E_\theta(\hat g_2(\boldsymbol X)-\hat g_1(\boldsymbol X))Eθ(g^2(X)−g^1(X))。
- 一般来说,在样本大小固定时,提高可靠度意味着降低精度,反之也成立。构造可靠度和精度都尽可能高的方法通常采用Neyman原则,即在保证可靠度达到指定要求的前提下尽可能提高精度。
为了衡量区间估计的可靠度,将随机取件[θ^1,θ^2][\hat \theta_1,\hat\theta_2][θ^1,θ^2]包含待估参数θ\thetaθ的概率称为置信度(置信系数),即置信度为P{θ∈[θ^1,θ^2]}\mathbf P\{\theta\in [\hat \theta_1,\hat\theta_2]\}P{θ∈[θ^1,θ^2]}。然而置信度是依赖于未知参数θ\thetaθ的,而我们在估计时仅仅知道θ\thetaθ是个定值却不知道它到底是多少,所以我们要对整个样本空间Θ\ThetaΘ上的参数确定置信度,将所有置信度的下确界定为这个区间估计的置信系数,即
infθ∈ΘPθ(θ^1≤θ≤θ^2)
\inf_{\theta\in\Theta}\mathbf P_\theta(\hat\theta_1\le\theta\le\hat \theta_2)
θ∈ΘinfPθ(θ^1≤θ≤θ^2)
可以看出,用置信系数衡量区间估计的可靠度就与未知参数无关,而单单说置信度(置信水平),是依赖于未知参数的。如果要计算区间估计的置信水平或置信系数,就需要相关统计量的精确分布或渐进分布。
2.置信区间、置信限与置信域
Neyman准则要求在可靠度达到一定要求的前提下,尽可能地缩短区间估计的长度,因此需要引入置信区间的概念。对给定的0<α<10<\alpha<10<α<1与区间估计[θ^1(X),θ^2(X)][\hat \theta_1(\boldsymbol X),\hat \theta_2(\boldsymbol X)][θ^1(X),θ^2(X)],有
Pθ(θ^1(X)≤θ≤θ^2(X))≥1−α,∀θ∈Θ即infθ∈ΘPθ(θ^1(X)≤θ≤θ^2(X))≥1−α
\mathbf P_\theta(\hat \theta_1(\boldsymbol X)\le\theta\le\hat \theta_2(\boldsymbol X))\ge1-\alpha,\forall \theta\in\Theta\\
即\inf_{\theta\in\Theta}\mathbf P_\theta(\hat \theta_1(\boldsymbol X)\le\theta\le\hat \theta_2(\boldsymbol X))\ge1-\alpha
Pθ(θ^1(X)≤θ≤θ^2(X))≥1−α,∀θ∈Θ即θ∈ΘinfPθ(θ^1(X)≤θ≤θ^2(X))≥1−α
则称[θ^1(X),θ^2(X)][\hat \theta_1(\boldsymbol X),\hat\theta_2(\boldsymbol X)][θ^1(X),θ^2(X)]是θ\thetaθ的置信水平为1−α1-\alpha1−α的置信区间,即置信系数不小于1−α1-\alpha1−α的区间估计。
置信区间是一种双边区间估计,而如果只关心未知参数的单边估计,就用到置信限。置信限的定义与区间估计类似,分为置信上限θ^U(X)\hat \theta_U(\boldsymbol X)θ^U(X)和置信下限θ^L(X)\hat \theta_L(\boldsymbol X)θ^L(X),分别要求在给定的置信系数1−α1-\alpha1−α下,有
Pθ(θ≤θ^U(X))≥1−α,∀θ∈ΘPθ(θ≥θ^L(X))≥1−α,∀θ∈Θ
\mathbf P_\theta(\theta\le\hat \theta_U(\boldsymbol X))\ge1-\alpha, \forall \theta\in\Theta\\
\mathbf P_\theta(\theta\ge\hat \theta_L(\boldsymbol X))\ge1-\alpha,\forall \theta \in \Theta
Pθ(θ≤θ^U(X))≥1−α,∀θ∈ΘPθ(θ≥θ^L(X))≥1−α,∀θ∈Θ
并且可以推论,对于θ^L(X)≤θ^U(X)\hat \theta_L(\boldsymbol X)\le\hat \theta_U(\boldsymbol X)θ^L(X)≤θ^U(X),如果θ^L(X)\hat \theta_L(\boldsymbol X)θ^L(X)是置信水平1−α11-\alpha_11−α1的置信下限,θ^U(X)\hat \theta_U(\boldsymbol X)θ^U(X)是置信水平为1−α21-\alpha_21−α2的置信上限,则[θ^L(X),θ^U(X)][\hat \theta_L(\boldsymbol X),\hat \theta_U(\boldsymbol X)][θ^L(X),θ^U(X)]是置信水平为1−α1−α21-\alpha_1-\alpha_21−α1−α2的双侧置信区间。
置信域将置信区间与置信限的概念拓展到参数θ\thetaθ是多维(设为kkk维)的情形。设有一个参数分布族F={f(x,θ),θ∈Θ},θ=(θ1,⋯ ,θk)∈Θ⊂Rk\mathscr F=\{f(x,\boldsymbol \theta), \boldsymbol \theta \in\Theta\},\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in \Theta \subset \mathbf R^kF={f(x,θ),θ∈Θ},θ=(θ1,⋯,θk)∈Θ⊂Rk。若统计量S(X)S(\boldsymbol X)S(X)满足对任何样本X\boldsymbol XX有S(X)⊂ΘS(\boldsymbol X)\subset\ThetaS(X)⊂Θ,且Pθ(θ∈S(X))≥1−α,∀θ∈Θ\mathbf P_\boldsymbol \theta(\boldsymbol \theta\in S(\boldsymbol X))\ge1-\alpha,\forall \boldsymbol \theta\in\ThetaPθ(θ∈S(X))≥1−α,∀θ∈Θ,则称S(X)S(\boldsymbol X)S(X)是θ\boldsymbol \thetaθ的置信水平为1−α1-\alpha1−α的置信域。
常用的置信域是一些限定规则的几何图形,尤其是长方体。这里的S(X)S(\boldsymbol X)S(X)直接规划出了一个三维区域,而不是单值。
本文深入讲解区间估计的基本概念,包括置信区间、置信限与置信域的定义及其在参数估计中的应用。探讨了评价区间估计优劣的两个关键指标——可靠度与精度,并介绍了Neyman准则在构建高效区间估计中的作用。

1356

被折叠的 条评论
为什么被折叠?



