10.第四章区间估计(1)

最新推荐文章于 2024-07-16 13:12:21 发布

原创最新推荐文章于 2024-07-16 13:12:21 发布 · 1.6k 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#概率论

《数理统计》学习笔记专栏收录该内容

21 篇文章

订阅专栏

本文深入讲解区间估计的基本概念，包括置信区间、置信限与置信域的定义及其在参数估计中的应用。探讨了评价区间估计优劣的两个关键指标——可靠度与精度，并介绍了Neyman准则在构建高效区间估计中的作用。

第四章区间估计(1)

1.区间估计的基本概念

区间估计，指用一个误差限 $d(X)d(\boldsymbol X)$ 作为点估计的偏离限度，将 $g(θ)g(\theta)$ 的取值限制在 $[g^(X)−d(X),g^(X)+d(X)][\hat g(\boldsymbol X)-d(\boldsymbol X),\hat g(\boldsymbol X)+d(\boldsymbol X)]$ 之中。更一般地，取两个具有确定大小关系的统计量 $g^1(X)≤g^2(X)\hat g_1(\boldsymbol X)\le \hat g_2(\boldsymbol X)$ ，将 $[g^1(X),g^2(X)][\hat g_1(\boldsymbol X),\hat g_2(\boldsymbol X)]$ 作为参数 $g(θ)g(\theta)$ 的区间估计。与点估计不同，点估计不可能取到实际参数值，但区间估计却存在包含实际参数值的可能；从定义也可以看出，区间估计依赖于好的点估计。

评价区间估计优劣主要有两个指标：可靠度，精度。

可靠度：待估参数 $g(θ)g(\theta)$ 被包含在区间 $[g^1(X),g^2(X)][\hat g_1(\boldsymbol X),\hat g_2(\boldsymbol X)]$ 的可能性大小；
精度：区间的平均长度 $Eθ(g^2(X)−g^1(X))E_\theta(\hat g_2(\boldsymbol X)-\hat g_1(\boldsymbol X))$ 。
一般来说，在样本大小固定时，提高可靠度意味着降低精度，反之也成立。构造可靠度和精度都尽可能高的方法通常采用Neyman原则，即在保证可靠度达到指定要求的前提下尽可能提高精度。

为了衡量区间估计的可靠度，将随机取件 $[θ^1,θ^2][\hat \theta_1,\hat\theta_2]$ 包含待估参数 $θ\theta$ 的概率称为置信度（置信系数），即置信度为 $P{θ∈[θ^1,θ^2]}\mathbf P\{\theta\in [\hat \theta_1,\hat\theta_2]\}$ 。然而置信度是依赖于未知参数 $θ\theta$ 的，而我们在估计时仅仅知道 $θ\theta$ 是个定值却不知道它到底是多少，所以我们要对整个样本空间 $Θ\Theta$ 上的参数确定置信度，将所有置信度的下确界定为这个区间估计的置信系数，即
$inf⁡θ∈ΘPθ(θ^1≤θ≤θ^2) \inf_{\theta\in\Theta}\mathbf P_\theta(\hat\theta_1\le\theta\le\hat \theta_2)$
可以看出，用置信系数衡量区间估计的可靠度就与未知参数无关，而单单说置信度（置信水平），是依赖于未知参数的。如果要计算区间估计的置信水平或置信系数，就需要相关统计量的精确分布或渐进分布。

2.置信区间、置信限与置信域

Neyman准则要求在可靠度达到一定要求的前提下，尽可能地缩短区间估计的长度，因此需要引入置信区间的概念。对给定的 $0<α<10<\alpha<1$ 与区间估计 $[θ^1(X),θ^2(X)][\hat \theta_1(\boldsymbol X),\hat \theta_2(\boldsymbol X)]$ ，有
$Pθ(θ^1(X)≤θ≤θ^2(X))≥1−α,∀θ∈Θ即inf⁡θ∈ΘPθ(θ^1(X)≤θ≤θ^2(X))≥1−α \mathbf P_\theta(\hat \theta_1(\boldsymbol X)\le\theta\le\hat \theta_2(\boldsymbol X))\ge1-\alpha,\forall \theta\in\Theta\\ 即\inf_{\theta\in\Theta}\mathbf P_\theta(\hat \theta_1(\boldsymbol X)\le\theta\le\hat \theta_2(\boldsymbol X))\ge1-\alpha$
则称 $[θ^1(X),θ^2(X)][\hat \theta_1(\boldsymbol X),\hat\theta_2(\boldsymbol X)]$ 是 $θ\theta$ 的置信水平为 $1−α1-\alpha$ 的置信区间，即置信系数不小于 $1−α1-\alpha$ 的区间估计。

置信区间是一种双边区间估计，而如果只关心未知参数的单边估计，就用到置信限。置信限的定义与区间估计类似，分为置信上限 $θ^U(X)\hat \theta_U(\boldsymbol X)$ 和置信下限 $θ^L(X)\hat \theta_L(\boldsymbol X)$ ，分别要求在给定的置信系数 $1−α1-\alpha$ 下，有
$Pθ(θ≤θ^U(X))≥1−α,∀θ∈ΘPθ(θ≥θ^L(X))≥1−α,∀θ∈Θ \mathbf P_\theta(\theta\le\hat \theta_U(\boldsymbol X))\ge1-\alpha, \forall \theta\in\Theta\\ \mathbf P_\theta(\theta\ge\hat \theta_L(\boldsymbol X))\ge1-\alpha,\forall \theta \in \Theta$
并且可以推论，对于 $θ^L(X)≤θ^U(X)\hat \theta_L(\boldsymbol X)\le\hat \theta_U(\boldsymbol X)$ ，如果 $θ^L(X)\hat \theta_L(\boldsymbol X)$ 是置信水平 $1−α11-\alpha_1$ 的置信下限， $θ^U(X)\hat \theta_U(\boldsymbol X)$ 是置信水平为 $1−α21-\alpha_2$ 的置信上限，则 $[θ^L(X),θ^U(X)][\hat \theta_L(\boldsymbol X),\hat \theta_U(\boldsymbol X)]$ 是置信水平为 $1−α1−α21-\alpha_1-\alpha_2$ 的双侧置信区间。

置信域将置信区间与置信限的概念拓展到参数 $θ\theta$ 是多维（设为 $k$ 维）的情形。设有一个参数分布族 $,θk)∈Θ⊂Rk\mathscr F=\{f(x,\boldsymbol \theta), \boldsymbol \theta \in\Theta\},\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in \Theta \subset \mathbf R^k$ 。若统计量 $S(X)S(\boldsymbol X)$ 满足对任何样本 $X\boldsymbol X$ 有 $S(X)⊂ΘS(\boldsymbol X)\subset\Theta$ ，且 $Pθ(θ∈S(X))≥1−α,∀θ∈Θ\mathbf P_\boldsymbol \theta(\boldsymbol \theta\in S(\boldsymbol X))\ge1-\alpha,\forall \boldsymbol \theta\in\Theta$ ，则称 $S(X)S(\boldsymbol X)$ 是 $θ\boldsymbol \theta$ 的置信水平为 $1−α1-\alpha$ 的置信域。