1. 一般的二维列联表
| B1B_1B1 | B2B_2B2 | ⋯\cdots⋯ | BsB_sBs | 合计 | |
|---|---|---|---|---|---|
| A1A_1A1 | n11n_{11}n11 | n12n_{12}n12 | ⋯\cdots⋯ | n1sn_{1s}n1s | n1⋅n_{1\cdot}n1⋅ |
| A2A_2A2 | n21n_{21}n21 | n22n_{22}n22 | ⋯\cdots⋯ | n2sn_{2s}n2s | n2⋅n_{2\cdot}n2⋅ |
| ⋮\vdots⋮ | ⋮\vdots⋮ | ⋮\vdots⋮ | ⋯\cdots⋯ | ⋮\vdots⋮ | ⋮\vdots⋮ |
| ArA_rAr | nr1n_{r1}nr1 | nr2n_{r2}nr2 | ⋯\cdots⋯ | nrsn_{rs}nrs | nr⋅n_{r\cdot}nr⋅ |
| 合计 | n⋅1n_{\cdot1}n⋅1 | n⋅2n_{\cdot2}n⋅2 | ⋯\cdots⋯ | n⋯n_{\cdots}n⋯ | nnn |
其中,ni⋅=∑j=1snijn_{i\cdot}=\sum\limits_{j=1}^sn_{ij}ni⋅=j=1∑snij,n⋅j=∑i=1rnijn_{\cdot j}=\sum\limits_{i=1}^rn_{ij}n⋅j=i=1∑rnij,此时指标A,BA, BA,B分别有r,sr, sr,s个水平,且以nijn_{ij}nij表示在nnn个样本中属于Ai∩BjA_i\cap B_jAi∩Bj的样本个数。
2. 假设
考虑两个指标之间是否独立,即H0:指标A与B独立或指标A与B没有关系(1)H_0:指标A与B独立或指标A与B没有关系\tag1H0:指标A与B独立或指标A与B没有关系(1)
如记pij=P{X∈Ai∩Bj}p_{ij}=P\{X\in A_i\cap B_j\}pij=P{X∈Ai∩Bj},则这nnn个样本可以看成来自多项分布XXX的样本。
再记pi⋅=P{X∈Ai},i=1,⋯ ,rp_{i\cdot}=P\{X\in A_i\}, i=1,\cdots,rpi⋅=P{X∈Ai},i=1,⋯,r,p⋅j=P{X∈Bj},j=1,⋯ ,sp_{\cdot j}=P\{X\in B_j\}, j=1,\cdots,sp⋅j=P{X∈Bj},j=1,⋯,s,则有pi⋅=∑j=1spijp_{i\cdot}=\sum\limits_{j=1}^sp_{ij}pi⋅=j=1∑spij,p⋅j=∑i=1rpijp_{\cdot j}=\sum\limits_{i=1}^rp_{ij}p⋅j=i=1∑rpij,且有如下约束∑i=1rpi⋅=∑j=1sp⋅j=1(2)\sum\limits_{i=1}^rp_{i\cdot}=\sum\limits_{j=1}^sp_{\cdot j}=1\tag2i=1∑rpi⋅=j=1∑sp⋅j=1(2)
当H0H_0H0成立时,应该有pij=pi⋅p⋅jp_{ij}=p_{i\cdot}p_{\cdot j}pij=pi⋅p⋅j,于是假设(2)(2)(2)等价于H0:pij=pi⋅p⋅j(3)H_0:p_{ij}=p_{i\cdot}p_{\cdot j}\tag3H0:pij=pi⋅p⋅j(3)
3.检验
由于我们可以把上述列联表数据看作时多项分布的样本,故可以用χ2\chi^2χ2拟合优度检验对其独立性假设(3)(3)(3)进行显著性检验。
不过由于pi⋅p_{i\cdot}pi⋅和p⋅jp_{\cdot j}p⋅j均未知,且有约束(2)(2)(2),故当H0H_0H0成立时,共有r+s−2r+s-2r+s−2个未知参数,此时,其未知参数的极大似然估计为p^i⋅=ni⋅n,p^⋅j=n⋅jn\hat p_{i\cdot}=\frac{n_{i\cdot}}{n}, \hat p_{\cdot j}=\frac{n_{\cdot j}}{n}p^i⋅=nni⋅,p^⋅j=nn⋅j
于是有统计量为χ2=n∑i=1r∑j=1s(nij−ni⋅n⋅jn)2ni⋅n⋅j(4)\chi^2=n\sum_{i=1}^r\sum_{j=1}^s\frac{(n_{ij}-\frac{n_{i\cdot}n_{\cdot j}}{n})^2}{n_{i\cdot}n_{\cdot j}}\tag4χ2=ni=1∑rj=1∑sni⋅n⋅j(nij−nni⋅n⋅j)2(4)
且当H0H_0H0成立及n→∞n\to\inftyn→∞时,有χ2→χ2((r−1)(s−1))\chi^2\to\chi^2((r-1)(s-1))χ2→χ2((r−1)(s−1))
于是,拒绝域为W={χ2≥χα2((r−1)(s−1))}(5)W=\{\chi^2\ge\chi^2_\alpha((r-1)(s-1))\}\tag5W={χ2≥χα2((r−1)(s−1))}(5)
这篇博客介绍了二维列联表的结构及其在统计学中的应用,特别是在检验两个分类指标A和B是否独立时。通过建立列联表,利用χ2拟合优度检验,当原假设H0:A与B独立时,计算统计量χ2,并根据渐进分布进行显著性检验。在H0成立且样本量足够大时,χ2统计量遵循χ2分布,从而确定拒绝域,完成独立性检验。

7万+

被折叠的 条评论
为什么被折叠?



