R实验非参数性检验（一）

原创已于 2024-05-26 14:28:05 修改 · 1.6k 阅读

19 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#r语言 #开发语言

于 2024-05-25 00:00:00 首次发布

实验目的：

掌握列联表检验（Pearson c2独立性检验），掌握Fisher精确独立性检验，初步掌握三维列联表条件独立性检验；

掌握三个相关性检验：Pearson相关性检验，Spearman秩相关检验，Kendall秩相关检验。

实验内容：

（习题6.11）在高中一年级男生中抽取300名考察其两个属性：B是1500米长跑，C是每天平均锻炼时间，得到4 × 3列联表，如下表所示。试对 a = 0.05，检验B与C是否独立。

300名高中学生体育锻炼的考察结果

1500 米长跑记录	锻炼时间			合计
1500 米长跑记录	2小时以上	1〜2小时	1小时以下	合计
5"01'〜5"30'	45	12	10	67
5"31'〜6"00'	46	20	28	94
6"01'〜6"30'	28	23	30	81
6"31'〜7"00'	11	12	35	58
合计	130	67	103	300

解：提出假设：

H0：1500米长跑纪录与锻炼时间相互独立

H1：1500米长跑纪录与锻炼时间相关

源代码及运行结果：（复制到此处，不要截图）

> x<-c(45,12,10,46,20,28,28,23,30,11,12,35)

> y<-matrix(x,nc=3,byrow = T)

> chisq.test(y)

Pearson's Chi-squared test

data: y

X-squared = 40.401, df = 6, p-value = 3.799e-07

结论：P值远小于0.05，拒绝原假设，即1500米长跑记录与锻炼时间相关。

（习题6.12）为研究分娩过程中使用胎儿电子监测仪对剖腹产率有无影响，对5824例分娩的经产妇进行回顾性调查，结果如下表所示，试进行分析。

5824例经产妇回顾性调查结果

剖腹产	胎儿电子监测仪		合计
剖腹产	使用	未使用	合计
是	358	229	587
否	2492	2745	5237
合计	2850	2974	5824

解：提出假设：

H0：分娩过程中使用胎儿电子监测仪对剖腹产率无影响

H1：分娩过程中使用胎儿电子监测仪对剖腹产率有影响

源代码及运行结果：（复制到此处，不要截图）

> a<-c(358,229,2492,2745)

> b<-matrix(a,nc=2,byrow = T)

> chisq.test(b)

Pearson's Chi-squared test with Yates' continuity

correction

data: b

X-squared = 37.414, df = 1, p-value = 9.552e-10

结论：P值远小于0.05，拒绝原假设，即分娩过程中使用胎儿电子监测仪对剖腹产率有影响。

（习题6.13）为比较两种工艺对产品的质量是否有影响，对其产品进行抽样检查，其结果如下表所示。试进行分析。

两种工艺下产品质量的抽查结果

	合格	不合格	合计
工艺一	3	4	7
工艺二	6	4	10
合计	9	8	17

解：提出假设：

H0：两种工艺与产品的质量相互对立

H1：两种工艺与产品的质量相关

源代码及运行结果：（复制到此处，不要截图）

> c<-c(3,4,6,4)

> d<-matrix(c,nc=2,byrow = T)

> fisher.test(d)

Fisher's Exact Test for Count Data

data: d

p-value = 0.6372

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

0.04624382 5.13272210

sample estimates:

odds ratio

0.521271

结论：P值（=0.637）＞0.05，接受原假设，即两种工艺与产品的质量无相关性。

（习题6.14）一所大学去年收到 21 位男生和 63 位女生的求职信，结果聘用了 10 位男生和 14位女生 (1) 分析这所大学在招聘方面是否存在性别差异；(2) 根据学院详细分类数据如下表所示，再研究该大学在招聘方面是否存在性别差异。

某大学去年的招聘情况

申请者	教育学院		管理学院		工程学院
申请者	被聘	被拒	被聘	被拒	被聘	被拒
男性	2	8	5	0	3	3
女性	12	48	1	0	1	1

解：

（1）提出假设：

H0：这所大学在招聘方面没有存在性别差异

H1：这所大学在招聘方面存在性别差异

源代码及运行结果：（复制到此处，不要截图）

> r<-matrix(c(10,11,14,49),nc=2,byrow = T)

> chisq.test(r)

Pearson's Chi-squared test with Yates' continuity

correction

data: r

X-squared = 3.8111, df = 1, p-value = 0.05091

结论：P值为0.0509接近0.05，这意味着存在一些证据表明这所大学在招聘方面存在性别差异，但结果并不十分显著。

（2）提出假设：

H0：这所大学在招聘方面没有存在性别差异

H1：这所大学在招聘方面存在性别差异

源代码及运行结果：（复制到此处，不要截图）

> r<-array(c(2,12,8,48,5,1,0,0,3,1,3,1),dim = c(2,2,3))

> mantelhaen.test(r)

Mantel-Haenszel chi-squared test without continuity

correction

data: r

Mantel-Haenszel X-squared = 0, df = 1, p-value = 1

alternative hypothesis: true common odds ratio is not equal to 1

95 percent confidence interval:

0.2269314 4.4066187

sample estimates:

common odds ratio

结论：P值＞0.05，接受原假设，即这所大学在招聘方面没有存在性别差异

（习题6.15）下表（数据存放在 score.data 文件中）列出某高中 18 名学生某门课程的高考成绩和模拟考试成绩，这组数据能否说明高考成绩与模拟考试成绩是相关的？

高考成绩和模拟考试成绩

学号	高考成绩	模考成绩	学号	高考成绩	模考成绩	学号	高考成绩	模考成绩
1	87	90	7	78	65	13	90	100
2	76	98	8	91	90	14	92	97
3	77	92	9	76	84	15	100	97
4	85	87	10	100	92	16	100	95
5	89	87	11	96	100	17	90	94
6	83	62	12	96	98	18	99	100

提示：显然应该优先考虑Pearson相关检验。但用Pearson相关检验，必须先进行正态性检验。严格来说，应该检验两个总体的联合分布是否服从正态分布（可利用第三方程序包，如vmnormtest程序包中的mshapiro.test()函数），但在实际使用时，通常是分别对两个总体单独进行正态性检验。如果不符合正态性，改用Spearman相关检验。

解：（1）正态性检验

提出假设：

H0：两个总体的联合分布服从正态性分布

H1：两个总体的联合分布不服从正态性分布

源代码及运行结果：（复制到此处，不要截图）

> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)

> shapiro.test(X$高考)

Shapiro-Wilk normality test

data: X$高考

W = 0.91202, p-value = 0.0934

> shapiro.test(X$模拟)

Shapiro-Wilk normality test

data: X$模拟

W = 0.77174, p-value = 0.0006223

结论：高考P值大于0.05，接受原假设，即高考成绩服从正态分布，但模拟P值远小于0.05，拒绝原假设，即模拟成绩不服从正态分布，因此总体联合不服从正态分布

（2）相关检验

提出假设：

H0：高考成绩与模拟考试成绩相互独立

H1：高考成绩与模拟考试成绩相关

源代码及运行结果：（复制到此处，不要截图）

> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)

> cor.test(X$高考,X$模拟,method = "spearman")

Spearman's rank correlation rho

data: X$高考 and X$模拟

S = 462.82, p-value = 0.02615

alternative hypothesis: true rho is not equal to 0

sample estimates:

rho

0.5223728

结论：P值远小于0.05，拒绝原假设，即高考成绩与模拟考成绩相关

（习题6.16）调查某大学学生每周学习时间与得分的平均等级之间的关系，现抽查10个学生的资料如下：

学习时间	24	17	20	41	52	23	46	18	15	29
学习等级	8	1	4	7	9	5	10	3	2	6

其中等级10表示最好，1表示最差。试用秩相关检验（Spearman检验和Kendall检验）分别分析学习时间与学习等级有无关系。

解：（1）用Spearman秩检验方法

提出假设：

H0：学习时间与学习等级相互独立

H1：学习时间与学习等级相关

源代码及运行结果：（复制到此处，不要截图）

> a<-c(24,17,20,41,52,23,46,18,15,29)

> b<-c(8,1,4,7,9,5,10,3,2,6)

> cor.test(a,b,method = "spearman")

Spearman's rank correlation rho

data: a and b

S = 10, p-value < 2.2e-16

alternative hypothesis: true rho is not equal to 0

sample estimates:

rho

0.9393939

结论：P值远小于0.05，拒绝原假设，即学习时间与学习等级相关

（2）用Kendall秩检验方法

源代码及运行结果：（复制到此处，不要截图）

> a<-c(24,17,20,41,52,23,46,18,15,29)

> b<-c(8,1,4,7,9,5,10,3,2,6)

> cor.test(a,b,method = "kendall")

Kendall's rank correlation tau

data: a and b

T = 41, p-value = 0.0003577

alternative hypothesis: true tau is not equal to 0

sample estimates:

tau

0.8222222

结论：P值远小于0.05，拒绝原假设，即学习时间与学习等级相关

思考：

在对四格表的问题进行独立性检验时，Pearson c2统计量的自由度是多少？一般地，在对于I 行J 列的列联表进行独立性检验时，Pearson c2统计量的自由度是多少？

在对四格表的问题进行独立性检验时，Pearson c2统计量的自由度是1，在对于I 行J 列的列联表进行独立性检验时，Pearson c2统计量的自由度是（I-1）*（J-1）。

在样本数较小时（指单元的期望频数小于4），需要用__Fisher精确________检验来完成独立性检验，该检验是建立在____超几何分布________分布的基础上。在R软件中，做该检验的函数是__fisher.test()________。

Mantel - Haenszel 检验是针对一类特殊的三维列联表（2×2×k）设计的，在R软件中，做该检验的函数是____mantlhaen.test（）___________。

相关性检验有哪三种方法？其中哪两种是非参数检验方法？

Pearson相关检验

Spearman相关检验

Kendall相关检验

两个样本的相关系数的绝对值越接近于1，能否说明两个样本所在的总体的相关性越强？为什么？

不能。相关系数的绝对值大小只能说明两个变量之间的线性关系程度，但不能说明相关性的强度。

R实验 非参数性检验（一）

R实验非参数性检验（一）