实验目的:
掌握列联表检验(Pearson c2独立性检验),掌握Fisher精确独立性检验,初步掌握三维列联表条件独立性检验;
掌握三个相关性检验:Pearson相关性检验,Spearman秩相关检验,Kendall秩相关检验。
实验内容:
(习题6.11)在高中一年级男生中抽取300名考察其两个属性:B是1500米长跑,C是每天平均锻炼时间,得到4 × 3列联表,如下表所示。试对 a = 0.05,检验B与C是否独立。
300名高中学生体育锻炼的考察结果
|
1500 米 长跑记录 |
锻炼时间 |
合计 | ||
|
2小时以上 |
1〜2小时 |
1小时以下 | ||
|
5"01'〜5"30' |
45 |
12 |
10 |
67 |
|
5"31'〜6"00' |
46 |
20 |
28 |
94 |
|
6"01'〜6"30' |
28 |
23 |
30 |
81 |
|
6"31'〜7"00' |
11 |
12 |
35 |
58 |
|
合计 |
130 |
67 |
103 |
300 |
解:提出假设:
H0:1500米长跑纪录与锻炼时间相互独立
H1:1500米长跑纪录与锻炼时间相关
源代码及运行结果:(复制到此处,不要截图)
> x<-c(45,12,10,46,20,28,28,23,30,11,12,35)
> y<-matrix(x,nc=3,byrow = T)
> chisq.test(y)
Pearson's Chi-squared test
data: y
X-squared = 40.401, df = 6, p-value = 3.799e-07
结论:P值远小于0.05,拒绝原假设,即1500米长跑记录与锻炼时间相关。
(习题6.12)为研究分娩过程中使用胎儿电子监测仪对剖腹产率有无影响,对5824例分娩的经产妇进行回顾性调查,结果如下表所示,试进行分析。
5824例经产妇回顾性调查结果
|
剖腹产 |
胎儿电子监测仪 |
合计 | |
|
使用 |
未使用 | ||
|
是 |
358 |
229 |
587 |
|
否 |
2492 |
2745 |
5237 |
|
合计 |
2850 |
2974 |
5824 |
解:提出假设:
H0:分娩过程中使用胎儿电子监测仪对剖腹产率无影响
H1:分娩过程中使用胎儿电子监测仪对剖腹产率有影响
源代码及运行结果:(复制到此处,不要截图)
> a<-c(358,229,2492,2745)
> b<-matrix(a,nc=2,byrow = T)
> chisq.test(b)
Pearson's Chi-squared test with Yates' continuity
correction
data: b
X-squared = 37.414, df = 1, p-value = 9.552e-10
结论:P值远小于0.05,拒绝原假设,即分娩过程中使用胎儿电子监测仪对剖腹产率有影响。
(习题6.13)为比较两种工艺对产品的质量是否有影响,对其产品进行抽样检查,其结果如下表所示。试进行分析。
两种工艺下产品质量的抽查结果
|
合格 |
不合格 |
合计 | |
|
工艺一 |
3 |
4 |
7 |
|
工艺二 |
6 |
4 |
10 |
|
合计 |
9 |
8 |
17 |
解:提出假设:
H0:两种工艺与产品的质量相互对立
H1:两种工艺与产品的质量相关
源代码及运行结果:(复制到此处,不要截图)
> c<-c(3,4,6,4)
> d<-matrix(c,nc=2,byrow = T)
> fisher.test(d)
Fisher's Exact Test for Count Data
data: d
p-value = 0.6372
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.04624382 5.13272210
sample estimates:
odds ratio
0.521271
结论:P值(=0.637)>0.05,接受原假设,即两种工艺与产品的质量无相关性。
(习题6.14)一所大学去年收到 21 位男生和 63 位女生的求职信,结果聘用了 10 位男生和 14位女生 (1) 分析这所大学在招聘方面是否存在性别差异;(2) 根据学院详细分类数据如下表所示,再研究该大学在招聘方面是否存在性别差异。
某大学去年的招聘情况
|
申请者 |
教育学院 |
管理学院 |
工程学院 | |||
|
被聘 |
被拒 |
被聘 |
被拒 |
被聘 |
被拒 | |
|
男性 |
2 |
8 |
5 |
0 |
3 |
3 |
|
女性 |
12 |
48 |
1 |
0 |
1 |
1 |
解:
(1)提出假设:
H0:这所大学在招聘方面没有存在性别差异
H1:这所大学在招聘方面存在性别差异
源代码及运行结果:(复制到此处,不要截图)
> r<-matrix(c(10,11,14,49),nc=2,byrow = T)
> chisq.test(r)
Pearson's Chi-squared test with Yates' continuity
correction
data: r
X-squared = 3.8111, df = 1, p-value = 0.05091
结论:P值为0.0509接近0.05,这意味着存在一些证据表明这所大学在招聘方面存在性别差异,但结果并不十分显著。
(2)提出假设:
H0:这所大学在招聘方面没有存在性别差异
H1:这所大学在招聘方面存在性别差异
源代码及运行结果:(复制到此处,不要截图)
> r<-array(c(2,12,8,48,5,1,0,0,3,1,3,1),dim = c(2,2,3))
> mantelhaen.test(r)
Mantel-Haenszel chi-squared test without continuity
correction
data: r
Mantel-Haenszel X-squared = 0, df = 1, p-value = 1
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.2269314 4.4066187
sample estimates:
common odds ratio
结论:P值>0.05,接受原假设,即这所大学在招聘方面没有存在性别差异
(习题6.15)下表(数据存放在 score.data 文件中)列出某高中 18 名学生某门课程的高考成绩和模拟考试成绩,这组数据能否说明高考成绩与模拟考试成绩是相关的?
高考成绩和模拟考试成绩
|
学号 |
高考 |
模考 |
学号 |
高考 |
模考 |
学号 |
高考 |
模考 |
|
1 |
87 |
90 |
7 |
78 |
65 |
13 |
90 |
100 |
|
2 |
76 |
98 |
8 |
91 |
90 |
14 |
92 |
97 |
|
3 |
77 |
92 |
9 |
76 |
84 |
15 |
100 |
97 |
|
4 |
85 |
87 |
10 |
100 |
92 |
16 |
100 |
95 |
|
5 |
89 |
87 |
11 |
96 |
100 |
17 |
90 |
94 |
|
6 |
83 |
62 |
12 |
96 |
98 |
18 |
99 |
100 |
提示:显然应该优先考虑Pearson相关检验。但用Pearson相关检验,必须先进行正态性检验。严格来说,应该检验两个总体的联合分布是否服从正态分布(可利用第三方程序包,如vmnormtest程序包中的mshapiro.test()函数),但在实际使用时,通常是分别对两个总体单独进行正态性检验。如果不符合正态性,改用Spearman相关检验。
解:(1)正态性检验
提出假设:
H0:两个总体的联合分布服从正态性分布
H1:两个总体的联合分布不服从正态性分布
源代码及运行结果:(复制到此处,不要截图)
> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)
> shapiro.test(X$高考)
Shapiro-Wilk normality test
data: X$高考
W = 0.91202, p-value = 0.0934
> shapiro.test(X$模拟)
Shapiro-Wilk normality test
data: X$模拟
W = 0.77174, p-value = 0.0006223
结论:高考P值大于0.05,接受原假设,即高考成绩服从正态分布,但模拟P值远小于0.05,拒绝原假设,即模拟成绩不服从正态分布,因此总体联合不服从正态分布
(2)相关检验
提出假设:
H0:高考成绩与模拟考试成绩相互独立
H1:高考成绩与模拟考试成绩相关
源代码及运行结果:(复制到此处,不要截图)
> X <- read.table("C:/Users/黄培滇/Desktop/R语言生物统计学/chap06/score.data", header = TRUE)
> cor.test(X$高考,X$模拟,method = "spearman")
Spearman's rank correlation rho
data: X$高考 and X$模拟
S = 462.82, p-value = 0.02615
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.5223728
结论:P值远小于0.05,拒绝原假设,即高考成绩与模拟考成绩相关
(习题6.16)调查某大学学生每周学习时间与得分的平均等级之间的关系,现抽查10个学生的资料如下:
|
学习时间 |
24 |
17 |
20 |
41 |
52 |
23 |
46 |
18 |
15 |
29 |
|
学习等级 |
8 |
1 |
4 |
7 |
9 |
5 |
10 |
3 |
2 |
6 |
其中等级10表示最好,1表示最差。试用秩相关检验(Spearman检验和Kendall检验)分别分析学习时间与学习等级有无关系。
解:(1)用Spearman秩检验方法
提出假设:
H0:学习时间与学习等级相互独立
H1:学习时间与学习等级相关
源代码及运行结果:(复制到此处,不要截图)
> a<-c(24,17,20,41,52,23,46,18,15,29)
> b<-c(8,1,4,7,9,5,10,3,2,6)
> cor.test(a,b,method = "spearman")
Spearman's rank correlation rho
data: a and b
S = 10, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.9393939
结论:P值远小于0.05,拒绝原假设,即学习时间与学习等级相关
(2)用Kendall秩检验方法
源代码及运行结果:(复制到此处,不要截图)
> a<-c(24,17,20,41,52,23,46,18,15,29)
> b<-c(8,1,4,7,9,5,10,3,2,6)
> cor.test(a,b,method = "kendall")
Kendall's rank correlation tau
data: a and b
T = 41, p-value = 0.0003577
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.8222222
结论:P值远小于0.05,拒绝原假设,即学习时间与学习等级相关
思考:
在对四格表的问题进行独立性检验时,Pearson c2统计量的自由度是多少?一般地,在对于I 行J 列的列联表进行独立性检验时,Pearson c2统计量的自由度是多少?
在对四格表的问题进行独立性检验时,Pearson c2统计量的自由度是1,在对于I 行J 列的列联表进行独立性检验时,Pearson c2统计量的自由度是(I-1)*(J-1)。
在样本数较小时(指单元的期望频数小于4),需要用__Fisher精确________检验来完成独立性检验,该检验是建立在____超几何分布________分布的基础上。在R软件中,做该检验的函数是__fisher.test()________。
Mantel - Haenszel 检验是针对一类特殊的三维列联表(2×2×k)设计的,在R软件中,做该检验的函数是____mantlhaen.test()___________。
相关性检验有哪三种方法?其中哪两种是非参数检验方法?
Pearson相关检验
Spearman相关检验
Kendall相关检验
两个样本的相关系数的绝对值越接近于1,能否说明两个样本所在的总体的相关性越强?为什么?
不能。相关系数的绝对值大小只能说明两个变量之间的线性关系程度,但不能说明相关性的强度。
&spm=1001.2101.3001.5002&articleId=139176243&d=1&t=3&u=b0e4d03a3c584c01b412979bc06ea273)
3555

被折叠的 条评论
为什么被折叠?



