R语言中卡方检验的全面指南
1. 卡方检验的假设
卡方检验与其他多数检验不同,它不依赖于数据连续且呈正态分布的假设,因为分类数据本身就不连续,无法呈正态分布。不过,卡方检验仍有两个重要假设:
- 数据独立性 :和本书中大多数检验一样,卡方检验也要求数据独立。为使卡方检验有意义,每个人、物品或实体只能对列联表中的一个单元格有贡献。因此,不能将卡方检验用于重复测量设计。例如,若先训练一些猫用食物奖励看它们是否会跳舞,再用情感奖励训练同一批猫看它们是否会跳舞,就不能用皮尔逊卡方检验分析这些数据。
- 期望频率大于5 :虽然在较大的列联表中,允许最多20%的期望频率低于5,但这会导致统计功效降低,可能使检验无法检测到真实效应。即使在较大列联表中,期望频率也不应低于1。若遇到期望频率低于5的情况,可考虑使用费舍尔精确检验。
此外,当样本量足够大时,单元格频率的微小差异也可能导致变量间存在统计学上的显著关联。因此,我们需要查看行和列的百分比来解释效应,这些百分比比频率本身更能反映数据模式。
2. 使用R进行卡方检验
2.1 数据输入:原始分数
若输入原始分数,数据编辑器的每一行代表一个实体(如本例中的每只猫)。需要创建两个编码:“Training”和“Dance”。“Training”包含两个值,分别表示食物奖励和情感奖励;“Dance”根据猫是否跳舞取值为“Yes”或“No”。共有200只猫,因此有200行数据。可以通过设置工作目录并执行以下代码加载数据文件:
catData&
超级会员免费看
订阅专栏 解锁全文

155

被折叠的 条评论
为什么被折叠?



