multivariate data analysis 学习笔记(一)
chapter1 introduction
学习目标:
1.解释多元分析是什么以及什么时候适合使用
2.讨论不同测量方法的使用范围以及关系
3.理解不同测量方法存在的误差
4.能够判断多元分析是否适合某个领域
...
名词介绍
Boostrapping:从总样本中抽取大量子样本,对子样本进行测量,最终得出待测量的值。举例:要得到总体数据的平均值,连续进行有放回的抽样100次,每次1000个样本,最终得到100个平均值,根据这100个平均值得到总体平均值,中位数等。与传统的直接抽取100000个样本求平均值相比,这种方法可以获取到更多的统计特征如平均数,中位数。
Reliability:信度,指多次测量得到的结果一致,测量结果对测量本身不敏感,反应的是测量结论的可靠性。常见的提升信度的方法是结合多个描述同一概念的特征,生成一个综合特征,这样可靠性更高,不容易因为单词的测量误差产生偏差。
Validity:效度,指的是变量与最终的目标之间的相关程度,使用此变量能够多大程度地预测目标。
Type I erro:一类错误,拒真。本应接受的假设,却被错误地排除了。
Type II error: 二类错误,纳假。本应该拒绝的假设,却接受了。
Measurement Scales(变量值域):
变量变化范围
Nonmetric Measurement Scales(类别型变量值域):
类别型变量包含有序类别和无序类别。
无序类别之间没有大小关系,比如标识男女的性别。
有序类别指的是取值之间有大小关系,如满意度五档打


1万+

被折叠的 条评论
为什么被折叠?



