multivariate data analysis 学习笔记(一)

最新推荐文章于 2025-04-26 20:06:54 发布

原创

最新推荐文章于 2025-04-26 20:06:54 发布 · 2.8k 阅读

标签

#大数据

收录于

multivariate data analysis 学习笔记(一)

chapter1 introduction

学习目标:

1.解释多元分析是什么以及什么时候适合使用

2.讨论不同测量方法的使用范围以及关系

3.理解不同测量方法存在的误差

4.能够判断多元分析是否适合某个领域

...

名词介绍

Boostrapping：从总样本中抽取大量子样本，对子样本进行测量，最终得出待测量的值。举例：要得到总体数据的平均值，连续进行有放回的抽样100次，每次1000个样本，最终得到100个平均值，根据这100个平均值得到总体平均值，中位数等。与传统的直接抽取100000个样本求平均值相比，这种方法可以获取到更多的统计特征如平均数，中位数。

Reliability:信度，指多次测量得到的结果一致，测量结果对测量本身不敏感，反应的是测量结论的可靠性。常见的提升信度的方法是结合多个描述同一概念的特征，生成一个综合特征，这样可靠性更高，不容易因为单词的测量误差产生偏差。

Validity:效度，指的是变量与最终的目标之间的相关程度，使用此变量能够多大程度地预测目标。

Type I erro：一类错误，拒真。本应接受的假设，却被错误地排除了。

Type II error: 二类错误，纳假。本应该拒绝的假设，却接受了。

Measurement Scales(变量值域)：

变量变化范围

Nonmetric Measurement Scales(类别型变量值域)：

类别型变量包含有序类别和无序类别。

无序类别之间没有大小关系，比如标识男女的性别。

有序类别指的是取值之间有大小关系，如满意度五档打