数据科学中的重采样方法与不同数据类型解析
1. 重采样方法概述
重采样和子采样方法并非独立的分析方法,而是对其他方法(如预测模型)的补充,它允许我们“模拟”重复实验。通过这种方式,我们能够估计与预测模型结果相关的潜在概率分布,进而估算(均值)误差和标准误差。尽管存在许多交叉验证和其他重采样方法(如自助法)的技术变体来改进估计,但本文讨论的方法在实际数据科学项目中经常被使用。
1.1 重采样方法练习
以下是一些关于重采样方法的练习:
1. 研究有放回重采样获得的唯一实例数量 :从 n = 100 个数据点开始,估计对于 m = {10, 20, 50, 75, n} 抽取的样本中唯一实例的百分比。为了获得稳定的估计,需要进行平均。当改变 n 时,结果会如何变化?提示:扩展代码清单 4.7。
2. 生成数据集并进行子采样 :生成一个包含 n = 100 个样本的数据集。对于这个数据集,通过抽取 x = {90%, 60%, 40%} 的样本进行子采样。
3. 理解标准误差 :确认标准误差是一种标准差,但不是针对单个观测值,而是针对样本均值。
4. 计算标准误差和样本标准差的极限 :给定 X 和 Y 的标准差,如公式 4.14 和 4.12 所示,标准误差和样本标准差的相应样本估计的极限是多少?
- $\lim_{n \to \infty} SE =?$
- $\lim_{n \to \infty} s =?$
超级会员免费看
订阅专栏 解锁全文

191

被折叠的 条评论
为什么被折叠?



