Model Checking

本文探讨了当回归模型的GM假设不成立时,可能产生的问题及其影响,包括参数估计偏差、预测误差和标准差估计的不准确性。通过残差图、偏残差图和Q-Q图进行模型验证,并提供了log转化、Box-Cox变换和权重最小二乘估计的解决方案。

What is that

之前所有的回归模型及性质都是基于GM假设的:

  1. E ( ϵ i ) = 0 E(\epsilon_i)=0 E(ϵi)=0 i = 1 , 2.. n _{i=1,2..n} i=1,2..n
  2. V a r ( ϵ i ) = σ 2 Var(\epsilon_i)=\sigma^2 Var(ϵi)=σ2 i = 1 , 2.. n _{i=1,2..n} i=1,2..n
  3. ϵ 1 , ϵ 2 . . . . . ϵ n \epsilon_1,\epsilon_2.....\epsilon_n ϵ1,ϵ2.....ϵn iid
  4. ϵ i \epsilon_i ϵi服从正态

1) GM不满足时,会发生什么

总的来说:

假设1是重要的, 不满足时,估计和预测都会出现偏差

假设3时重要的, 不满足时, 标准差的估计会不再准确

假设2,4, 只要我们没有遇到非常极端的情况:并不很重要,
   e.g.方差的变化很大或存在一些有较大影响的观察结果

why:
  1. E ( ϵ i ) = 0 E(\epsilon_i)=0 E(ϵi)=0 i = 1 , 2.. n _{i=1,2..n} i=1,2..n不满足时:

    β ^ \hat{\beta} β^变为 β \beta β的一个有偏估计:
在这里插入图片描述
对于新值的预测同样是有偏的:
在这里插入图片描述

  1. V a r ( ϵ i ) = σ 2 Var(\epsilon_i)=\sigma^2 Var(ϵi)=σ2 i = 1 , 2.. n _{i=1,2..n} i=1,2..n

    之前计算得的 β ^ \hat{\beta} β^的方差失效: V a r ( β ^ ) ≠ σ 2 ( X T X ) − 1 Var(\hat{\beta})\neq\sigma^2(X^TX)^{-1} Var(β^)=σ2(XTX)1, 也就意味着所有由 V a r ( β ^ ) Var(\hat{\beta}) Var(β^)出发的推论全部失效
在这里插入图片描述

  1. ϵ 1 , ϵ 2 . . . . . ϵ n \epsilon_1,\epsilon_2.....\epsilon_n ϵ1,ϵ2.....ϵn iid不满足时:

    根据经验,所有的方差是否相等(假设2)对于 σ \sigma σ估计的影响并不大(只要各个方差相差不太大); 但是,这些方差是否独立对于 σ \sigma σ的估计影响很大(就算只有两个方差相关,最后的结果相差都会很大)

  1. ϵ i \epsilon_i ϵi服从正态 不满足时:

    首先样本分布不再是正态, 导致 σ ^ \hat{\sigma} σ^不再是 χ 2 \chi^2 χ2,导致 t 检验, f 检验均不再正确

    不过, 由于大数定律的存在, 其偏差不会很大当样本量n大于30,并且没有influential point时, t 和 f 检验的结果依然有效



2) 如何检验该模型是否满足假设

方法:各种图,通过观察图来大致判断好坏

残差图

横轴:x (注意这里是x值不是x序列)
纵轴:残差
在这里插入图片描述

  解释:如若满足gm假设,其残差应当服从KaTeX parse error: Undefined control sequence: \si at position 2: N\̲s̲i̲(0,\sigma^2),即应当是如上图1所示的样子,图2为一反例

另外,还有一种残差图
横轴:y的拟合值 Y ^ \hat{Y} Y^

在这里插入图片描述

  同样的,这里我们可以看到,图a为理想状况,原因一致,同样是残差服从固定方差的正态分布;
  b中有明显偏差,均值不为0
  而在c中,很明显,参擦汗随着y的增加,有逐渐发散的趋势,这说明残差与y拟合值有关

偏残差图

偏残差的定义: r i ( j ) = r i + β 1 ^ x i j r_i^{(j)}=r_i+\hat{\beta_1}x_{ij} ri(j)=ri+β1^xij

其含义为:把 x j x_j xj的效应加回残差中

#这里偏残差暂时不深究,马上考试,回头再学

横轴:x
纵轴:偏残差

在这里插入图片描述
  解释:对于满足GM假设的模型来说,偏残差图应表现为线性关系,如上图1;
图2为反例

Q-Q图

在这里插入图片描述

qq图用于检验GM4,其两个坐标轴是经过某种变换的实验数据,使其当GM4满足时,应当服从正态,与真正的正态一起,互为两个轴,作图,其理性情况应该是呈45度角的直线(课件里这个应该是变换拉伸了并不是45度)




3) 当不满足时,我们可以做些什么

log转化

其包含两种:一种是仅对响应变量转换;另一种是对协变量和相应变量都进行转换

box-cox转化
带权重的最小二乘估计
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值