我之前审过一篇论文,数据里7%的患者有缺失值,作者直接用均值填补了。我提了一个意见:为什么用均值填补?作者在回复里说「因为这个变量是正态分布的」。
这个回答完全没有回答到点子上。我又追问:均值填补会压低方差、改变分布,你知道吗?作者第二天又回复:改成多重插补了。
今天把这个话题讲清楚。
⚠️ 先搞清楚:你的缺失值是怎么产生的
处理缺失值的第一步,不是选方法,是搞清楚数据是怎么缺失的。
缺失值的产生机制分三类,搞清楚这个比选方法重要十倍:
- MCAR(完全随机缺失):缺失与任何变量都无关。勉强可以用列表删除。
- MAR(随机缺失):缺失只与已观测变量有关,是多重插补的理论基础。
- MNAR(非随机缺失):缺失与未观测变量有关,最麻烦,需要额外假设。
判断机制靠常识加统计检验,不靠拍脑袋。

图:缺失值处理三分法流程
🌿 三种缺失值处理方法
订阅专栏 解锁全文

811

被折叠的 条评论
为什么被折叠?



