缺失值填0还是删掉?90%的医学论文都踩过这个坑

我之前审过一篇论文,数据里7%的患者有缺失值,作者直接用均值填补了。我提了一个意见:为什么用均值填补?作者在回复里说「因为这个变量是正态分布的」。

这个回答完全没有回答到点子上。我又追问:均值填补会压低方差、改变分布,你知道吗?作者第二天又回复:改成多重插补了。

今天把这个话题讲清楚。

⚠️ 先搞清楚:你的缺失值是怎么产生的

处理缺失值的第一步,不是选方法,是搞清楚数据是怎么缺失的。

缺失值的产生机制分三类,搞清楚这个比选方法重要十倍:

  • MCAR(完全随机缺失):缺失与任何变量都无关。勉强可以用列表删除。
  • MAR(随机缺失):缺失只与已观测变量有关,是多重插补的理论基础。
  • MNAR(非随机缺失):缺失与未观测变量有关,最麻烦,需要额外假设。

判断机制靠常识加统计检验,不靠拍脑袋。

图片

图:缺失值处理三分法流程

🌿 三种缺失值处理方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

公众号Codewar原创作者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值