缺失值填0还是删掉？90%的医学论文都踩过这个坑

最新推荐文章于 2026-06-24 20:29:46 发布

原创最新推荐文章于 2026-06-24 20:29:46 发布 · 19 阅读

0 GEO检测

标签

#python #机器学习 #开发语言

收录于

统计基础知识和核心概念专栏收录该内容

72 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

我之前审过一篇论文，数据里7%的患者有缺失值，作者直接用均值填补了。我提了一个意见：为什么用均值填补？作者在回复里说「因为这个变量是正态分布的」。

这个回答完全没有回答到点子上。我又追问：均值填补会压低方差、改变分布，你知道吗？作者第二天又回复：改成多重插补了。

今天把这个话题讲清楚。

⚠️ 先搞清楚：你的缺失值是怎么产生的

处理缺失值的第一步，不是选方法，是搞清楚数据是怎么缺失的。

缺失值的产生机制分三类，搞清楚这个比选方法重要十倍：

MCAR（完全随机缺失）：缺失与任何变量都无关。勉强可以用列表删除。
MAR（随机缺失）：缺失只与已观测变量有关，是多重插补的理论基础。
MNAR（非随机缺失）：缺失与未观测变量有关，最麻烦，需要额外假设。

判断机制靠常识加统计检验，不靠拍脑袋。

图：缺失值处理三分法流程

🌿 三种缺失值处理方法

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

公众号Codewar原创作者

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Python图片压缩方法全解：从入门到进阶

得塔云的博客

06-19

811

本文总结了Python中六种主流的图片压缩方法：1）Pillow作为通用首选，支持质量调整、尺寸缩放和格式转换；2）TinyPNG API提供最高压缩率但有限额；3）WebP格式在保持画质下体积最小；4）PyVips适合大图处理，内存占用低；5）OpenCV针对视频帧和实时流优化；6）K-means聚类实现算法级色彩压缩。文章通过对比表格和决策树，建议根据场景需求选择工具，日常使用Pillow即可满足大多数需求，并附赠了一个可直接使用的批量压缩脚本。

参与评论您还未登录，请先登录后发表或查看评论

Unity PICO4 学习记录8： WebRTC

m0_63485455的博客

06-22

501

这一篇和PICO本身没什么关系，只是记录一下开发过程我们要做一个“从超声设备采集影像数据，一对多地传给XR眼镜终端以及其他可能的设备”应用。发送端是Jetson，由同事负责；接收端XR眼镜端由我负责。同事说视频采集卡例程里给了两种通信协议：RSTP和WebRTC.一开始我尝试用HoloLens2，因为老师和医生们似乎更喜欢OST而不是VST；但是UWP ARM64 媒体栈对 RTSP 支持弱、MixedReality-WebRTC 停更，所以 HL2 不适合当主验证平台。

将datafram写入到csv文件中.添加行，添加列，重建索引。

m0_63525799的博客

06-24

438

操作最常用写法加列df['C'] = 值加行df.loc['新行'] = 值或重置索引设索引df.set_index('列名')

Odoo 19开发教程之视图控件开发

智能化技术分享

06-22

326

本文详细介绍了Odoo 19中自定义视图控件的开发方法，通过一个销售订单列表视图的弹窗控件案例，展示了完整的实现流程。该控件由四部分组成：基于OWL框架的JavaScript组件（包含弹窗和主控件）、XML模板文件（定义界面元素）、Python模型（提供计算字段）和视图XML定义（嵌入控件）。开发要点包括使用usePopover钩子实现弹窗交互、OWL组件与模板的绑定方式、计算字段的高效实现，以及控件在视图中的注册与调用。该方案可灵活扩展，为Odoo视图提供丰富的交互功能。

一个简单的模拟宇宙——基于NKS理论的3D元胞自动机

神棍之路

06-24

342

这是一个基于NKS（一种新科学）思想的3D元胞自动机模拟器。它使用实现，你可以在三维网格中探索简单规则如何产生复杂结构。

Python办公03：格式魔术师——批量统一 Excel 标题行、字体与边框设置

weixin_42636075的博客

06-19

270

本文介绍了使用Python的openpyxl库批量格式化Excel文件的方法。通过定义标题行样式（蓝色背景、加粗字体）、数据行样式（细边框、自动对齐）和自动调整列宽等操作，实现报表格式的自动化统一。文章提供了完整的代码实现，包括单个文件格式化和批量处理功能，并详细解析了代码中的样式对象定义、数据范围获取、列宽调整等关键步骤。该方案可将50份报表的处理时间从4小时缩短至10秒，大幅提升办公效率。代码支持自定义输出路径、自动识别文本/数字对齐方式，并包含冻结首行等实用功能。

PyCharm调试技术与最佳实践指南

weixin_51955414的博客

06-23

423

《PyCharm调试技术与最佳实践指南》摘要本文系统介绍了PyCharm调试功能的使用方法，包含以下核心内容：调试基础：解释了调试概念、重要性和不同类型（断点/条件断点/日志/远程调试）界面详解：展示了调试工具栏功能和窗口布局，包括代码编辑器、变量面板和控制台等组件断点管理：详细说明基本断点、条件断点、临时断点、日志断点的设置方法及分组管理技巧调试操作：讲解Step Over（F8）、Step Into（F7）、Step Out（Shift+F8）等关键调试命令变量处理.

神经网络 | ⑤ MNIST 手写数字识别的 FCNN 推理实现

鷾

06-23

201

本文实现了一个基于MNIST手写数字数据集的三层全连接神经网络(FCNN)推理系统。该系统通过加载预训练权重参数，能够对28×28像素的手写数字图像进行分类识别。网络结构包含784个输入神经元、两个隐藏层(50和100个神经元)和10个输出神经元，使用Sigmoid和Softmax作为激活函数。文章详细介绍了数据集特征、网络设计思路以及前向传播的计算流程，最终实现了93.52%的测试准确率。该实现为深度学习入门项目，展示了神经网络的基本推理过程。

详解信号量使用红线：Django Signals 的适用场景与反模式

数据知道的博客

06-24

Django 信号机制通过观察者模式实现模块解耦，允许在特定操作（如模型保存）时触发回调函数。本文剖析了其核心原理、适用场景及潜在陷阱：本质与原理信号是同步执行的，会阻塞主线程，非异步任务由Sender、Signal、Receiver三部分组成，通过维护接收者列表实现同步调用适用场景解耦核心与非核心业务（如注册后发邮件）第三方库扩展接口（如订单创建后ERP同步）跨模型数据同步（冗余字段更新）审计日志记录使用红线避免在接收者中重复触发save()导致递归死循环警惕耗时操作（网络请求

自定义ESP32-S3开发板适配ESP-WHO框架

91创客学堂

06-23

440

本文介绍了ESP-WHO边缘机器视觉框架在ESP32-S3芯片上的部署与移植方案。主要内容包括：1. ESP-WHO框架概述及示例编译流程，支持人脸识别、物体检测等功能；2. 第三方ESP32-S3开发板与官方ESP32-S3-EYE的硬件差异分析；3. 详细移植步骤：修改LCD引脚配置（SPI模式改为0、背光GPIO调整）、OV3660摄像头驱动适配、关键menuconfig配置（PSRAM设置、模型存储位置等）；4. 最小化应用代码示例及常见问题解决方法。

第5篇_Python文件操作与异常处理：程序与外界交互的桥梁

Lenyiin

06-22

957

学到这里，你的 Python 代码已经能在自由运转了——变量、函数、类、对象，全都在 RAM 里运行，程序结束就消失。但真实世界的程序，不能只活在内存里。这就需要掌握和——这是 Python 程序与外界交互的两座桥梁。本篇我们就来系统学习这两个主题。

批量图片处理工具

最新发布

vx_ python5225 博客

06-24

199

【代码】批量图片处理工具。

并行推理模型设计研究报告

东方佑

06-22

487

问题: NAR 并行预测 L 个 token → 目标分布高度多模态 → CE 最小化塌缩到众数(所有位置输出 "的" → CE 最小, 但完全无用)修复: 序列级知识蒸馏1. AR 教师对每个前缀贪心续写 → 得到 L 个"确定"的 token2. 教师序列消除了多模态 (每个前缀只有 1 个教师续写)3. NAR 学习教师的确定序列 → 不再塌缩 → 输出多样化为什么教师必须"刚刚好":- 教师太弱 (2 epoch): 教师自己也塌缩 → NAR 匹配好但质量差。

从零搭建一个 Web 目录扫描器（Python + FastAPI）

2503_94020569的博客

06-18

第一次做算小工具的完整项目，来练手感觉还不是很完善用法可以看readme.md(应该没人会用，dirsearch好用的多）不过可以看看源码。

Python：第12天：模块与包 —— 站在巨人的肩膀上

天佑木枫

06-24

166

本文介绍了Python模块与包的基本概念和使用方法：1. 模块是包含函数/变量/类的.py文件，包是包含多个模块的文件夹（需含__init__.py）。2. 三种模块导入方式：- import 模块名（需用模块名调用） from 模块名 import 函数名（直接调用） import 模块名 as 别名（推荐）3. 常用标准库：random（随机数）、math（数学运算）、datetime（日期时间）、os（系统操作）等。4. 通过pip安装第三方库（如requests、openpyxl），并演示了网络请求

昇腾ascend-knowledg-graph在vLLM-Ascend上部署Qwen-3-0.6b模型

子非鱼eva的博客

06-22

323

阶段Agent 自动完成的事耗时KG 调用次数1. 环境检查拉 4 个 Skill + 跑 5 条本地探测命令1 分钟4 次/source2. 解决兼容调 Skill 看 nnal/ATB 路径 + pip 降级 setuptools2 分钟2 次/source+ 2 次3. 启动服务计算显存利用率 + 写启动脚本1 分钟0 次 (本地命令)4. 验证服务跑 3 项 curl 测试1 分钟0 次 (本地命令)合计5 分钟6 次 KG 调用。

近期量化学习四步走，AI 只适合跟着阶段用

shinnyringo的博客

06-24

178

读者应理解，概念、代码、回测和模拟是一条逐步推进的路径。AI可以帮助每一步衔接下一步，但前一步没有说清楚时，后一步就容易变成无法判断的输出。

miniforge3 部署 easy-ocr conda沙箱

chinadragon76的专栏

06-23

159

部分 C API（如 _ARRAY_API），并改变了内部结构。# 再次回退numpy版本，解决 NumPy 2.x 兼容性问题。# 3. 安装其他依赖（按顺序）或者，pip install -r requirements.txt。# wheel 仍是基于 NumPy 1.x 编译的，无法在 NumPy 2.x 上加载。# 准备：使用mamba创建python沙箱，也可使用conda(更慢，但成功率高些）# 2. 安装 PyTorch CPU 版（必须指定 index-url）

Python入门学习11：Python 异常处理——掌握错误处理方法（try-except-else-finally、 raise、assert）

Cupid_kl的博客

06-22

本文是一篇系统全面的 Python 异常处理教程，从基础概念到实战应用，帮助读者掌握 Python 错误处理的核心技能。主要内容包括：理解异常与语法错误的区别，认识常见异常类型及其继承关系；掌握 try-except 的基本用法，学习多种异常捕捉方式；了解 try-except-else-finally 的完整异常处理流程；学习使用 raise 主动抛出异常，包括重新抛出和异常链；理解 assert 语句的作用及其与 raise 的区别；创建符合业务需求的异常类，提升代码可读性。

选择自动化测试工具是一个关键的决策过程

博客

06-19

225

本文提出了一套系统化的自动化测试工具选型方案，从需求分析到实施落地的全流程评估框架。方案强调业务驱动、团队适配和长期视角三大原则，建立了包含12个关键维度的评估模型，重点考量功能适配性、技术栈匹配度、成本效益等核心因素。针对Web自动化场景，对比了Playwright、Cypress等主流工具特性，并给出分层决策路径：先按项目类型筛选，再匹配团队技术栈，最后解决核心痛点。建议通过POC验证真实场景下的稳定性，并提醒注意隐性成本与团队接受度。最终形成五阶段实施路线图，强调选型应追求"最合适&quot