机器学习中的假设检验：模型上线前的四大关键验证场景

最新推荐文章于 2026-06-23 20:39:26 发布

原创最新推荐文章于 2026-06-23 20:39:26 发布 · 119 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#假设检验 #机器学习 #模型验证

python 专栏收录该内容

119 篇文章

订阅专栏

1. 为什么机器学习工程师每天都在用假设检验，却很少提它？

你训练完一个模型，准确率87.3%，另一个是86.9%——差0.4个百分点，值得上线吗？
你加了一个新特征，验证集AUC从0.821涨到0.824——这0.003的提升，是真的有效，还是随机波动？
线上模型昨天F1是0.752，今天掉到0.738，是数据出问题了，还是单纯运气差？

这些问题，没有假设检验，你只能靠拍脑袋、看直觉、比数字大小来回答。而现实是： 所有在生产环境里稳定交付模型的团队，背后都有一套默不作声但严丝合缝的统计验证流程 。它不 flashy，不上技术分享会PPT首页，但它决定了你花两周调参的结果，到底能不能进生产库；决定了你写的那份“显著提升业务指标”的PRD，会不会被风控或算法负责人一句“p值多少？”直接拦下来。

我带过三支工业级ML落地团队，从金融反欺诈到电商推荐，最常被问的问题从来不是“用XGBoost还是LightGBM”，而是：“这个效果差异，你敢不敢签名字担保它不是噪声？”——这句话的潜台词，就是假设检验的落点。它不是统计学课本里的抽象概念，而是你和业务方谈判时的底气，是你在代码评审会上反驳“这个特征没用”的弹药，是你在模型下线前确认“真坏了”而不是“以为坏了”的最后一道闸门。

关键词里提到的 Towards AI 和 Medium ，其实是这类内容常见的传播载体，但真正关键的是： 假设检验在机器学习中不是选修课，它是模型生命周期里贯穿始终的“质量校验协议” 。它不替代模型训练，但决定训练结果是否可信；它不生成预测，但保障每一次预测背后的决策有据可依。这篇文章要讲的，不是怎么推导t分布公式，而是你在写 model.fit() 之后、 model.predict() 之前、以及模型上线三个月后， 具体在哪几个真实场景里必须插上这一刀，怎么下刀才不伤模型、不误判、不背锅 。适合刚跑通第一个Kaggle Notebook的新手，也适合正在为AB测试结果和产品团队扯皮的资深工程师——因为大家踩的坑，本质上是一样的。

2. 假设检验在机器学习中的整体设计逻辑：它不是附加功能，而是基础设施

2.1 为什么机器学习特别需要假设检验？——从“确定性工程”到“概率性系统”的范式迁移

传统软件开发里，if-else 跑对了就是对了，bug 是确定性的：输入A必然输出B，测一次就永久有效。但机器学习系统本质是概率引擎——它输出的不是“用户会点击”，而是“点击概率73.2%±1.8%”。这个±1.8%，就是不确定性。而假设检验，就是我们用来 量化、约束、决策这个不确定性 的工具。

举个最直白的例子：你用历史数据训练了一个逾期预测模型，上线后发现首月坏账率比预期高2.1%。这时候你要问的不是“模型准不准”，而是“这个2.1%的偏差，有多大可能是随机波动造成的？”——这就是一个标准的单样本t检验问题：H₀（原假设）是“真实坏账率=预期值”，H₁（备择假设）是“真实坏账率≠预期值”。算出p值，如果p<0.05，你才有统计依据说“模型确实失效了”，而不是慌忙回滚、加班重训。

提示：很多工程师跳过这步，直接看绝对数值变化。结果往往是——把正常抽样波动当故障处理（浪费两天人力），或把真实性能退化当随机噪声放过（导致百万级损失）。假设检验在这里的作用，是给你一个 客观的、可复现的决策阈值 ，把主观判断压缩到最小。

2.2 四大核心应用场景的底层逻辑拆解：为什么是这四个，而不是别的？

假设检验在ML中不是泛泛而谈，它精准锚定在四个高风险、高价值的决策节点上。每个场景背后，都对应着不同的统计目标和错误类型控制重点：

应用场景	核心统计目标	关键控制目标	工程后果若缺失检验
特征选择	判断新特征是否与目标变量存在真实关联	控制I类错误（假阳性）	引入噪声特征，降低泛化能力，增加维护成本
模型比较	判断两个模型性能差异是否超出随机波动范围	控制II类错误（假阴性）	选错更差模型上线，或错过真正更优方案
数据漂移检测	判断新数据分布是否显著偏离训练数据分布	平衡I/II类错误，侧重早期预警	模型静默退化，业务指标缓慢下滑却无法归因
A/B测试评估	判断实验组效果提升是否真实归因于策略变更	控制I类错误，且需考虑多重检验校正	将随机胜利当成功推广，浪费资源，误导产品方向

你会发现，这四个场景覆盖了模型从开发、上线到运维的全生命周期。它们的共同点是： 都涉及“比较”和“归因” ——比较两个东西（特征/模型/数据/策略），并归因差异来源（真实效应 vs 随机噪声）。而假设检验，就是为这种比较提供数学严谨性的唯一通用框架。

2.3 方案选型为什么不是“选一个检验方法”，而是“构建一套验证协议”？

新手常犯的错误，是看到“t检验”“卡方检验”就去套公式。但在工程实践中， 检验方法只是工具，协议设计才是核心 。比如模型比较，你绝不会只做一次t检验：

第一步：确认数据独立性 ——如果用同一份验证集反复测试不同模型，残差会相关，t检验失效。必须用交叉验证或时间序列分割保证样本独立；
第二步：选择检验粒度 ——是比单次验证集分数（低方差高偏差），还是比10折CV的10个分数（高方差低偏差）？我们团队实测下来，用5折CV重复3次（共15个分数）做配对t检验，稳定性最佳；
第三步：设定效应量阈值 ——p<0.05只说明“有差异”，但0.001%的AUC提升毫无业务价值。我们强制要求同时报告Cohen's d（标准化均值差），d>0.2才认为有实际意义；
第四步：多重检验校正 ——如果同时比较5个模型，不校正的话，至少一个p<0.05的概率高达22.6%。我们用Benjamini-Hochberg控制FDR在10%以内。

注意：这些步骤在教科书里不会写，但缺任何一环，你的检验结论在工程上都是脆弱的。我见过太多团队因为没做第一步（独立性检查），把模型调参的过拟合波动当成了真实提升，结果上线后效果腰斩。

3. 四大核心场景的实操要点与细节解析：从原理到代码，每一步都踩过坑

3.1 特征选择：如何用统计检验筛掉“看起来有用，其实纯属巧合”的特征？

特征工程里最危险的幻觉，是看到某个特征和标签的散点图“好像有趋势”，就把它加进模型。但人眼对噪声极其宽容——我用随机生成的噪声列和真实标签画散点图，有30%的同事说“能看出正相关”。这时候，统计检验就是你的防忽悠滤镜。

核心原理 ：检验特征X与目标Y的 条件独立性 。H₀：X与Y独立（即X不提供额外信息）；H₁：X与Y相关。拒绝H₀，才保留X。

但不同数据类型，检验方法天差地别：

连续型特征 + 连续型目标（如房价预测） ：用 Pearson相关系数检验 。但注意！Pearson只捕获线性关系。我曾用它筛掉一个强非线性特征（sin(x)），后来用MIC（最大信息系数）才抓回来。所以我们的协议是：先Pearson（快），p<0.1的再用MIC（慢但全面）；
连续型特征 + 分类型目标（如风控） ：用 两样本t检验 （二分类）或 ANOVA （多分类）。但前提是特征近似正态分布。我们加了一步Shapiro-Wilk正态性检验，不通过就自动切到Mann-Whitney U检验（非参数）；
分类型特征 + 分类型目标 ：用 卡方检验 。但要注意期望频数——如果某单元格期望值<5，卡方检验失效。我们用scipy的 chi2_contingency 时，强制开启 correction=True （Yates校正），并添加警告：若最小期望频数<1，改用Fisher精确检验。

实操代码片段（Python）——我们封装的特征筛选函数核心逻辑 ：

def filter_features_by_stats(X, y, alpha=0.05):
    """
    X: DataFrame, y: Series (binary target)
    返回通过统计检验的特征列表
    """
    valid_features = []
    for col in X.columns:
        x_series = X[col].dropna()
        y_series = y.loc[x_series.index]
        
        # 分类型特征处理
        if X[col].dtype == 'object' or X[col].nunique() < 10:
            # 构建列联表
            contingency_table = pd.crosstab(x_series, y_series)
            # 检查期望频数
            chi2, p, dof, exp_freq = chi2_contingency(contingency_table, correction=True)
            min_exp = exp_freq.min()
            if min_exp < 1:
                # 改用Fisher精确检验（仅2x2）
                if contingency_table.shape == (2, 2):
                    _, p = fisher_exact(contingency_table)
                else:
                    # 多分类用bootstrap卡方
                    p = bootstrap_chi2_pvalue(contingency_table, n_boot=1000)
            if p < alpha:
                valid_features.append(col)
                
        # 连续型特征处理
        else:
            # 正态性检验
            _, shapiro_p = shapiro(x_series)
            if shapiro_p > 0.05:  # 正态
                t_stat, p = ttest_ind(
                    x_series[y_series==0], 
                    x_series[y_series==1],
                    equal_var=False  # Welch's t-test，不假设方差齐性
                )
            else:  # 非正态，用Mann-Whitney
                _, p = mannwhitneyu(
                    x_series[y_series==0], 
                    x_series[y_series==1],
                    alternative='two-sided'
                )
            if p < alpha:
                valid_features.append(col)
                
    return valid_features

实操心得：我们曾因忽略正态性检验，在一个信贷评分项目中，用t检验保留了一个长尾分布的收入特征，结果模型在线上对高收入客群严重高估风险。后来加入Shapiro检验后，自动切换到Mann-Whitney，问题消失。 统计检验不是走流程，而是对数据本质的敬畏——它强迫你停下来问：我的数据，真的符合这个方法的假设吗？

3.2 模型比较：为什么简单的“比平均分”会害死你的上线计划？

模型比较是最容易翻车的场景。我见过最典型的错误：用同一份验证集，对10个模型打分，挑最高分的上线。表面看没问题，但统计上，这相当于做了10次独立检验，每次p<0.05的概率是5%，那么至少一次“虚假显著”的概率是 1-(1-0.05)^10 ≈ 40% 。也就是说，你有四成概率，上线了一个其实并不比基线好的模型。

正确姿势：配对检验 + 交叉验证 + 效应量
我们团队的标准协议是：

用相同的数据分割方式 ：固定随机种子，对每个模型用完全相同的5折CV划分；
获取配对分数 ：每个模型得到5个AUC分数，形成配对向量 (auc_m1[0], auc_m2[0]), ..., (auc_m1[4], auc_m2[4]) ；
用配对t检验 ：检验差值向量的均值是否显著不为零；
必须报告效应量 ：除了p值，计算Cohen's d = mean(diff) / std(diff) 。d>0.2才算有实际价值（小效应），d>0.5是中等，d>0.8是大效应。

为什么不用Wilcoxon符号秩检验？
因为Wilcoxon假设差值分布对称，而模型分数差值常有偏态（尤其当基线很强时，提升空间小，差值集中在0附近但拖着长尾）。我们实测t检验在样本量≥5时更稳健——中心极限定理开始起作用。

代码实现关键点 ：

from sklearn.model_selection import StratifiedKFold
from scipy import stats
import numpy as np

def compare_two_models(model1, model2, X, y, cv_folds=5, alpha=0.05):
    """
    配对t检验比较两个模型
    返回: (p_value, effect_size_d, mean_diff, ci_lower, ci_upper)
    """
    skf = StratifiedKFold(n_splits=cv_folds, shuffle=True, random_state=42)
    scores1, scores2 = [], []
    
    for train_idx, val_idx in skf.split(X, y):
        X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]
        
        # 确保预测接口一致（概率输出）
        try:
            prob1 = model1.predict_proba(X_val)[:, 1]
            prob2 = model2.predict_proba(X_val)[:, 1]
        except:
            prob1 = model1.decision_function(X_val)
            prob2 = model2.decision_function(X_val)
            
        scores1.append(roc_auc_score(y_val, prob1))
        scores2.append(roc_auc_score(y_val, prob2))
    
    # 计算差值向量
    diffs = np.array(scores1) - np.array(scores2)
    mean_diff = np.mean(diffs)
    std_diff = np.std(diffs, ddof=1)
    
    # 配对t检验
    t_stat, p_value = stats.ttest_1samp(diffs, popmean=0)
    
    # Cohen's d
    d = mean_diff / std_diff if std_diff != 0 else 0
    
    # 95%置信区间（t分布）
    n = len(diffs)
    se = std_diff / np.sqrt(n)
    t_critical = stats.t.ppf(1 - alpha/2, df=n-1)
    ci_lower = mean_diff - t_critical * se
    ci_upper = mean_diff + t_critical * se
    
    return p_value, d, mean_diff, ci_lower, ci_upper

# 使用示例
p, d, mean_diff, ci_l, ci_u = compare_two_models(
    lgbm_model, xgb_model, X_test, y_test
)
print(f"p-value: {p:.4f}, Cohen's d: {d:.3f}, Mean AUC diff: {mean_diff:.4f}")
print(f"95% CI: [{ci_l:.4f}, {ci_u:.4f}]")
# 只有 p<0.05 AND d>0.2 才认为模型1显著更优

注意事项：这个函数里有个隐藏陷阱—— StratifiedKFold 对二分类必须用 y ，但如果目标是回归，就得换成 KFold ，且 roc_auc_score 要换成 r2_score 或 neg_mean_squared_error 。我们封装时会自动检测目标类型，但新手常在这里报错。另外， predict_proba 不是所有模型都有， decision_function 是更通用的替代，但输出尺度不同，必须确保两个模型用同一套评估指标。

3.3 数据漂移检测：如何在业务指标崩盘前3小时，就嗅到数据异常？

数据漂移（Data Drift）是模型失效的第一征兆。但等F1掉5个点再报警，黄花菜都凉了。我们的做法是： 在特征层建立实时漂移监控，用假设检验做“体温计” 。

核心思路：把新流入的batch数据（如最近1小时）和基准数据（如上周同时间段）看作两个独立样本，检验它们的分布是否相同。H₀：分布相同；H₁：分布不同。

为什么不用KL散度或JS散度？
因为它们是距离度量，没有统计显著性判断——KL=0.3可能很严重，也可能在抽样误差范围内。而检验能告诉你：“这个0.3，有多大把握不是随机造成的？”

分类型特征 ：用 卡方检验 （同3.1节），但注意：线上是流式数据，不能等攒够大样本。我们用 在线卡方检验 ：维护一个滑动窗口（如最近1000条），每新增1条就更新列联表，当窗口满时触发检验。

连续型特征 ：用 KS检验（Kolmogorov-Smirnov） 。它不假设分布形态，只比较累积分布函数（CDF）的最大垂直距离。KS统计量D越大，分布差异越显著。

实操难点与解法 ：

难点1：KS检验对小样本敏感 ——100条数据就可能p<0.05，但业务上不关心这么小的波动。
解法：设置最小样本量阈值（如n≥500），不足则不检验；同时用 D值本身做业务阈值 （如D>0.15才告警，不管p值）。
难点2：多特征同时检验，假阳性爆炸 。
解法：用 Holm-Bonferroni校正 ——把p值从小到大排序，第i个检验的显著性水平设为 alpha/(k-i+1) ，k是总特征数。比简单Bonferroni更宽松，又比BH控制FDR更保守。
难点3：如何定义“基准数据”？
解法：不用静态快照，而用 滚动基准 ——基准数据是过去7天同时间段（如都是周一9-10点）数据的并集。这样能适应正常的周期性变化，只捕获异常漂移。

代码骨架（简化版） ：

from scipy import stats
import numpy as np

class DataDriftDetector:
    def __init__(self, baseline_data, alpha=0.05, min_samples=500):
        self.baseline = baseline_data
        self.alpha = alpha
        self.min_samples = min_samples
        self.window = []  # 滑动窗口
        
    def update_window(self, new_sample):
        self.window.append(new_sample)
        if len(self.window) > 1000:  # 窗口大小
            self.window.pop(0)
            
    def detect_drift_ks(self, feature_name):
        if len(self.window) < self.min_samples:
            return False, None, None
            
        current_data = np.array([x[feature_name] for x in self.window])
        baseline_data = self.baseline[feature_name].values
        
        # KS检验
        ks_stat, p_value = stats.ks_2samp(current_data, baseline_data)
        
        # Holm校正（假设这是第i个特征，总k个）
        # 实际使用时，需收集所有特征p值后统一校正
        return p_value < self.alpha, ks_stat, p_value

# 在线上服务中，每分钟调用一次
detector = DataDriftDetector(baseline_weekly_data)
for new_batch in streaming_data:
    for sample in new_batch:
        detector.update_window(sample)
    # 每分钟检查一次
    is_drift, ks, p = detector.detect_drift_ks("user_age")
    if is_drift and ks > 0.15:
        alert("user_age distribution drifted!")

实操心得：我们最早用静态基准（上线当天的数据），结果每周一早9点必告警——因为周末行为模式不同，这是正常周期性，不是异常。改成滚动基准后，告警准确率从32%提升到89%。 漂移检测不是找“不同”，而是找“不该有的不同”——检验方法只是工具，业务理解才是灵魂。

3.4 A/B测试评估：为什么95%的AB测试报告，都漏掉了最关键的一步？

A/B测试是算法工程师和产品经理的共同战场。但绝大多数报告只写：“实验组CTR提升2.3%，p<0.01，建议全量”。这就像医生说“病人血压升高，建议手术”，却不告诉你是高血压还是测量误差。

致命漏洞：未校正多重检验 。一个典型推荐实验，会同时看CTR、停留时长、分享率、下单转化率……至少5个指标。如果每个都按p<0.05判断，那么全部正确的概率只有 0.95^5 ≈ 77% ，意味着23%概率至少一个指标是假阳性。更糟的是，业务方往往只记住“CTR提升了”，忽略其他指标恶化。

我们的AB测试协议（已落地金融、电商场景） ：

预注册核心指标 ：实验启动前，书面锁定1个主要指标（如GMV转化率）和最多2个次要指标（如点击率、加购率）。其他指标一律不分析；
主要指标用双侧检验 ：H₀：实验组=对照组；H₁：实验组≠对照组。避免“只看提升不看下降”的确认偏误；
次要指标用单侧检验 + Bonferroni校正 ：因为只关心“是否提升”，但校正后α=0.05/2=0.025；
必须报告置信区间 ：不只是“提升2.3%”，而是“提升区间[1.1%, 3.5%]”。如果区间包含0，即使p<0.05也不采纳（常见于小样本）；
效应量强制披露 ：用Cohen's h（用于比例）或Cohen's d（用于均值）。h=0.2是小效应（业务可能不care），h=0.5是中等（值得推广），h=0.8是大效应（重大突破）。

Cohen's h计算（用于CTR等比例指标） ：

from math import asin

def cohen_h(p1, p2):
    """p1, p2 是两个比例（0~1）"""
    return 2 * (asin(np.sqrt(p1)) - asin(np.sqrt(p2)))

# 示例：对照组CTR=5.0%，实验组=5.2%
h = cohen_h(0.05, 0.052)  # h ≈ 0.028 → 远小于0.2，业务无感

注意：很多团队用z检验算p值，但z检验假设大样本正态近似。当CTR很低（如0.1%）且样本量不够时，正态近似失效。我们用 精确二项检验（binom_test） 替代，虽然慢一点，但结果可靠。 在AB测试里，宁可多等10分钟，也不要拿一个有偏差的结论去赌百万级流量。

4. 常见问题与排查技巧实录：那些文档里不会写的血泪教训

4.1 “p值<0.05，但业务方说效果不明显”——你可能混淆了统计显著性和实际显著性

这是最经典的认知错位。p值只回答“差异是否可能由随机性引起”，不回答“差异有多大业务价值”。

真实案例 ：一个搜索排序模型，新版本在测试集上NDCG@10提升0.0012（从0.4521到0.4533），p=0.003。统计显著，但业务方反馈：“用户根本感觉不到”。我们追查发现，提升全来自长尾查询（占比<0.1%），头部查询反而微降。最终结论：统计显著，但业务不显著。

排查清单 ：

✅ 计算效应量（Cohen's d/h）是否>0.2？
✅ 提升是否集中在高价值样本上？（按PV或GMV加权分析）
✅ 是否存在“补偿效应”？（A指标升，B指标降，净效果为0）
✅ 用业务指标（如GMV、留存）而非模型指标（如AUC）做最终判决

经验：我们现在的AB测试报告，第一行永远是“业务影响预估”，用历史数据换算：NDCG提升0.0012 ≈ 预期日GMV提升约800元（95%CI: [-200, +1800]）。如果区间包含负值或上限太小，直接否决。

4.2 “同样的数据，用t检验p=0.04，用Wilcoxon p=0.06”——该信哪个？

这暴露了对检验前提的忽视。t检验要求数据近似正态且方差齐性，Wilcoxon要求差值分布对称。

排查路径 ：

画Q-Q图或直方图，看分数分布是否偏态（如AUC常右偏）；
用Levene检验看方差齐性（ scipy.stats.levene ）；
如果分布偏态+方差不齐 → 优先用Wilcoxon；
如果样本量≥30 → 中心极限定理生效，t检验更稳健（我们实测此时t检验power更高）；
终极方案：Bootstrap置换检验 ——不依赖任何分布假设，直接模拟抽样分布。虽然慢，但最可靠。

Bootstrap示例（模型比较） ：

def bootstrap_ttest(scores1, scores2, n_boot=10000, alpha=0.05):
    """用Bootstrap估计p值"""
    observed_diff = np.mean(scores1) - np.mean(scores2)
    boot_diffs = []
    
    for _ in range(n_boot):
        # 从合并样本中有放回抽样，分配给两组
        combined = np.concatenate([scores1, scores2])
        boot_sample = np.random.choice(combined, size=len(combined), replace=True)
        boot1 = boot_sample[:len(scores1)]
        boot2 = boot_sample[len(scores1):]
        boot_diffs.append(np.mean(boot1) - np.mean(boot2))
    
    # 计算双侧p值
    p_value = np.mean(np.abs(boot_diffs) >= np.abs(observed_diff))
    return p_value

# 当t检验和Wilcoxon冲突时，用这个一锤定音
p_boot = bootstrap_ttest(auc_scores_model1, auc_scores_model2)

4.3 “数据漂移告警频繁，但人工核查都是正常”——你的基准数据可能有毒

我们曾在一个支付风控模型上，连续一周每天收到20+特征漂移告警，结果全是“节假日效应”（如周五晚交易量激增）。根源在于： 基准数据包含了异常时段 。

根因排查四步法 ：

检查基准数据的时间覆盖 ：是否包含促销、故障、爬虫攻击等异常期？
检查基准数据的采样策略 ：是随机采样，还是按时间均匀采样？后者易受周期性干扰；
检查特征本身的业务含义 ：如“用户登录次数”，在APP版本升级后必然突变，这不是漂移，是预期变化；
引入业务规则白名单 ：对已知会随时间变化的特征（如“距上次活动天数”），禁用漂移检测，改用业务阈值监控（如>30天告警）。

我们现在的基准数据生成流程，强制要求：① 排除所有已知异常日期；② 按小时/星期几分层采样，保证各时段均衡；③ 每季度人工审核基准数据分布。 漂移监控的准确率，70%取决于基准数据的质量，30%才是检验方法。

4.4 “AB测试跑完，p=0.06，差一点就显著”——能调参数让它变显著吗？

绝对不行。这是统计学红线。p=0.06意味着：如果H₀为真，观察到当前差异或更大差异的概率是6%。你不能因为“差一点”，就改检验方法、删异常值、换指标——这叫p-hacking，结果不可复现。

合规的应对方案只有三个 ：

方案1：增大样本量 ——用功效分析（ statsmodels.stats.power ）计算还需多少样本才能达到80% power。如果成本可控，继续跑；
方案2：接受阴性结果 ——p>0.05，结论就是“未发现足够证据支持实验有效”。这本身是重要结论；
方案3：重新设计实验 ——可能原假设太弱（如“提升>0%”），改为“提升>0.5%”，或聚焦高价值用户群（提升信噪比）。

功效分析代码 ：

from statsmodels.stats.power import zt_ind_solve_power
from statsmodels.stats.proportion import proportion_effectsize

# 计算检测到0.5% CTR提升（从5%到5.5%）所需的样本量
effect = proportion_effectsize(0.05, 0.055)  # h ≈ 0.045
n_per_group = zt_ind_solve_power(
    effect_size=effect,
    alpha=0.05,
    power=0.8,
    ratio=1  # 对照组:实验组=1:1
)
print(f"每组需 {int(n_per_group)} 样本")  # 输出约 1,250,000

血泪教训：我们曾有一个实验p=0.07，PM坚持“再跑三天”，结果三天后p=0.04，全量上线。但一个月后复盘，发现那三天恰逢平台发红包活动，流量结构剧变，结论完全不可外推。 统计检验的神圣性，在于它的不可协商性——它不是门槛，而是真相的守门人。

5. 工具链与工程化实践：如何把假设检验变成团队的肌肉记忆？

5.1 我们自研的ML验证SDK核心模块

为了不让检验变成手工劳动，我们封装了内部SDK ml-validator ，已接入所有模型训练Pipeline和线上监控系统。核心模块：

feature_validator ：自动识别特征类型，调用对应检验，生成HTML报告（含分布图、p值、效应量）；
model_comparator ：支持5种CV策略，自动配对检验，输出对比矩阵（模型×指标×p值×d值）；
drift_monitor ：流式KS/卡方检验，支持滚动基准、Holm校正、企业微信告警；
ab_analyzer ：对接数仓，自动提取实验数据，执行预设协议，生成PDF报告（含业务影响换算）；

关键设计哲学 ：

所有检验默认开启“严格模式”（如KS检验强制n≥500）；
每个函数返回结构化字典，含 p_value , effect_size , confidence_interval , assumption_check_passed ；
当 assumption_check_passed=False 时，自动降级到非参数检验，并在报告中高亮警告；

5.2 团队协作规范：让统计思维成为默认动作

工具只是载体，文化才是根基。我们推行三条铁律：

“三问原则” ：每次模型迭代会议，必须回答：
- 这个改进，p值是多少？（统计显著性）
- 效应量是多少？（实际显著性）
- 基准数据是否干净？（前提可靠性）
“检验即文档” ：所有模型PR必须附带 validation_report.html ，否则CI拒绝合并；
“失败即知识” ：p>0.05的实验，必须写《阴性结果分析报告》，归档到知识库——因为知道“什么没用”，比知道“什么有用”更珍贵。

最后分享一个小技巧：我们在Jupyter里写检验代码时，永远用 %%capture 隐藏中间输出，只显示最终结论框。因为业务方只关心“能上线吗？”，不关心t统计量怎么算。 统计检验的价值，不在于你多懂理论，而在于你能让结论清晰、可信、可行动。 这篇文章里所有的代码、表格、协议，最终都指向一个目标：当你在晨会说“模型A比B好”时，你的眼睛可以直视CTO，而不是低头看脚尖。