【AB实验】（一）原理

原创于 2025-08-22 21:26:09 发布 · 1.1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#笔记

1 篇文章

订阅专栏

一、AB实验基础

power and sample size 输入是：样本量（Sample Size）、统计功效（Power）、显著性水平（Type Ι error rate）。
字节跳动的 Data Tester 输出是：置信区间（confidence interval）、p值（p-value）、检验灵敏度（MDE）。

在这里插入图片描述

大数定律：样本数量趋近于无穷大时，样本的统计量（如均值）会稳定在总体的真实参数（如总体均值）附近。
中心极限定理：当样本量足够大时，无论总体的分布形态如何，样本均值的分布都会趋近于正态分布（参数为：均值、方差/样本量）。
区别：大数定律强调 “样本均值稳定于总体均值”，解决 “估计准确性” 问题；中心极限定理则进一步说明 “样本均值的分布形态”，解决 “如何量化估计误差” 的问题。

显著性水平：将第Ι类错误的概率控制在给定的水平下，在此基础上使犯第ΙΙ类错误的概率尽可能小，这个水平就是显著性水平。在检验前选定显著性水平为0.01, 0.05
p值：衡量样本数据与原假设（H₀）之间的矛盾程度，可概括为：在原假设成立的前提下，观察到当前样本结果（或更极端结果）出现的概率。
- p 值越小，说明原假设成立时出现当前情况的可能性越低，即样本数据越 “反对” 原假设。
- 当 p ≤ α 时，拒绝原假设，认为结果具有统计显著性；
- 当 p > α 时，不拒绝原假设，认为结果不具有统计显著性。
统计功效：当备择假设（H₁）为真时，假设检验能够正确拒绝原假设（H₀）的概率。通俗来说，它衡量了 “在存在真实差异（或效应）的情况下，检验成功识别出这种差异的能力”。其取值范围在 0 到 1 之间，数值越高（如≥0.8），说明检验能更可靠地发现真实存在的效应。
- 样本量 n 越大，功效越高（更容易捕捉到真实差异）；
- 两总体差异，即效应量（如 d = (μ₁ - μ₀)/σ）越明显，功效越高；
- α 越大（如从 0.01 放宽到 0.05），功效越高（但 Ⅰ 类错误风险增加）；
- 这3个变量里，α是给给定的，只能调整 n。在实验中，经常使用5%，10%，20%，50%的样本量不断实验。

概念：衡量处理组与对照组之间差异的大小，用于补充显著性检验（如 p 值）的不足。
特征：不受样本量影响，不依赖测量尺度（标准化），仅反映差异的实际 “强度”。
与p值的区别
- 显著性检验（p 值）仅回答 “差异是否存在”（是否拒绝零假设），但受样本量影响：大样本可能检测到微小但无实际意义的效应（p 值显著），小样本可能错过有意义的效应（p 值不显著）。
- 效应量直接告诉我们 “差异有多大”，更能反映实验结果的实际价值。

Minimum Detectable Effect、最小检测效应、检验灵敏度：是指在给定的显著性水平（α）、统计功效（1-β）和样本量n下，实验能够 “可靠检测到的最小效应量”。它是实验设计阶段的关键参数：
- 如果实际效应量小于 MDE，实验可能无法检测到差异（导致 “第二类错误”：漏检真实差异）；
- MDE 越小，实验对微小差异的 “敏感度” 越高，但通常需要更大的样本量。
- 差异太小（如 0.1%）会导致样本量过大，实验周期过长；差异太大则可能错过有价值的微小改进。

简单随机抽样：纯随机抽样
系统抽样：等距抽样
分层抽样：即类型随机抽样
- 将抽样单元按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。
- 从而保证样本结构与总体结构相似，提高估计的精准度
- AB实验通过用户画像进行分层抽样，获得代表性样本

适用于指标是 “某事件发生的比例”（如 “点击用户数 / 总用户数”），计算公式基于正态近似法（当样本量足够大时，比例的抽样分布近似正态分布）。
单侧检验样本量（每组）： $\frac{Z_{1-\alpha} \sqrt{2p(1-p)} + Z_{1-\beta} \sqrt{p_a(1-p_a) + p_b(1-p_b)}}{(p_b - p_a)^2}$
双侧检验样本量（每组）： $\frac{Z_{1-\alpha/2} \sqrt{2p(1-p)} + Z_{1-\beta} \sqrt{p_a(1-p_a) + p_b(1-p_b)}}{(p_b - p_a)^2}$
- $p_a$ ：对照组（A）的基准比例；
- $pb=pa+MDEp_b = p_a + \text{MDE}$ ：实验组（B）的预期比例；
- $\frac{p_a + p_b}{2}$ ：两组比例的平均值；
示例：假设实验目标是检测 “转化率提升”，参数如下：
- 对照组 A 的转化率 $p_a$ = 0.1；
- 最小有意义差异 MDE=2%（即 $p_b$ =12%）；
- 显著性水平 α=0.05（双侧检验，Z=1.96）；
- 统计功效 1-β=0.8（Z=0.84）。
- 代入公式
  - p = (0.1 + 0.12)/2 = 0.11
  - $\times \sqrt{2 \times 0.11 \times 0.89} + 0.84 \times \sqrt{0.1 \times 0.9 + 0.12 \times 0.88} \approx 1.96 \times 0.44 + 0.84 \times 0.44 \approx 1.23$
  - $分母 = (0.12 - 0.1)^2 = 0.0004$
  - $\approx 1.23^2 / 0.0004 \approx 3782$
  - 即每组至少需要约 3782 个样本，两组共需约 7564 个样本。

适用于指标是 “连续数值”（如 “人均购买金额”），计算公式基于均值的抽样分布（正态分布，需已知标准差）。
单侧检验样本量（每组）： $\times \left( \frac{(Z_{1-\alpha} + Z_{1-\beta}) \times \sigma}{d} \right)^2$
双侧检验样本量（每组）： $\times \left( \frac{(Z_{1-\alpha/2} + Z_{1-\beta}) \times \sigma}{d} \right)^2$
- σ ：对照组（A）指标的标准差（需通过历史数据预估，反映数据波动程度）；
- d：最小有意义差异（绝对差异，如 A 的平均购买金额为 100 元，MDE=10 元，则 d=10）；
示例：假设实验目标是检测 “平均购买金额提升”，参数如下：
- 对照组 A 的平均金额 100 元；
- 标准差 σ = 50 （历史数据得出）；
- 最小有意义差异 MDE=10 元（d=10）；
- 显著性水平 α=0.05（双侧检验，Z=1.96）；
- 统计功效 1-β=0.8（Z=0.84）。
- 代入公式： $\times \left( \frac{(1.96 + 0.84) \times 50}{10} \right)^2 = 2 \times \left( \frac{2.8 \times 50}{10} \right)^2 = 2 \times 14^2 = 392$
- 即每组至少需要 392 个样本，两组共需 784 个样本。