一、AB实验基础
1. 输入输出
- power and sample size 输入是:样本量(Sample Size)、统计功效(Power)、显著性水平 (Type Ι error rate)。
- 字节跳动的 Data Tester 输出是:置信区间(confidence interval)、p值(p-value)、检验灵敏度(MDE)。
2. 常见术语

3. 中心极限定理&大数定律
- 大数定律:样本数量趋近于无穷大时,样本的统计量(如均值)会稳定在总体的真实参数(如总体均值)附近。
- 中心极限定理:当样本量足够大时,无论总体的分布形态如何,样本均值的分布都会趋近于正态分布(参数为:均值、方差/样本量)。
- 区别:大数定律强调 “样本均值稳定于总体均值”,解决 “估计准确性” 问题;中心极限定理则进一步说明 “样本均值的分布形态”,解决 “如何量化估计误差” 的问题。
4. 第一、二类错误
- 第一类:拒真,实验的策略无效(无显著差异),错判为有效(有显著差异)
- 第二类:取伪

5. 显著性水平、p值、统计功效
-
显著性水平:将第Ι类错误的概率控制在给定的水平下,在此基础上使犯第ΙΙ类错误的概率尽可能小,这个水平就是显著性水平。在检验前选定显著性水平为0.01, 0.05
-
p值:衡量样本数据与原假设(H₀)之间的矛盾程度,可概括为:在原假设成立的前提下,观察到当前样本结果(或更极端结果)出现的概率。
- p 值越小,说明原假设成立时出现当前情况的可能性越低,即样本数据越 “反对” 原假设。
- 当 p ≤ α 时,拒绝原假设,认为结果具有统计显著性;
- 当 p > α 时,不拒绝原假设,认为结果不具有统计显著性。
-
统计功效:当备择假设(H₁)为真时,假设检验能够正确拒绝原假设(H₀)的概率。通俗来说,它衡量了 “在存在真实差异(或效应)的情况下,检验成功识别出这种差异的能力”。其取值范围在 0 到 1 之间,数值越高(如≥0.8),说明检验能更可靠地发现真实存在的效应。
- 样本量 n 越大,功效越高(更容易捕捉到真实差异);
- 两总体差异,即效应量(如 d = (μ₁ - μ₀)/σ)越明显,功效越高;
- α 越大(如从 0.01 放宽到 0.05),功效越高(但 Ⅰ 类错误风险增加);
- 这3个变量里,α是给给定的,只能调整 n。在实验中,经常使用5%,10%,20%,50%的样本量不断实验。
6. 效应量(Effect Size)
- 概念:衡量处理组与对照组之间差异的大小,用于补充显著性检验(如 p 值)的不足。
- 特征:不受样本量影响,不依赖测量尺度(标准化),仅反映差异的实际 “强度”。
- 与p值的区别
- 显著性检验(p 值)仅回答 “差异是否存在”(是否拒绝零假设),但受样本量影响:大样本可能检测到微小但无实际意义的效应(p 值显著),小样本可能错过有意义的效应(p 值不显著)。
- 效应量直接告诉我们 “差异有多大”,更能反映实验结果的实际价值。
6.1. Cohen’s d
- 适用于连续变量组间比较,判断差异性,如z检验、t检验:


6.2. Cramer’s V
- 衡量两个类别型变量(列联表数据)的关联强度,适用于卡方检验,判定样本的相关性。


7. MDE
- Minimum Detectable Effect、最小检测效应、检验灵敏度:是指在给定的显著性水平(α)、统计功效(1-β) 和样本量n下,实验能够 “可靠检测到的最小效应量”。它是实验设计阶段的关键参数:
- 如果实际效应量小于 MDE,实验可能无法检测到差异(导致 “第二类错误”:漏检真实差异);
- MDE 越小,实验对微小差异的 “敏感度” 越高,但通常需要更大的样本量。
- 差异太小(如 0.1%)会导致样本量过大,实验周期过长;差异太大则可能错过有价值的微小改进。

二、AB实验原理
1. 抽样
- 简单随机抽样:纯随机抽样
- 系统抽样:等距抽样
- 分层抽样:即类型随机抽样
- 将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
- 从而保证样本结构与总体结构相似,提高估计的精准度
- AB实验通过用户画像进行分层抽样,获得代表性样本

2. 确定样本量
2.1. 比例类指标(如转化率、点击率)
- 适用于指标是 “某事件发生的比例”(如 “点击用户数 / 总用户数”),计算公式基于正态近似法(当样本量足够大时,比例的抽样分布近似正态分布)。
- 单侧检验样本量(每组):n=Z1−α2p(1−p)+Z1−βpa(1−pa)+pb(1−pb)(pb−pa)2n = \frac{Z_{1-\alpha} \sqrt{2p(1-p)} + Z_{1-\beta} \sqrt{p_a(1-p_a) + p_b(1-p_b)}}{(p_b - p_a)^2}n=(pb−pa)2Z1−α2p(1−p)+Z1−βpa(1−pa)+pb(1−pb)
- 双侧检验样本量(每组):n=Z1−α/22p(1−p)+Z1−βpa(1−pa)+pb(1−pb)(pb−pa)2n = \frac{Z_{1-\alpha/2} \sqrt{2p(1-p)} + Z_{1-\beta} \sqrt{p_a(1-p_a) + p_b(1-p_b)}}{(p_b - p_a)^2}n=(pb−pa)2Z1−α/22p(1−p)+Z1−βpa(1−pa)+pb(1−pb)
- pap_apa :对照组(A)的基准比例;
- pb=pa+MDEp_b = p_a + \text{MDE}pb=pa+MDE:实验组(B)的预期比例;
- p=pa+pb2p = \frac{p_a + p_b}{2}p=2pa+pb:两组比例的平均值;
- 示例:假设实验目标是检测 “转化率提升”,参数如下:
- 对照组 A 的转化率 pap_apa = 0.1;
- 最小有意义差异 MDE=2%(即 pbp_bpb =12%);
- 显著性水平 α=0.05(双侧检验,Z=1.96);
- 统计功效 1-β=0.8(Z=0.84)。
- 代入公式
- p = (0.1 + 0.12)/2 = 0.11
- 分子=1.96×2×0.11×0.89+0.84×0.1×0.9+0.12×0.88≈1.96×0.44+0.84×0.44≈1.23分子=1.96 \times \sqrt{2 \times 0.11 \times 0.89} + 0.84 \times \sqrt{0.1 \times 0.9 + 0.12 \times 0.88} \approx 1.96 \times 0.44 + 0.84 \times 0.44 \approx 1.23 分子=1.96×2×0.11×0.89+0.84×0.1×0.9+0.12×0.88≈1.96×0.44+0.84×0.44≈1.23
- 分母=(0.12−0.1)2=0.0004分母 = (0.12 - 0.1)^2 = 0.0004分母=(0.12−0.1)2=0.0004
- n≈1.232/0.0004≈3782n \approx 1.23^2 / 0.0004 \approx 3782n≈1.232/0.0004≈3782
- 即每组至少需要约 3782 个样本,两组共需约 7564 个样本。
2.2. 均值类指标(如平均购买金额、平均停留时间)
- 适用于指标是 “连续数值”(如 “人均购买金额”),计算公式基于均值的抽样分布(正态分布,需已知标准差)。
- 单侧检验样本量(每组):n=2×((Z1−α+Z1−β)×σd)2n = 2 \times \left( \frac{(Z_{1-\alpha} + Z_{1-\beta}) \times \sigma}{d} \right)^2n=2×(d(Z1−α+Z1−β)×σ)2
- 双侧检验样本量(每组):n=2×((Z1−α/2+Z1−β)×σd)2n = 2 \times \left( \frac{(Z_{1-\alpha/2} + Z_{1-\beta}) \times \sigma}{d} \right)^2n=2×(d(Z1−α/2+Z1−β)×σ)2
- σ :对照组(A)指标的标准差(需通过历史数据预估,反映数据波动程度);
- d:最小有意义差异(绝对差异,如 A 的平均购买金额为 100 元,MDE=10 元,则 d=10);
- 示例:假设实验目标是检测 “平均购买金额提升”,参数如下:
- 对照组 A 的平均金额 100 元;
- 标准差 σ = 50 (历史数据得出);
- 最小有意义差异 MDE=10 元(d=10);
- 显著性水平 α=0.05(双侧检验,Z=1.96);
- 统计功效 1-β=0.8(Z=0.84)。
- 代入公式:n=2×((1.96+0.84)×5010)2=2×(2.8×5010)2=2×142=392n = 2 \times \left( \frac{(1.96 + 0.84) \times 50}{10} \right)^2 = 2 \times \left( \frac{2.8 \times 50}{10} \right)^2 = 2 \times 14^2 = 392n=2×(10(1.96+0.84)×50)2=2×(102.8×50)2=2×142=392
- 即每组至少需要 392 个样本,两组共需 784 个样本。
3. Z检验、t检验、卡方检验
- Z检验、t检验:推断差异发生的概率,从而判定平均数的差异是否显著。
- A/B测试通常样本量很大,用 Z 检验、t 检验都可以。

- 卡方检验:即卡方拟合优度检验。用χ2 分布理论来检验样本数据与总体分布是否符合,从而判定样本偏差是否显著。可以用于检验抽样是否合理。


三、案例
1. 计算均值差异

- Z检验

- p值计算

- 比较效应量和MDE


- 结论:置信区间为。。。p值为。。。MDE为。。。说明新的推荐模型FM效果提升明显。
2. 计算比率差异

原理&spm=1001.2101.3001.5002&articleId=150618185&d=1&t=3&u=19b229979e2a4e0094957d65f0ccaa18)
3182

被折叠的 条评论
为什么被折叠?



