【AB实验】(一)原理

一、AB实验基础

1. 输入输出

  • power and sample size 输入是:样本量(Sample Size)、统计功效(Power)、显著性水平 (Type Ι error rate)。
  • 字节跳动的 Data Tester 输出是:置信区间(confidence interval)、p值(p-value)、检验灵敏度(MDE)。

2. 常见术语

在这里插入图片描述

3. 中心极限定理&大数定律

  • 大数定律:样本数量趋近于无穷大时,样本的统计量(如均值)会稳定在总体的真实参数(如总体均值)附近。
  • 中心极限定理:当样本量足够大时,无论总体的分布形态如何,样本均值的分布都会趋近于正态分布(参数为:均值、方差/样本量)。
  • 区别:大数定律强调 “样本均值稳定于总体均值”,解决 “估计准确性” 问题;中心极限定理则进一步说明 “样本均值的分布形态”,解决 “如何量化估计误差” 的问题。

4. 第一、二类错误

  • 第一类:拒真,实验的策略无效(无显著差异),错判为有效(有显著差异)
  • 第二类:取伪
    在这里插入图片描述

5. 显著性水平、p值、统计功效

  • 显著性水平:将第Ι类错误的概率控制在给定的水平下,在此基础上使犯第ΙΙ类错误的概率尽可能小,这个水平就是显著性水平。在检验前选定显著性水平为0.01, 0.05

  • p值:衡量样本数据与原假设(H₀)之间的矛盾程度,可概括为:在原假设成立的前提下,观察到当前样本结果(或更极端结果)出现的概率。

    • p 值越小,说明原假设成立时出现当前情况的可能性越低,即样本数据越 “反对” 原假设。
    • 当 p ≤ α 时,拒绝原假设,认为结果具有统计显著性;
    • 当 p > α 时,不拒绝原假设,认为结果不具有统计显著性。
  • 统计功效:当备择假设(H₁)为真时,假设检验能够正确拒绝原假设(H₀)的概率。通俗来说,它衡量了 “在存在真实差异(或效应)的情况下,检验成功识别出这种差异的能力”。其取值范围在 0 到 1 之间,数值越高(如≥0.8),说明检验能更可靠地发现真实存在的效应。

    • 样本量 n 越大,功效越高(更容易捕捉到真实差异);
    • 两总体差异,即效应量(如 d = (μ₁ - μ₀)/σ)越明显,功效越高;
    • α 越大(如从 0.01 放宽到 0.05),功效越高(但 Ⅰ 类错误风险增加);
    • 这3个变量里,α是给给定的,只能调整 n。在实验中,经常使用5%,10%,20%,50%的样本量不断实验。

6. 效应量(Effect Size)

  • 概念:衡量处理组与对照组之间差异的大小,用于补充显著性检验(如 p 值)的不足。
  • 特征:不受样本量影响,不依赖测量尺度(标准化),仅反映差异的实际 “强度”。
  • 与p值的区别
    • 显著性检验(p 值)仅回答 “差异是否存在”(是否拒绝零假设),但受样本量影响:大样本可能检测到微小但无实际意义的效应(p 值显著),小样本可能错过有意义的效应(p 值不显著)。
    • 效应量直接告诉我们 “差异有多大”,更能反映实验结果的实际价值。

6.1. Cohen’s d

  • 适用于连续变量组间比较,判断差异性,如z检验、t检验:
    在这里插入图片描述
    在这里插入图片描述

6.2. Cramer’s V

  • 衡量两个类别型变量(列联表数据)的关联强度,适用于卡方检验,判定样本的相关性。
    在这里插入图片描述
    卡方值越大,说明实际观测频数与期望频数的差异越显著,即两个类别变量的关联性可能越强。但需注意,卡方值受样本量和列联表维度影响较大,因此通常需要结合效应量(如 Cramer's V)进一步解释关联强度。

7. MDE

  • Minimum Detectable Effect、最小检测效应、检验灵敏度:是指在给定的显著性水平(α)、统计功效(1-β) 和样本量n下,实验能够 “可靠检测到的最小效应量”。它是实验设计阶段的关键参数:
    • 如果实际效应量小于 MDE,实验可能无法检测到差异(导致 “第二类错误”:漏检真实差异);
    • MDE 越小,实验对微小差异的 “敏感度” 越高,但通常需要更大的样本量。
    • 差异太小(如 0.1%)会导致样本量过大,实验周期过长;差异太大则可能错过有价值的微小改进。
      在这里插入图片描述

二、AB实验原理

1. 抽样

  • 简单随机抽样:纯随机抽样
  • 系统抽样:等距抽样
  • 分层抽样:即类型随机抽样
    • 将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
    • 从而保证样本结构与总体结构相似,提高估计的精准度
    • AB实验通过用户画像进行分层抽样,获得代表性样本
      在这里插入图片描述

2. 确定样本量

2.1. 比例类指标(如转化率、点击率)

  • 适用于指标是 “某事件发生的比例”(如 “点击用户数 / 总用户数”),计算公式基于正态近似法(当样本量足够大时,比例的抽样分布近似正态分布)。
  • 单侧检验样本量(每组):n=Z1−α2p(1−p)+Z1−βpa(1−pa)+pb(1−pb)(pb−pa)2n = \frac{Z_{1-\alpha} \sqrt{2p(1-p)} + Z_{1-\beta} \sqrt{p_a(1-p_a) + p_b(1-p_b)}}{(p_b - p_a)^2}n=(pbpa)2Z1α2p(1p)+Z1βpa(1pa)+pb(1pb)
  • 双侧检验样本量(每组):n=Z1−α/22p(1−p)+Z1−βpa(1−pa)+pb(1−pb)(pb−pa)2n = \frac{Z_{1-\alpha/2} \sqrt{2p(1-p)} + Z_{1-\beta} \sqrt{p_a(1-p_a) + p_b(1-p_b)}}{(p_b - p_a)^2}n=(pbpa)2Z1α/22p(1p)+Z1βpa(1pa)+pb(1pb)
    • pap_apa :对照组(A)的基准比例;
    • pb=pa+MDEp_b = p_a + \text{MDE}pb=pa+MDE:实验组(B)的预期比例;
    • p=pa+pb2p = \frac{p_a + p_b}{2}p=2pa+pb:两组比例的平均值;
  • 示例:假设实验目标是检测 “转化率提升”,参数如下:
    • 对照组 A 的转化率 pap_apa = 0.1;
    • 最小有意义差异 MDE=2%(即 pbp_bpb =12%);
    • 显著性水平 α=0.05(双侧检验,Z=1.96);
    • 统计功效 1-β=0.8(Z=0.84)。
    • 代入公式
      • p = (0.1 + 0.12)/2 = 0.11
      • 分子=1.96×2×0.11×0.89+0.84×0.1×0.9+0.12×0.88≈1.96×0.44+0.84×0.44≈1.23分子=1.96 \times \sqrt{2 \times 0.11 \times 0.89} + 0.84 \times \sqrt{0.1 \times 0.9 + 0.12 \times 0.88} \approx 1.96 \times 0.44 + 0.84 \times 0.44 \approx 1.23 分子=1.96×2×0.11×0.89+0.84×0.1×0.9+0.12×0.881.96×0.44+0.84×0.441.23
      • 分母=(0.12−0.1)2=0.0004分母 = (0.12 - 0.1)^2 = 0.0004分母=(0.120.1)2=0.0004
      • n≈1.232/0.0004≈3782n \approx 1.23^2 / 0.0004 \approx 3782n1.232/0.00043782
      • 即每组至少需要约 3782 个样本,两组共需约 7564 个样本。

2.2. 均值类指标(如平均购买金额、平均停留时间)

  • 适用于指标是 “连续数值”(如 “人均购买金额”),计算公式基于均值的抽样分布(正态分布,需已知标准差)。
  • 单侧检验样本量(每组):n=2×((Z1−α+Z1−β)×σd)2n = 2 \times \left( \frac{(Z_{1-\alpha} + Z_{1-\beta}) \times \sigma}{d} \right)^2n=2×(d(Z1α+Z1β)×σ)2
  • 双侧检验样本量(每组):n=2×((Z1−α/2+Z1−β)×σd)2n = 2 \times \left( \frac{(Z_{1-\alpha/2} + Z_{1-\beta}) \times \sigma}{d} \right)^2n=2×(d(Z1α/2+Z1β)×σ)2
    • σ :对照组(A)指标的标准差(需通过历史数据预估,反映数据波动程度);
    • d:最小有意义差异(绝对差异,如 A 的平均购买金额为 100 元,MDE=10 元,则 d=10);
  • 示例:假设实验目标是检测 “平均购买金额提升”,参数如下:
    • 对照组 A 的平均金额 100 元;
    • 标准差 σ = 50 (历史数据得出);
    • 最小有意义差异 MDE=10 元(d=10);
    • 显著性水平 α=0.05(双侧检验,Z=1.96);
    • 统计功效 1-β=0.8(Z=0.84)。
    • 代入公式:n=2×((1.96+0.84)×5010)2=2×(2.8×5010)2=2×142=392n = 2 \times \left( \frac{(1.96 + 0.84) \times 50}{10} \right)^2 = 2 \times \left( \frac{2.8 \times 50}{10} \right)^2 = 2 \times 14^2 = 392n=2×(10(1.96+0.84)×50)2=2×(102.8×50)2=2×142=392
    • 即每组至少需要 392 个样本,两组共需 784 个样本。

3. Z检验、t检验、卡方检验

  • Z检验、t检验:推断差异发生的概率,从而判定平均数的差异是否显著。
  • A/B测试通常样本量很大,用 Z 检验、t 检验都可以。
    在这里插入图片描述
  • 卡方检验:即卡方拟合优度检验。用χ2 分布理论来检验样本数据与总体分布是否符合,从而判定样本偏差是否显著。可以用于检验抽样是否合理。
    在这里插入图片描述
    在这里插入图片描述

三、案例

1. 计算均值差异

在这里插入图片描述

  • Z检验
    在这里插入图片描述
  • p值计算
    在这里插入图片描述
  • 比较效应量和MDE
    在这里插入图片描述
    在这里插入图片描述
  • 结论:置信区间为。。。p值为。。。MDE为。。。说明新的推荐模型FM效果提升明显。

2. 计算比率差异

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值