电商AB测试:从方案设计到统计显著性判断
> 太多的AB测试是"碰运气"——改个按钮颜色跑两天,转化率涨了3%就宣布"有效"。这不是AB测试,这叫做"运气测试"。真正的AB测试是用统计学原理做可靠决策的工具。
一、问题:为什么80%的AB测试结果是错的?
电商团队的AB测试通病:
二、学习:AB测试的核心原理
2.1 为什么需要AB测试?
电商决策中充满了"我认为"式判断:
- "我觉得红色按钮比蓝色好"
- "我觉得这个图片更吸引人"
2.2 AB测试的数学基础
AB测试不是简单比较两个数字的大小——你需要判断这个差异是不是偶然。
核心概念:p值(显著性水平)- p < 0.05:差异有统计学意义(有95%的把握认为差异不是随机波动)
- p < 0.01:差异非常显著(有99%的把握)
- p > 0.05:差异不显著(可能是随机波动导致的)
- 通常要求 ≥ 80%
- 取决于样本量、预期效果大小、显著性水平
2.3 需要的样本量
粗略估算公式(重要!):`
所需样本量 ≈ 16 × (σ² / δ²)
`
- σ:标准差(数据的波动程度)
- δ:预期的最小可检测差异
| 预期效果提升 | A/B每组需要的访客数 |
|------------|------------------|
| 20% | ~1,000 |
| 10% | ~3,000 |
| 5% | ~10,000 |
| 2% | ~50,000 |
| 1% | ~200,000 |
结论: 如果你想检测5%的差异,每组至少需要10,000个访客。三、分析:电商AB测试实战案例
案例1:主图AB测试
测试对象: 主图A(白底+产品)vs 主图B(场景图+产品) 测试时长: 7天 结果:| 指标 | 方案A | 方案B | 差异 |
|------|-------|-------|------|
| 曝光 | 15,230 | 15,108 | - |
| 点击 | 671 | 799 | +19.1% |
| CTR | 4.41% | 5.29% | +0.88% p.p. |
| p值 | - | 0.003 | ✅ 显著 |
结论: 方案B的CTR显著高于方案A(p=0.003 < 0.05),可以确认方案B更好。案例2:优惠券金额AB测试
测试对象: 满200减20 vs 满200减30 测试时长: 5天 结果:| 指标 | 满200-20 | 满200-30 | 差异 |
|------|---------|---------|------|
| 加购率 | 18.2% | 21.5% | +3.3% p.p. |
| 转化率 | 4.1% | 4.5% | +0.4% p.p. |
| p值(转化率) | - | 0.31 | ❌ 不显著 |
结论: 虽然满200减30的转化率看起来高了0.4个百分点,但p=0.31>0.05,说明这个差异很可能是随机波动导致的。不能确认减30真的比减20好。 需要更大的样本量来做最终判断。案例3:CTA按钮颜色
测试对象: 红色按钮 vs 橙色按钮 样本量: 每组50,000访客 结果:| 指标 | 红色 | 橙色 | 差异 | p值 |
|------|------|------|------|-----|
| 点击率 | 3.82% | 3.95% | +0.13% p.p. | 0.28 |
结论: 即使每组5万访客,0.13个百分点的差异仍然不显著。这说明两个颜色的效果差不多,选哪个都可以。四、理解:AB测试的完整流程
`
┌─────────────────┐
│ 1. 提出假设 │ ← "我猜XX方案会比XX方案好"
└────────┬────────┘
↓
┌─────────────────┐
│ 2. 设计实验 │ ← 确定指标、样本量、时长
└────────┬────────┘
↓
┌─────────────────┐
│ 3. 执行测试 │ ← 随机分流、同时运行
└────────┬────────┘
↓
┌─────────────────┐
│ 4. 分析结果 │ ← 计算显著性、实际意义
└────────┬────────┘
↓
┌─────────────────┐
│ 5. 决策行动 │ ← 采纳/拒绝/继续测试
└────────┬────────┘
↓
┌─────────────────┐
│ 6. 验证落地 │ ← 全量上线后持续监控
└─────────────────┘
`
4.1 提出可测试假设
好假设 vs 坏假设:| 坏假设 | 好假设 |
|-------|--------|
| "主图应该优化一下" | "场景图代替白底图,CTR能提升10%以上" |
| "详情页不太行" | "痛点前置替代功能罗列,转化率能提升15%" |
| "价格能不能调" | "满200减20 → 满199减25,客单价变化≤3%,转化率提升10%" |
测试假设的三要素:4.2 设计实验的要点
确定测试指标:- 主指标(1个): 你最关心的商业指标(CTR/转化率/客单价/ROI)
- 辅指标(2-3个): 用来辅助判断(跳出率、停留时间、加购率)
- 反向指标(1-2个): 防止"副作用"(退货率、客服投诉率不能恶化)
- 使用上述的样本量参考表
- 至少双倍确认(计算结果是5000,实际跑10,000)
- 至少跑满1个完整周(覆盖工作日+周末)
- 大促前后避开(数据异常)
- 至少确保每个方案达到最小样本量
4.3 常见陷阱与避免方法
| 陷阱 | 描述 | 避免方法 |
|------|------|---------|
| 先看数据再叫停 | 看到第3天效果好就提前停 | 预定测试时长,严格执行 |
| 多次分析 | 每天看一次数据,看到显著就停 | 设定"只看一次"的分析计划 |
| 忽略多重比较 | 同时测5个方案,总有1个显著 | 用Bonferroni校正(显著水平/n) |
| 交互效应 | A和B同时改,效果不确定 | 一次只测一个变量 |
| 新奇效应 | 用户刚看到变化时反应不同 | 跑够时长,等"新奇期"过去 |
五、内化:AB测试SOP
Step 1: 确认测试必要性
- 这个改变值得花时间测试吗?(如果效果可能很小,且测试成本高,不值)
- 不做测试会有什么损失?(如果改坏了损失的GMV > 测试成本,值得测)
Step 2: 设计测试方案
- 明确要测试的变量(一次只测一个)
- 确定测试指标(主指标+辅指标+反向指标)
- 计算所需样本量
- 确定测试时长(≥7天,特殊情况除外)
Step 3: 搭建测试
- 在平台后台创建AB测试(生意参谋AB测试工具/直通车测图/抖音分流测试)
- 验证分流是否正常(对照组和实验组的基础特征是否一致)
- 设置自动运行(不要中途干预)
Step 4: 耐心运行
- 不要中途查看数据(除非发现技术故障)
- 不要提前终止
- 记录外部影响因素(竞品大促、流量异常等)
Step 5: 分析结果
- 计算核心指标的p值
- 如果p<0.05 → 差异显著
- 看实际效果大小(即使是显著的,提升0.1%有意义吗?)
- 检查反向指标是否有恶化
Step 6: 决策
- 显著+正向 → 全量上线
- 显著+负向 → 回退
- 不显著 → 要么接受原方案,要么扩大样本继续测
- 不显著但效应明显 → 可能样本不够,继续测
Step 7: 上线后监控
- 上线后持续观察1-2周
- 确保效果稳定
- 记录测试结果和经验到知识库
六、类比迁移
| AB测试概念 | 类比 | 解释 |
|-----------|------|------|
| 假设验证 | 法庭审判 | 假设是无罪(A=B),证据(数据)足够才推翻 |
| p值 | 误判概率 | p=0.05 ≈ 误判可能性5% |
| 样本量 | 民意调查人数 | 问100个人不准,问10,000个就准 |
| 新奇效应 | 新餐厅开业 | 刚开业人多,不代表持续火 |
| 显著性 | 距离判断 | 1cm差在100m外看不到,在1m内很明显 |
七、迁移:不同场景的AB测试优先级
| 场景 | 测试价值 | 建议测试内容 |
|------|---------|------------|
| 主图优化 | ⭐⭐⭐⭐⭐ | 不同背景、不同文案、不同角度 |
| 价格策略 | ⭐⭐⭐⭐ | 满减门槛、折扣力度、套餐组合 |
| 详情页 | ⭐⭐⭐⭐ | 信息架构、首屏内容、评价展示 |
| 推广素材 | ⭐⭐⭐⭐ | 创意素材、文案、人群定向 |
| CTA按钮 | ⭐⭐⭐ | 颜色、文案、大小、位置 |
| 客服话术 | ⭐⭐⭐ | 开场白、推荐用语、促单话术 |
| 页面布局 | ⭐⭐ | 到底什么颜色影响不大(样本量要求大) |
八、常见误区
九、调整:AB测试质量检查
- [ ] 假设是否具体可测?(改了什么、预期提升多少)
- [ ] 样本量是否充足?
- [ ] 测试时长是否≥7天?
- [ ] 是否只测了一个变量?
- [ ] 是否设定了"不看中间数据"的纪律?
- [ ] 是否检查了反向指标?
- [ ] 上线后是否持续监控了效果?
十、成事:可复用技能
见技能库 13.4-数据分析与诊断/电商AB测试SOP.md
关联知识
- 参见:[05.1-主图优化](最常见的AB测试场景)
- 参见:[06.6-用户画像与标签](AB测试的受众定向基础)