电商AB测试：从方案设计到统计显著性判断

> 太多的AB测试是"碰运气"——改个按钮颜色跑两天，转化率涨了3%就宣布"有效"。这不是AB测试，这叫做"运气测试"。真正的AB测试是用统计学原理做可靠决策的工具。

一、问题：为什么80%的AB测试结果是错的？

电商团队的AB测试通病：

样本量不够就下结论 — 跑了200个访客就说A方案比B方案好

没有控制变量 — 同时改了主图+详情页+价格，说"是主图的效果"

提前终止测试 — 看到头3天效果不错就停了

统计显著性检验缺失 — 完全靠"看数字大小"

数据： 谷歌的统计显示，约80%的AB测试结论在扩大样本量后不再成立。

二、学习：AB测试的核心原理

2.1 为什么需要AB测试？

电商决策中充满了"我认为"式判断：

"我觉得红色按钮比蓝色好"

"我觉得这个图片更吸引人"

AB测试的核心价值： 用数据验证假设，排除主观偏见和随机波动的影响。

2.2 AB测试的数学基础

AB测试不是简单比较两个数字的大小——你需要判断这个差异是不是偶然。

核心概念：p值（显著性水平）

p < 0.05：差异有统计学意义（有95%的把握认为差异不是随机波动）

p < 0.01：差异非常显著（有99%的把握）

p > 0.05：差异不显著（可能是随机波动导致的）

统计功效（Statistical Power）：

通常要求 ≥ 80%

取决于样本量、预期效果大小、显著性水平

2.3 需要的样本量

粗略估算公式（重要！）： `

所需样本量 ≈ 16 × (σ² / δ²)

σ：标准差（数据的波动程度）

δ：预期的最小可检测差异

电商实战参考（简化版）：

| 预期效果提升 | A/B每组需要的访客数 |

|------------|------------------|

| 20% | ~1,000 |

| 10% | ~3,000 |

| 5% | ~10,000 |

| 2% | ~50,000 |

| 1% | ~200,000 |

结论： 如果你想检测5%的差异，每组至少需要10,000个访客。

三、分析：电商AB测试实战案例

案例1：主图AB测试

测试对象： 主图A（白底+产品）vs 主图B（场景图+产品） 测试时长： 7天 结果：

| 指标 | 方案A | 方案B | 差异 |

|------|-------|-------|------|

| 曝光 | 15,230 | 15,108 | - |

| 点击 | 671 | 799 | +19.1% |

| CTR | 4.41% | 5.29% | +0.88% p.p. |

| p值 | - | 0.003 | ✅ 显著 |

结论： 方案B的CTR显著高于方案A（p=0.003 < 0.05），可以确认方案B更好。

案例2：优惠券金额AB测试

测试对象： 满200减20 vs 满200减30 测试时长： 5天 结果：

| 指标 | 满200-20 | 满200-30 | 差异 |

|------|---------|---------|------|

| 加购率 | 18.2% | 21.5% | +3.3% p.p. |

| 转化率 | 4.1% | 4.5% | +0.4% p.p. |

| p值（转化率） | - | 0.31 | ❌ 不显著 |

结论： 虽然满200减30的转化率看起来高了0.4个百分点，但p=0.31>0.05，说明这个差异很可能是随机波动导致的。不能确认减30真的比减20好。 需要更大的样本量来做最终判断。

案例3：CTA按钮颜色

测试对象： 红色按钮 vs 橙色按钮 样本量： 每组50,000访客 结果：

| 指标 | 红色 | 橙色 | 差异 | p值 |

|------|------|------|------|-----|

| 点击率 | 3.82% | 3.95% | +0.13% p.p. | 0.28 |

结论： 即使每组5万访客，0.13个百分点的差异仍然不显著。这说明两个颜色的效果差不多，选哪个都可以。

四、理解：AB测试的完整流程

┌─────────────────┐

│ 1. 提出假设 │ ← "我猜XX方案会比XX方案好"

└────────┬────────┘

↓

┌─────────────────┐

│ 2. 设计实验 │ ← 确定指标、样本量、时长

└────────┬────────┘

↓

┌─────────────────┐

│ 3. 执行测试 │ ← 随机分流、同时运行

└────────┬────────┘

↓

┌─────────────────┐

│ 4. 分析结果 │ ← 计算显著性、实际意义

└────────┬────────┘

↓

┌─────────────────┐

│ 5. 决策行动 │ ← 采纳/拒绝/继续测试

└────────┬────────┘

↓

┌─────────────────┐

│ 6. 验证落地 │ ← 全量上线后持续监控

└─────────────────┘

4.1 提出可测试假设

好假设 vs 坏假设：

| 坏假设 | 好假设 |

|-------|--------|

| "主图应该优化一下" | "场景图代替白底图，CTR能提升10%以上" |

| "详情页不太行" | "痛点前置替代功能罗列，转化率能提升15%" |

| "价格能不能调" | "满200减20 → 满199减25，客单价变化≤3%，转化率提升10%" |

测试假设的三要素：

具体变更（改什么）

预期效果（提升多少、提升什么指标）

为什么（逻辑推导）

4.2 设计实验的要点

确定测试指标：

主指标（1个）： 你最关心的商业指标（CTR/转化率/客单价/ROI）

辅指标（2-3个）： 用来辅助判断（跳出率、停留时间、加购率）

反向指标（1-2个）： 防止"副作用"（退货率、客服投诉率不能恶化）

样本量计算：

使用上述的样本量参考表

至少双倍确认（计算结果是5000，实际跑10,000）

测试时长：

至少跑满1个完整周（覆盖工作日+周末）

大促前后避开（数据异常）

至少确保每个方案达到最小样本量

4.3 常见陷阱与避免方法

| 陷阱 | 描述 | 避免方法 |

|------|------|---------|

| 先看数据再叫停 | 看到第3天效果好就提前停 | 预定测试时长，严格执行 |

| 多次分析 | 每天看一次数据，看到显著就停 | 设定"只看一次"的分析计划 |

| 忽略多重比较 | 同时测5个方案，总有1个显著 | 用Bonferroni校正（显著水平/n） |

| 交互效应 | A和B同时改，效果不确定 | 一次只测一个变量 |

| 新奇效应 | 用户刚看到变化时反应不同 | 跑够时长，等"新奇期"过去 |

五、内化：AB测试SOP

Step 1: 确认测试必要性

这个改变值得花时间测试吗？（如果效果可能很小，且测试成本高，不值）

不做测试会有什么损失？（如果改坏了损失的GMV > 测试成本，值得测）

Step 2: 设计测试方案

明确要测试的变量（一次只测一个）

确定测试指标（主指标+辅指标+反向指标）

计算所需样本量

确定测试时长（≥7天，特殊情况除外）

Step 3: 搭建测试

在平台后台创建AB测试（生意参谋AB测试工具/直通车测图/抖音分流测试）

验证分流是否正常（对照组和实验组的基础特征是否一致）

设置自动运行（不要中途干预）

Step 4: 耐心运行

不要中途查看数据（除非发现技术故障）

不要提前终止

记录外部影响因素（竞品大促、流量异常等）

Step 5: 分析结果

计算核心指标的p值

如果p<0.05 → 差异显著

看实际效果大小（即使是显著的，提升0.1%有意义吗？）

检查反向指标是否有恶化

Step 6: 决策

显著+正向 → 全量上线

显著+负向 → 回退

不显著 → 要么接受原方案，要么扩大样本继续测

不显著但效应明显 → 可能样本不够，继续测

Step 7: 上线后监控

上线后持续观察1-2周

确保效果稳定

记录测试结果和经验到知识库

六、类比迁移

| AB测试概念 | 类比 | 解释 |

|-----------|------|------|

| 假设验证 | 法庭审判 | 假设是无罪（A=B），证据（数据）足够才推翻 |

| p值 | 误判概率 | p=0.05 ≈ 误判可能性5% |

| 样本量 | 民意调查人数 | 问100个人不准，问10,000个就准 |

| 新奇效应 | 新餐厅开业 | 刚开业人多，不代表持续火 |

| 显著性 | 距离判断 | 1cm差在100m外看不到，在1m内很明显 |

七、迁移：不同场景的AB测试优先级

| 场景 | 测试价值 | 建议测试内容 |

|------|---------|------------|

| 主图优化 | ⭐⭐⭐⭐⭐ | 不同背景、不同文案、不同角度 |

| 价格策略 | ⭐⭐⭐⭐ | 满减门槛、折扣力度、套餐组合 |

| 详情页 | ⭐⭐⭐⭐ | 信息架构、首屏内容、评价展示 |

| 推广素材 | ⭐⭐⭐⭐ | 创意素材、文案、人群定向 |

| CTA按钮 | ⭐⭐⭐ | 颜色、文案、大小、位置 |

| 客服话术 | ⭐⭐⭐ | 开场白、推荐用语、促单话术 |

| 页面布局 | ⭐⭐ | 到底什么颜色影响不大（样本量要求大） |

八、常见误区

太早下结论 — 样本不够就宣布"见效了"

测试太多变量 — 改了10个东西，不知道哪个起作用

只选对原假设有利的数据看 — 只看转化率不看退货率

忽视实际意义 — p值显著但效果太小（转化率提升0.1%，p=0.001）→ 有意义吗？

"不复测" — 测试通过了就是对的？换到不同类目、不同时期可能结果不同

九、调整：AB测试质量检查

[ ] 假设是否具体可测？（改了什么、预期提升多少）

[ ] 样本量是否充足？

[ ] 测试时长是否≥7天？

[ ] 是否只测了一个变量？

[ ] 是否设定了"不看中间数据"的纪律？

[ ] 是否检查了反向指标？

[ ] 上线后是否持续监控了效果？

十、成事：可复用技能

见技能库 13.4-数据分析与诊断/电商AB测试SOP.md

关联知识

参见：[05.1-主图优化]（最常见的AB测试场景）

参见：[06.6-用户画像与标签]（AB测试的受众定向基础）

📄 06.5-电商AB测试方案设计与统计显著性

电商AB测试：从方案设计到统计显著性判断

一、问题：为什么80%的AB测试结果是错的？

二、学习：AB测试的核心原理

2.1 为什么需要AB测试？

2.2 AB测试的数学基础

2.3 需要的样本量

三、分析：电商AB测试实战案例

案例1：主图AB测试

案例2：优惠券金额AB测试

案例3：CTA按钮颜色

四、理解：AB测试的完整流程

4.1 提出可测试假设

4.2 设计实验的要点

4.3 常见陷阱与避免方法

五、内化：AB测试SOP

Step 1: 确认测试必要性

Step 2: 设计测试方案

Step 3: 搭建测试

Step 4: 耐心运行

Step 5: 分析结果

Step 6: 决策

Step 7: 上线后监控

六、类比迁移

七、迁移：不同场景的AB测试优先级

八、常见误区

九、调整：AB测试质量检查

十、成事：可复用技能

关联知识

🔗 本页提及 (2)