AB测试在电商中的应用：完整实操指南

1. 问题

首页改版，A方案还是B方案？按钮颜色用红色还是蓝色？满减和打折哪个效果更好？

没有AB测试，这些决策只能靠"我觉得"，容易变成"谁的职位高听谁的"。

2. 学习

从腾讯云的4000字深度文章中，系统学习了AB测试的完整方法论，包括概念、步骤、影响因素和误区。

AB测试起源于医学双盲测试，强调的是同一时间维度对相似属性分组用户的测试。

时间统一性规避了季节因素，属性相似性降低了其他因素的影响。

3. 分析

AB测试的六大步骤

现状分析与假设：分析业务数据，确定最关键的改进点，提出优化假设

设定目标与方案：设主要目标（衡量优劣）+辅助目标（评估其他影响）

设计与开发：制作2个或多个版本的UI/功能

分配流量：初始阶段实验组流量可以较小（如5%），根据情况逐步放大

采集并分析数据：统计显著性达到95%以上并维持一段时间，实验可结束

确定发布：效果好全量发布，效果不确定继续测试，效果差中止

影响AB测试准确性的四个因素

1. 样本数量

流量太小容易造成随机偏差。例如某电商页面每天UV约2000，实验组只分2%，

一周才40人进入试验。恰好有个土豪买了高价商品，整个测试结果就被带偏了。

但不能盲目追求大量流量——测试版本流量太大，试错成本也高。

2. 样本质量

用AA测试（把老版本分成两组对比）来确认样本分配是否有效。

如果AA测试的结果本身就存在显著差异，说明分流有问题。

3. 测试时间

必须考虑用户行为周期（电商用户周末和工作日差异显著，测试应覆盖至少1周）

和用户适应期（UI改版后给用户2-3天适应，再开始记录数据）。

4. 多个实验的相互影响

同时改搜索算法和详情页UI时，需要做正交分层实验，确保每层流量被重新打散。

常用统计概念

P值：表示实验结果由随机因素导致的概率。P<0.05是统计显著的通用标准

置信区间：95%置信区间意味着如果重复实验100次，95次的结果会落在这个区间内

最小样本量：需要按照预期提升效果和统计功效计算，工具如 Optimizely Sample Size Calculator

4. 理解

AB测试的本质不是"测两个方案哪个好"，而是用科学方法消除决策中的偏见和噪音。

为什么必须做AB测试？因为人脑有太多认知偏误：

确认偏误：只看到支持自己观点的证据

幸存者偏差：只看到成功案例

后见之明：事情发生后觉得自己早就知道

AB测试用数据说话，逼你面对现实。

5. 内化

AB测试的黄金法则：

一次只测一个变量——变量多了不知道哪个起了效果

统计显著性是底线——不显著的差异可能是随机噪音

别提前下结论——等到样本量达标再分析

别只看首要指标——还要看辅助指标有没有被牺牲

6. 类比

AB测试就像种地做对比实验：在A块地用化肥A，B块地用化肥B，

两块地的土壤、水分、光照要尽量一致（分流均质），最后对比收成。

如果A地日照更好、B地更阴，那收成差异到底是因为化肥还是光照？

7. 迁移

AB测试的思维不限于UI优化：

文案测试：不同标题/CTA的转化率对比

定价测试：不同价格体系下的转化率和客单价

活动策略测试：满减 vs 打折 vs 赠品

客服策略测试：不同话术的满意度对比

推送策略测试：不同时间段/内容的打开率对比

8. 实践

在电商中做AB测试的实操步骤：

找到最需要优化的环节（从漏斗分析中找瓶颈）

提出具体假设（如"把下单按钮从灰色改为红色能提升点击率"）

确定核心指标（点击率、下单转化率）

用AB测试工具（Google Optimize、GrowingIO等）设置实验

分配流量（90%对照/10%实验），逐步放大

跑够样本量（用样本量计算器估算）

分析结果（P值<0.05且效应量可接受则发布）

9. 调整

常见错误【错题本】：

提前终止实验。看到3天效果好了就全量发布，但可能只是随机波动

多个实验互相污染。同一页面上同时跑3个AB测试，用户体验混乱

只看P值不看效应量。P<0.05但提升只有0.1%，没有实际意义

忽略长期影响。短期转化率提升了，但用户满意度下降了（如捆绑销售）

AA测试没通过就开始做AB。分流不均匀的情况下，AB测试结果不可信

10. 成事

Amazon、Google、阿里这些公司每年跑数万个AB实验。

对于中小电商来说，不需要搭建复杂的实验平台，用简单的分流工具就可以开始。

从一个小改动开始——比如把"立即购买"和"加入购物车"的按钮换个位置——

验证AB测试的流程，然后再推广到更多场景。

重要的是：开始做，而不是做得完美才开始。

关联笔记： 06.4-转化漏斗与用户行为分析模型 01.1-电商运营增长方法论

📄 06.5-AB测试在电商中的应用