1. A/B Test

文章目录

- - 1、什么是A/B Testing ？
  - 2、A/B Testing 的用途？
  - 3、如何设计 A/B Testing？
  - 4、如何分析实验数据，得出结论？
  - 5、如何发行新产品并持续监测？
  - 学习链接

1、什么是A/B Testing ？

A/B Testing 是一种在互联网or科技公司常见的，帮助我们判断产品改善方案是否可行的、在线的一种统计实验工具。类似于初中生物学的对照实验。
举例：比如我们当前现存一个产品版本A，同时根据单一变量P原则，设计出一个改善后的版本B。接下来对实验用户分组，一组用户使用A、一组用户使用B。然后，在相同的时间维度内，观测两组用户的实验数据和反应。最后，根据假设检验原理，判断B版本相较于A版本而言，是否带来了统计学意义上的显著差异。同时，需要确定这些差异是否最终将带来商业价值。

实验中应遵循的原则（两个假设前提条件）：

单一变量原则：设计改善后的方案B时，只能改变一个变量。如果同时改变多个变量，假设最后的实验数据让我们得出的结论是，方案B带来了统计学意义上的显著改变，但此时我们很难说明这些改变应该归咎于哪个变量的改善。
随机原则：将实验用户分到A组和B组时，应遵循随机原则，尽量减少样本选择偏差。可以提高最终实验结论的准确性。同时，将实验复制到更大规模的实验群体中时，尽可能保证实验结果是可复制的。最后，帮助我们制定更加准确和可靠的商业决策。

2、A/B Testing 的用途？

用途：帮助我们了解，就产品目前状态而言，哪种改善方案是更优的，以帮助我们将产品的表现从1提升到100(产品优化)。
相对而言不能帮助我们将产品表现从0提升到1，也就是创造出一个新产品。

不适用 A/B Testing 的场景：

将产品表现从0提升到1，也就是创造出一个新产品。
实验需要运行非常长的时间才能得出结果。因为实验要遵循单一变量原则，如果时间跨度较长，将不能保证变量单一。

When A/B Testing is not useful，we can：

分析用户活动日志
进行回顾性分析
进行用户体验研究
焦点小组和调查
人工评价

3、如何设计 A/B Testing？

步骤：
1、确定指标：
a、不变指标（invariant metrics）：对于实验组和对照组而言，恒定不变的指标。eg. 分配到两组中的用户数量是否相当；用户的分布情况是否相当；用户的语言系统是否相当。
b、评估指标（evaluation metrics）：评价我们的优化方案是否得到了具体改善的指标。eg.人均收入；点击率；转化率。挑选评估指标时，需要注意指标的稳定性和敏感性。这样才能将实验的变化结果归因到变量P的变化上。

稳定性：指标不会随着其他变量（非P变量）的变化有明显的波动
敏感性：指标会随着变量P的变化发生相应的变化

2、确定显著性水平、统计功效、实际显著性水平
3、确定样本量
先确定，从哪个总体中选择样本。
Simple count（实验组样本量=对照组样本量）≈16*(Sigma)^ 2/(Delta)^ 2。Sigma为评估指标在总体中的标准差；Delta为评估指标需要在实验组和对照组之间形成的差异。
4、确定实验时长
采用逐次累加的方案进行实验。需要注意首位效应(privacy effect)和新奇效应(novelty effect)的影响。
假设每天的用户流量为2000、选用其中10%作为实验用户，那每天的实验组样本量=对照组样本量=100。Simple count=1000，实验时长=Simple count/100=5天。