温先辉：从技术视角看什么才是值得拥有的 A/B 测试

A/B 测试被更多人熟知的是持续观察并对照按一定规则分成的 A、B 两组测试样本，基于数据反馈辅助优化决策，其背后复杂的数学理论和试验基础设施却往往被人忽视。

目前，国内一线互联网公司大多采用自研的方式建设 A/B 测试平台，而中小互联网企业和传统行业的企业则会选择自采的方式建设 A/B 测试平台。在面对标准不一的多种 A/B 测试平台时，企业该如何选择？参照 Google 重叠试验框架——更多、更好、更快地试验，并结合神策 A/B 测试服务数十家客户的实践，我们从不同维度总结出评价 A/B 测试平台的标准：

功能：支持丰富的试验人群定向和指标管理配置，同时进行多个试验的可扩展性、灵活性
性能：A/B 测试的性能越高，对实际业务造成的延迟越小，对 C 端客户的体验越好
稳定：A/B 测试平台要保证足够高的 SLA，A/B 故障不应该影响正常业务运行
效率：降低试验的实施和分析成本，通过标准化的试验指标计算快速发现、终止不符合预期的试验
易用：降低试验的实施门槛，帮助没有 A/B 测试基础的小白快速上手、避免踩坑

基于上述评价标准，接下来我们将重点探讨神策 A/B 测试在提升功能、性能这两个维度的技术实践。

一、功能：基于数据体系与模型算法的成功演绎

A/B 测试平台功能维度的建设核心主要表现在两方面：试验人群定向和指标的支持依赖于底层的数据体系建设；同时进行多个试验的可扩展性和灵活性取决于试验模型和分流算法的设计方案。

1.数据体系

神策数据的 Event-User-Item（用户-事件-实体）数据模型能够对用户行为数据标准化抽象，从而支持丰富的用户行为指标建设，为企业提供强大、便捷的分析能力。

A/B 测试构建于神策数据体系之上，基于神策数据根基平台和神策用户画像体系，神策系统支持的全部画像标签和分析指标可以更便捷地应用到 A/B 测试中；与此同时，A/B 测试产生的结果又会遵循神策标准数据模型回流到神策数据平台中，如下图所示：

采用上述架构，能够为神策 A/B 测试带来强大的试验人群定向和指标分析能力，所具备的独特优势如下：

（1）支持公有 SaaS 化部署和私有 PaaS 化部署两种方案，满足多种场景的差异化需求，而用户核心数据则私有存储在客户环境中，保障数据安全；

（2）既可以作为独立产品支持客户 A/B 测试的需求，也可以结合神策分析等明星产品为客户实现数据分析感知、目标决策、线上测试验证、试验数据反馈打通的 SDAF 闭环；

（3）结合神策分析，A/B 测试的数据回流到平台后，既能够丰富用户行为分析指标种类，又能够提供用户人群圈定功能，进一步增强试验分析能力，不断形成正向反馈。

这里值得提一下，已经购买神策产品的客户，可以将现有产品与神策 A/B 测试无缝对接，再也不用为多产品打通而苦恼。

2.模型算法

要具备同时进行多个试验的可扩展性和灵活性，本质是要解决在有限的流量（比如仅能满足 2 个试验的样本量）前提下同时进行多个试验无法保证隔离的矛盾。具体来说就是：流量在试验之间互斥可以保证隔离性，但多个试验同时运行所需要的流量规模最好同时满足；让流量同时经过多个试验，即正交，需要解决试验效果出现互相干扰的问题。而试验互斥和正交的背后则隐藏了一系列复杂的技术和业务问题。

（1）试验互斥

怎么保障试验有公平获取到流量的机会？比如存量试验消耗了全部流量导致新上线的试验无法分配到流量而出现“流量饥饿”。

怎么保障试验流量的分配使用是随机且公平的？比如某个试验消耗了全部男性用户的流量，导致其他互斥的试验流量全是女性用户。

对于一个新增流量规模为 X（X<100%）的试验，如何保证该试验得到精确定义的流量规模？

（2）试验正交

同时经过两个试验之间的流量如何保证均匀打散，实现流量正交，从而保证试验之间的影响是一致的，对试验效果评估不会出现相互干扰。

天然存在相互干扰的试验如何解决？比如同一个按钮，试验 1 设置背景为红色，试验 2 设置文字为红色，同时命中这两个试验的用户将会看到一个没有文字全是红色的按钮。

除此之外，我们还需要保证每个试验配置的灵活性，比如差异化的人群定向和试验流量规模等。

解决上述问题的根本方法是构建一套逻辑严谨且扩展灵活的试验模型，加上能够实现严格正交的算法。以前人为鉴，筑后世基石，参照 Google 重叠试验框架，结合业界优秀的 A/B 测试平台建设经验，我们推演出如下试验模型：

在试验域、试验层和试验的模型上，我们支持精确的流量定义、严格的流量分配归属和差异化的人群定向功能；既支持独占域的试验场景规划，又支持对效果显著的试验进行全量发布；同时我们还保留了对如下复杂重叠试验模型的扩展支持，也将会面向部分存在循环嵌套重叠试验需求的客户开放该功能。

基于上述试验模型设计，我们可以充分保证同时进行多个试验的可扩展性和灵活性，但仍有可能面临一个很关键的问题——在多个试验层重叠的场景下，如何保证试验之间的流量是均匀打散，严格正交的？这里我们对 hash 因子和 hash 算法进行了大量的调研和验证，最终得到了严格正交的流量分配结果，如下：