从不均匀性角度浅析AB实验

jingdongkeji 2024-02-12 原文

作者：京东零售路卫强

本篇的目的是从三个不均匀性的角度,对AB实验进行一个认知的普及,最终着重讲述AB实验的一个普遍的问题，即实验准确度问题。

一、AB实验场景

在首页中，我们是用红色基调还是绿色基调，是采用门店小列表外+商品feed（左图），还是采用门店大列表囊括商品feed（右图），哪种更吸引用户浏览下单呢，简单来处理让50%的用户看到左图效果，让50%的用户看到右图效果，最终通过点击量，单量等指标进行比对得出结论，这是典型的AB实验场景

二、AB实验的定义

A/B实验就是针对想迭代的产品功能，提供两种不同的备选解决方案，然后让一部分用户使用方案A，另一部分用户使用方案B，最终通过实验数据对比来确定最优方案。

从定义里我们就可以看出来,最直观的一个概念,就是用户的分流,此时就涉及到分流人数是否均匀的问题,即人数比例的均匀性。

三、AB中的三个不均匀

1、人数比例的不均匀

目前AB实验的分流核心算法是通过的哈希算法，假设我们按用户名做为分流因子，使用murmurhash算法，以100桶制为例，确定一个人的位置的算法就是

//将用户名通过hash算法计算出一个整数
int hashNum = MurmurHash3.murmurhash3_x86_32(useName)
//整数值对100取模
int bucket = hashNum % 100;

当我们定义一个实验两个策略的人数均为50%时，那么

bucket为0-49的用户由AB系统标记为A,业务系统根据A标记，使得用户使用方案A

bucket为50-99的用户由AB系统标记为B,业务系统根据B标记，使得用户使用方案B。

可是我们都知道哈希算法并不是绝对均匀的，当100人时，基本上不会出现有50个人走A，50个人走B，但是1万个人的时候，两部分流量可能就接近了1:1，10万人的时候可能更接近1:1。

之前有位运营的同学问过，为什么不能用一种很均匀的算法，比如第一个人来了，放入A，第二个人来了放入B，第三个人来了放入A，第四个人来了放入B....，这样一天1W个人来，5000个取A策略，5000个取B策略。

假设我们真的这么做了，第一天是OK的，第二天进A只来了4000人，这样还是不均匀的，如果你第二天仍然按第一天的规则重新分配，这样会有一部分人乱了策略，不符合我们固定人群走固定策略的实验目的。

所以说这个不均匀是无解的，HASH算法是目前最理想的解决方案，前提是你需要一定的流量，流量越大，分流相对就比较准确。

2、人群素质的不均匀

我们假设流量足够大，人数比例很均匀了，但是还有个问题就是人群素质的均匀问题。这里的素质包括消费能力，活跃度，年龄等各种人群因素。

假设现在我们的活动统一采用的A策略（现状），我们想验证一下B策略（新策略）会不会带来客单价的提升，就直接做了AB实验，还按1:1比例来分流，发现使用A方案的人群客单价是100，使用客单价B的人群是96，此时我们能认为原有A方案优于B方案吗？其实是不能的，怎样确定这种人群素质的差异呢，可以采用AA实验，就是两部分人都走A，进行分开统计，可能会发现，位于0-49桶的人群本身客单价就是100，而位于50-99桶的人群可能只有94，这么看来B方案是能提升客单价的，因为位于50-99桶的人群本身指标就差一些。

当然AA不是必须的，可能你有整体的客单价指标，上了B策略后发现整体提升了，这种情况相当于灰度验证了，但实际情况是比较复杂的，整体指标你是不清楚的（因为这里的整体可能只是你取的业务中的一部分流量）。

所以解决素质不均匀的手段就是采用AA提前确定差异性，再在这个差异性基础上看差异的变化。

3、实验间影响的不均匀

这个不均匀性是最复杂的，一般做实验我们走两种极端：

第一种是完全不复用人群，每个实验人群都是独立的，这样的话效果比较准确，但是弊端是，当所有流量都被用去后，不能有新实验开始，必须等待有结束的实验后才能继续做。

第二种，所有实验都用全部流量，此时我们认为实验虽然互相之间有影响，但是这种影响是正交的，量大的时候应该是均匀的，如下图所示，P实验的两个策略人群，到Q实验时，对Q的两个策略影响是均匀的。

这种可以满足无限个实验，想做多少实验都可以，但弊端是，实验太多，必然有影响不均匀的，且我们无法消除这种不均匀。

所以我们想能不能结合以上两种情况来处理呢，结合google的Overlapping Experiment Infrastructure文章我们设计出分层的实验管理模型

首先我们将总流量分成两部分，正交域，垂直域（含对比区）

我们假设如图取80%的流量用做正交阈，20%用作垂直域，垂直域中有5%用做对比区。

上图正交域下4个层，层内实验流量互斥，层间实验流量正交，我们将可能会互相影响的实验放到同一层内进行流量互斥，而影响不大的实验可以放到不同层内。

垂直域中的实验流量只能互斥，且不与任何实验正交，可以理解用最纯正的流量做实验，可以I1和I2两个策略间对比，也可以I1或I2和对比域（现状）比对。

那此时有一个很重要的问题需要解决，我们怎么确定哪些实验互相影响较大，需要放到同一层下。

有一些简单标准，比如入口不一样，目标不一样等等，这种可以放到不同层，我们可以忽略正交不均匀的问题，反之就不行。

比如活动页劵对单量提升度的实验和会员页面入会效果的实验，就可以放到不同层。

而首页上满减活动实验对客单价提升的实验和同样首页买赠活动对客单价提升的实验，最好是不共用用户，放到同层比较合适。

但对于很多实验是不太容易通过简单规则来确定的，需要大数据的同学和产品，甚至研发来共同决定实验放到哪些层和哪些实验互斥，这确实在实际的运作中是最难的点。

总之采用这种策略，可以复用流量的同时还可以降低不必要的互相影响，比较综合考虑了流量和准确度问题。

四、总结

现在我们对以上问题进行总结，从问题到解决方案上来认识ab实验

1、人群做不到绝对的均匀，只能通过HASH算法，结合一定的流量来解决。

2、通过AA实验，来提前确定人群素质的不均匀。最终的实验数据结合AA实验数据来确定最终效果。

3、设计出正交垂直域，正交阈内多个层，每个层内放可能相互影响的实验，层内互斥，层间正交，保留垂直域，为要求精准的实验留出流量，来解决实验间相互影响的问题。

本篇从核心分流与实验间相互影响角度讲解ab实验，希望能引起大家在做实验前能有更多的思考，来更准确的验证自己想要的效果，希望大家有兴趣的可以留言讨论。

不均浅析的 strong 软件测试

有关从不均匀性角度浅析AB实验的更多相关文章

网络实验之RIPV2协议（一） - 2
一、RIPV2协议简介 RIP(RoutingInformationProtocol)路由协议是一种相对古老，在小型以及同介质网络中得到了广泛应用的一种路由协议。RIP采用距离向量算法，是一种距离向量协议。RIP-1是有类别路由协议（ClassfulRoutingProtocol），它只支持以广播方式发布协议报文。RIP-1的协议报文无法携带掩码信息，它只能识别A、B、C类这样的自然网段的路由，因此RIP-1不支持非连续子网（DiscontiguousSubnet）。RIP-2是一种无类别路由协议（ClasslessRoutingProtocol），支持路由标记，在路由策略中可根据路由标记对
第1部分实验拓扑、终端服务器 - 2
目录1.1访问Cisco路由器的方法1.1.1通过Console口访问路由器1.1.2通过Telnet访问路由器1.1.3终端访问服务器1.2终端访问服务器配置命令汇总1.1访问Cisco路由器的方法路由器没有键盘和鼠标，要初始化路由器需要把计算机的串口和路由器的Console口进行连接。访问Cisco路由器的方法还有Telnet、WebBrowser和网络管理软件（如CiscoWorks）等，本节讨论前2种。1.1.1通过Console口访问路由器计算机的串口和路由器的Console口是通过反转线（Rollover）进行连接的，反转线的一端接在路由器的Console口上，另一
【操作系统实验】Ubuntu Linux 虚拟机用户管理 - 2
文章目录一、用户二、用户分类1、普通用户2、超级用户3、系统用户三、用户相关文件1、/etc/passwd文件2、/etc/shadow文件四、用户管理命令1、useradd2、adduser3、passwd4、usermod5、userdel一、用户Linux系统是一个多用户多任务的分时操作系统，任何一个要使用系统资源的用户都必须先向系统管理员申请一个账号，然后以这个账号的身份进入系统。在Linux系统中，任何文件都属于某一特定用户，而任何用户都隶属于至少一个用户组。用户名（username）：每个用户账号都拥有一个惟一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后，就能够进入系
OSPF综合实验 - 2
文章目录实验要求实验思路IP地址规划路由实验配置R1上配置R2上配置R3上配置R4上配置R5上配置R6上配置R7上配置R8上配置R9上配置R10上配置R11上配置R12上配置实验测试R10pingR4的环回R10pingR12的环回R10pingR1实验要求R4为ISP，其只能配置IP地址；R4与其他所有直连设备间均使用公有IP；R3-R5/6/7为MGRE环境，R3为中心站点；整个OSPF环境IP基于172.16.0.0/16划分；所有设备均可访问R4的环回；减少LSA的更新量，加快收敛，保障更新安全；全网可达实验思路IP地址规划公网IP随便配置，这里我R3-R4的网段为34.1.1.0/2
SQL Server 创建用户,用户授权，实验报告 - 2
首先我们得有一个数据库，数据库里有表职工表：部门表：接下来的操作都是针对以上的表其次我们来建立登录用户createlogin王明withpassword='123456'--创建登录用户，登录名为王明，密码为123456.创建登录名之后，登录用户还不能对数据库进行操作，还要对登录用户创建数据库用户createuserU1forlogin王明--创建数据库用户关联登录用户这时候登录王明的账户，数据库会自动映射到数据库用户U1，由U1来进行对数据库的操作。不过，只创建了用户，而用户还没有获得对数据库的操作权力，我们就要对数据库用户进行权力分配有时间的小伙伴可以额外花点时间点击链接了解详细1）设置
C#面向对象程序设计课程实验五：实验名称：C#面向对象技术 - 2
C#面向对象程序设计课程实验五：实验名称：C#面向对象技术实验内容：C#面向对象技术一、实验目的及要求二、实验环境三、实验内容与步骤3.1、实验内容：测试类，实现多态3.2、实验步骤3.2.1、实验程序3.2.2、实验运行结果3.3、实验内容：创建一个Vehicle类，并将它声明为抽象类3.4、实验步骤3.4.1、实验程序3.4.2、实验运行结果四、实验总结实验内容：C#面向对象技术一、实验目的及要求(1)掌握类的继承特性；(2)学会使用C#实现类的继承性;(3)理解类的多态特性;(4)学会使用C#的方法重写；二、实验环境MicrosoftVisualStudio2008三、实验内容与步骤3.
计算机系统实验二——bomblab（炸弹实验） - 2
实验题目bomblab实验目的使用gdb工具反汇编出汇编代码，结合c语言文件找到每个关卡的入口函数。然后分析汇编代码，分析得到每一关的通关密码。进一步加深对linux指令的理解，对gdb调试的一些基本操作以及高级操作有所了解。熟悉汇编程序，懂得如何利用汇编程序写出C语言程序伪代码，熟悉并掌握函数调用过程中的栈帧结构的变化，熟悉汇编程序及其调试方法。实验环境个人PC、Linux32位操作系统、Ubuntu16.04实验内容准备阶段将实验压缩包解压并找到本人所用到的实验文件夹bomb7，复制到linux系统中，打开文件夹得到bomb、bomb.c、README文件；阅读README等实验相关材料，
HDFS+ MapReduce 数据处理与存储实验 - 2
文章目录实验二：HDFS+MapReduce数据处理与存储实验1.实验目的2.实验环境3.实验内容3.1HDFS部分3.1.1上传文件3.1.2下载文件3.1.3显示文件信息3.1.4显示目录信息3.1.5删除文件3.1.6移动文件3.2MapReduce部分3.2.0Mapreduce原理3.2.1合并和去重3.2.1.1编写Merge.java代码3.2.1.2编译执行3.2.2文件的排序3.2.2.1编写Sort.java代码3.2.2.2编译执行4.踩坑记录5.心得体会6.源码附录6.1Merge.java完整代码6.2Sort.java完整代码实验二：HDFS+MapReduce数据
ruby - 是否存在适用于 Ruby 的(实验性)类浏览器？ - 2
是否存在适用于Ruby的(实验性)类浏览器？我说的是类似于大多数Smalltalk实现的类浏览器/编辑器组合(即专注于[运行时]类/对象而不是.rb文件)P.S.:看起来pry已经能够做很多smalltalk风格类浏览器需要的事情了？https://speakerdeck.com/u/rahult/p/pry-an-irb-alternative-on-steroidsP.S.2:看起来SeasideSmalltalk框架有一个webbrowserbasedclassbrowserP.S.3:MagLev/Webtools是我发现的最接近的:P.S.4:显然http://tibleiz
实验——子网划分与路由器配置 - 2
目录实验准备实验内容实验步骤1.规划网络拓扑2.划分IP地址块3.配置路由器及主机接口属性4.配置路由器的接口IP地址5.配置静态路由（a）按照类似的方式，配置标营校区路由器的静态路由如图所示。（b）按照类似的方式，配置中心校区路由器的静态路由如图所示。（c）按照类似的方式，配置双龙街校区路由器的静态路由如图所示。6.测试主机之间的连通性（a）首先，采用ping命令测试任意两台计算机之间的连通性，在位于岔路口校区子网的PC0上向位于双龙街校区子网的PC5发起ping测量，图16显示了测量结果，可见经过在各个路由器上配置静态路由，位于不同子网内的主机之间已经能够正常通信。（b）其次，通过浏览器测