Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Michael Armanious作者阿笛校对欧阳锦翻译

为什么要尝试A/B测试的贝叶斯方法(附链接)

本文通过一个A/B测试的实例,介绍了贝叶斯方法的各种优点和具体的实现方法,同时也将贝叶斯推断方法与传统的频率推断估计进行了对比。

本文以一种直观的方式介绍了A/B测试、贝叶斯方法的优点以及它的具体实现方法。

“批判性思维是一个活跃而持续不断的过程。它要求我们所有人都像贝叶斯主义者那样思考,随着新信息的到来更新我们的知识。”

—— Daniel J. Levitin,说谎的实地指南:信息时代的批判性思维

绪论

在深入研究使用贝叶斯估计方法之前,我们需要了解一些概念。这些概念包括:

  • 推论统计
  • 贝叶斯主义者与频率主义者
  • A / B测试
  • 概率分布

推论统计是什么?

推论统计是指根据人口总体样本推断某个总体人口的某些信息,而不是描述整个人口总体的描述性统计信息。

当涉及推理统计时,主要有两种哲学:频率推断和贝叶斯推断。众所周知,频率推断方法是更传统的统计推断方法,因此在大多数统计课程(尤其是入门课程)中都进行了更多的研究。然而,许多人认为贝叶斯方法更接近于人类自然地认识概率的方式。

贝叶斯方法包含了根据新证据去改变一个人的想法。例如,你去看医生是因为你感觉不适,并且认为自己患有某种疾病。几个医生对你进行检查,他们对你的症状都有不同的看法。这些被称为先验想法(先验概率)。经过检查后,他们会对你进行血液检查。根据测试,他们排除了最初预期的某些可能的疾病,并根据结果更新了自己的想法。这种新的想法称为后验想法(后验概率)。

贝叶斯方法:

1. 探索观察到的数据。

2. 选择一个概率分布来表示数据。这成为了你的似然函数

3. 考虑你对似然函数参数的主观想法去选择一个先验分布。

4. 通过使用贝叶斯方法使用后验数据更新先验分布,以获得后验分布。后验分布是一种概率分布,它描述了观察数据后你对参数的更新想法。

我知道这里有很多专业术语,但我会尽力解释例子中的所有内容。

在什么情况下贝叶斯方法是更好的?

随着证据实例的数量接近无穷大(即样本量越大),贝叶斯结果与频率推断方法结果越一致。随着证据实例的数量变少(即样本量越小),推断就变得越不稳定。这导致频率估计具有更大的方差,从而导致更大的置信区间。但是,由于贝叶斯方法涉及合并先验概率和回归概率,因此我们可以保留不确定性。先验越合适,结果的偏差就越小。而且,频率推断估计经常导致不收敛、不可接受的参数解和不准确的估计。另外,频率推断方法假设概率是事件的长期发生频率,因此依赖于渐近理论[1]。

如前所述,贝叶斯学说接近于人类的思维方式,这意味着推理可以更容易解释。我们将通过A/B测试示例来证明贝叶斯方法的直观性。

AB 测试 —作者: Seobility —证书: CC BY-SA 4.0

A / B测试示例

A / B测试是一种广泛使用的研究方法,用于比较单一变量的两个变体(A和B)并找出差异。它有许多应用,但是最常用于比较网站、应用程序的布局。频率推断方法通过计算Z值,p值等其他值进行假设检验

在此示例中,我们将对受欢迎的移动益智游戏Cookie Cats进行A/B测试。你可以在此处(https://www.kaggle.com/yufengsui/mobile-games-ab-testing)找到数据集。在此游戏中,玩家会进入关卡,有时他们到达闸门,这使得玩家等待一定时间或进行应用内购买项目。该应用程序的创建者希望根据闸门的两个不同位置查看用户的保留率:第30级闸门和第40级闸门。

游戏截屏

通过绘制数据(数据已经被清洗)并查看响应变量的分布图来开始我们的分析。我们有两个响应变量,我们将分别对它们进行分析。响应变量分别是是1天和7天的保留率。当用户变量A玩了30轮或更多轮游戏时,1天保留时间为True,否则为False。对于变量B,当用户玩了40轮或更多轮游戏时,1天保留时间为True,否则为False。这种保留可能性可以表示为伯努利分布,可以将其视为返回布尔值(是或否)的任何单个试验的可能结果集的分布。

现在开始选择先验分布

选择你先验分布可能很棘手。通常,样本量越小,你应该获得的先验分布信息越丰富,从而得到更准确的结果。例如,如果你的样本量很大,则可以选择信息量较弱的先验分布,从而获得与选择信息量较大的先验分布相似的结果。

可以选择不同类型的先验概率

  • 在你有确凿证据时,信息先验可以表达有关变量的明确信息。共轭先验与后验分布具有相同的概率分布族,它们也可作为信息先验[2]。
  • 弱信息先验表示了有关变量的部分信息,并用于将推理保持在合理的范围内(将其视为防止过度拟合的原因)。
  • 非信息先验表达了关于变量的模糊信息,并且会增加欠拟合的可能性。

应该根据现有证据的级别选择这些先验条件。这是非常直观的,因为通常,你拥有的证据越多,对初始假设的依赖就越少。

1. 获取变量的样本大小。

2. 然后,我们需要获取每个变体的观察值;它存储为0和1的数组。

3. 假设两个变量的保留率的真实概率。你的先验知识越强,信息量越大,你对假设的依赖就越少。后验主要由证据决定,而不是任何原始假设,前提是原始假设承认证据暗示的可能性。在此示例中,我使用了不太可能是真实概率的值(因为它们与样本均值不同)。

4. 使用pyMC3(https://docs.pymc.io/)创建一个模型,并假设不同变量的先验分布(这些先验分布可以彼此不同)。 在此示例中,我们使用Beta分布作为先验,因为它是伯努利和二项式似然函数的共轭先验。Beta分布的参数越大,你应该越有信心。参数是成功和失败。可以使用的弱信息先验的一个例子是具有参数[0,1]的均匀分布。你可以对两者进行测试,并发现最终结果大致相同,因为我们有较大的样本量。

5. 定义确定性增量函数。这是未知的兴趣。

6. 用各自的先验分布定义两个变量的似然函数作为参数

7. 使用MCMC算法对20,000次(或任意数量)迭代进行采样,并丢弃前1000次迭代,因为这些迭代通常与我们感兴趣的最终分布无关。

结果

在图中,我们可以看到变量的后验分布和变量的差异。分布越宽,我们对p(A)和p(B)的真实值的把握就越小。真实变量的不确定性与样本量的大小成正比。使用贝叶斯方法的好处是现在我们可以量化不确定性了。此外,我们可以看到,delta后验分布的大部分都在delta = 0以上,这意味着变量A可能比变量B更好。

我们还可以计算变量的相对性能并绘制它们。在该图中,你可以从变量A中看出可能有1%-3%的改善。

结论

使用贝叶斯方法进行A / B测试有很多原因。但是,“没有免费的午餐”。这句话适用于所有事物。很棒的是你可以将两种方法都应用于A / B测试,并查看它们的比较方式以及每种方法的可解释性。

贝叶斯方法的优点是:

  • 样本数量无关紧要
  • 量化不确定性
  • 它非常直观,可以很容易解释
  • 没有无用的p值或Z值
  • 很自然

免责声明:实际上,我对贝叶斯估计并不陌生,可惜的是,我大部分都是以传统方式学习的。

https://github.com/michaelarman/Bayesian_A-B_testing

引用

Davidson-Pilon, C. (2016). Bayesian methods for hackers: Probabilistic programming and bayesian inference.

Sanne C. Smid, Daniel McNeish, Milica Miočević & Rens van de Schoot (2020) Bayesian Versus Frequentist Estimation for Structural Equation Models in Small Sample Contexts: A Systematic Review, Structural Equation Modeling: A Multidisciplinary Journal, 27:1, 131–161, DOI: 10.1080/10705511.2019.1577140 [1]

Gutierrez-pena, Eduardo, and Pietro Muliere. “Conjugate Priors Represent Strong Pre-Experimental Assumptions.” Blackwell PublishingLtd, 9600 Garsington Road, Oxford OX4 2DQ, UK, 2004.[2]

原文标题:

Why you should try the Bayesian approach of A/B testing

原文链接:

https://towardsdatascience.com/why-you-should-try-the-bayesian-approach-of-a-b-testing-38b8079ea33a

编辑:王菁

校对:龚力

译者简介

欧阳锦,我是一名即将去埃因霍芬理工大学继续攻读数据科学专业的硕士生。本科毕业于华北电力大学,自己喜欢的科研方向是隐私安全中的数据科学算法。有很多爱好和兴趣(摄影、运动、音乐),对生活中的事情充满兴趣,是个热爱钻研、开朗乐观的人。为了更好地学习自己喜欢的专业领域,希望能够接触到更多相关的事物以开拓自己的眼界和思路。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论A/B测试贝叶斯统计机器学习
3
相关数据
欠拟合技术

使用太少参数,以致于不能很好的拟合数据,称为拟合不足(欠拟合)现象

先验概率技术

在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑"观测数据"前,能表达p不确定性的概率分布。 它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。 这个不确定量可以是一个参数,或者是一个隐含变量(英语:latent variable)。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

贝叶斯推断技术

贝叶斯推断(英语:Bayesian inference)是推论统计的一种方法。这种方法使用贝叶斯定理,在有更多证据及信息时,更新特定假设的概率。贝叶斯推断是统计学(特别是数理统计学)中很重要的技巧之一。贝叶斯更新(Bayesian updating)在序列分析中格外的重要。贝叶斯推断应用在许多的领域中,包括科学、工程学、哲学、医学、体育运动、法律等。在决策论的哲学中,贝叶斯推断和主观概率有密切关系,常常称为贝叶斯概率。

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

假设检验技术

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

似然函数技术

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“ 似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~