当前,机器学习深陷可解释性、可泛化、稳健性三大瓶颈之中。因果学习则凭借其解决任务的能力,成为一大技术突破口,并催化出了一站式处理因果学习完整流程的开源算法工具包 YLearn。
9 月 3 日,在 2022WAIC AI 开发者日上,九章云极 DataCanvas 开源技术副总裁、D-Lab 主任杨健发表主题演讲《YLearn:因果学习,从预测到决策》。演讲中,他介绍了机器学习技术在当前面临的困境、因果学习算法的能力及 YLearn 因果学习算法工具包。
以下为杨健在 2022WAIC AI 开发者日上的演讲内容,机器之心进行了不改变原意的编辑、整理:大家上午好,接下来我跟大家分享的主题是《YLearn:因果学习,从预测到决策》。这个主题主要有三部分内容,一是机器学习在现实中的困境,二是从预测到决策的实现,三是 YLearn 因果学习算法工具包。当前,人工智能正高速发展,其中最核心的贡献是机器学习,然而机器学习在大量应用过程中出现了瓶颈,主要有以下几方面:一是泛化能力差。根据福布斯的数据,全球能够投入生产的机器学习项目只有 10% 左右,其中绝大部分项目没有投产的最重要原因就是泛化能力不足,导致模型在线上表现不稳定,达不到业务上的要求。这其中也存在多方面的原因,包括训练层面过拟合、欠拟合问题以及数据层面数据质量、数据漂移的问题,但最核心的问题还是来自于机器学习本身的基本原理:观测数据中相关关系的拟合。基于统计上的相关关系其实并不可靠。以下的图表中有两条线,分别是十年期间每年尼古拉斯凯奇拍摄的电影数量和同年在泳池里溺水的人数的数量,从曲线中可以看到非常强的伪相关关系。我们可以训练一个非常准确的模型,但也明显的知道这是伪相关。伪相关是指不具备因果性影响的相关关系,如果机器学习模型里有一些重要的特征存在伪相关,那泛化能力的缺失就一定会成为一个问题。目前,泛化能力不足已经成为人工智能发展的巨大障碍。二是缺乏解释性。当前,机器学习、深度学习在可解释性上面临着巨大的挑战,大部分研究成果还是围绕输入输出的相关关系做解释,没有完全说清楚因果关系的影响,所以可解释性也成为可信 AI 巨大的障碍。三是对决策任务的支持能力不足。仅依靠对未来结果的预测很难提供有效的决策选项,也无法提供不同决策选项对未来结果可能产生的影响。实际上,从预测到决策还存在着巨大的差距。随着数字化转型的不断深入,企业并不满足于解决预测性任务,目前他们面临的是智能决策等更复杂的认知层面问题。典型的预测任务包括预测某个产品未来的销量、未来有哪些用户有流失风险,有哪些客户可能会购买我的理财产品等,目前的机器学习算法已经能很好地完成这类任务。决策问题则有一个明显的特点,就是更强调如何干预能够实现预期结果。比如,如何设定产品价格能够获得最高的销量、如何干预可以有效挽留有流失风险的用户、如何针对不同用户应该选择促销策略以提高购买转化率,这些都是典型的决策性任务。商业智能分为几个阶段:从最基础的描述性分析、诊断性分析,告诉我们过去曾发生了什么;再上一个台阶到预测性分析,告诉我们未来有可能会发生什么,现在的机器学习算法主要还是停留在这个阶段的任务;再上一个台阶是指导性分析,告诉企业如果想实现一个目标应该怎么去做。数字化转型核心解决的是人在决策链条里的参与度,实现通过数据来驱动智能化的决策。当前来看,机器学习在决策性任务上还不能独立满足我们的需求。2011 年图灵奖得主 Judea Pearl 在他的《The book of Why》一书中,提出了因果的概念,并将之自上而下分为三个层次:关联、干预和反事实,层级越高,对认知水平和能力的要求就会越高。干预和反事实这两个层级的问题解决,高度依赖于因果学习算法的支持,也是企业解决从预测到决策这一类任务,必须具有的认知水平能力。同时,因果学习带来的内生解释性、模型的稳定性、可信性、公平性、异分布样本中的泛化能力以及对事物底层基础逻辑的深刻洞察,必然会成为解决智能决策这一类问题的重要技术工具。机器学习解决分类、回归、预测等任务,那么因果学习能解决五个方面任务:一是因果发现。利用对数据的搜集挖掘,因果学习可以发现变量之间的因果关系,进而构建有效的因果结构,因果结构是解决因果学习其他任务的基础前提。二是因果量的识别。假设一个因果结构之间存在因果关系,那么因果学习可以帮助验证这个假设是否成立,同时把因果量转化为统计量。三是因果效应评估。基于前两个任务的结果,因果学习可以实现评估一个或多个干预变量和结果变量之间的量化影响,包括从整体上、不同的群体上,甚至于个体上。四是反事实推断,这是刚刚提到的因果学习的最高层级。当前世界没有办法观测到反事实结果,目前是通过反事实推断算法,尽可能准确地度量反事实状况下有可能产生的结果,这也是决策优化的一个重要工具。五是策略学习,通常这是一个优化问题。基于前面建模的结果,策略学习能够进一步为特定目标提供决策选项以及定量分析的数据依据,最后帮助我们全局选择出最优的策略。实际上,这五类任务有承上启下的相互依赖关系。因此,因果学习的算法工具需要全流程、完整且端到端地解决所有问题,才能高效地为决策问题完成建模。现在开源社区里面比较常见的开源工具,包括不具备解决因果识别和反事实推断能力的 Dowhy 和 EconML,用来完成 uplift 建模的 CausalML 以及专注解决因果发现问题 CausalLearn 等,这些工具均不能独立地解决所有问题。如果想不同的工具包融合使用,基于一些理论框架和结构上的差异,可能会带来手工适配的成本,使用门槛较高的问题,这也是我们开发 YLearn 的初衷之一。目前,YLearn 是现有开源工具中,唯一能够独立完成端到端、全流程地解决 “因果发现、因果量识别、因果效应估计、反事实推断和策略学习” 五个因果学习任务的工具。现在,YLearn 有六大模块,集成了因果领域里最新的、最先进的算法,每个算法可以单独被调用;同时,YLearn 提供了一个高层级的 API,可以降低整个工具的使用门槛,这也是 YLearn 的一个特点。YLearn 在 GitHub 上的链接地址是:https://github.com/DataCanvasIO/YLearn。希望大家多多关注和支持 YLearn 项目,和我们一起推动迭代 YLearn 的发展,帮助企业能够更高效、更低门槛地实现从预测到决策的升级。