Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟 张倩编辑

Salesforce开发「AI经济学家」,用强化学习设计税收策略

用强化学习设计税收策略,效果如何?

Salesforce 作为一家颠覆软件定义的公司,开创了 SaaS、PaaS 的时代。它的创始人 Marc Benioff 给 Salesforce 的市场定位是:「软件终结者」。

人们对于企业软件的刻板印象一般是笨重、无聊和缓慢,但 Salesforce 的企业软件却用其在科技上的创新造就了一个市值巨大的公司。

一向以创新著称的 Salesforce,这一次把目光聚焦在了经济上。

经济不平等正在全球范围内愈演愈烈,并且因其对经济机会、健康和社会福利的负面影响而备受瞩目。对于政府来说,税收是一项减轻经济不平等的重要工具,但如何在减轻经济不平等的同时保证生产率仍是一个待解决的问题。为此,Salesforce 提出了一项名为「The AI Economist」的新研究。该研究首次将强化学习(RL)引入税收政策设计,以提供纯粹的模拟和数据驱动解决方案。

The AI Economist 使用两级 RL 框架(智能体和税收政策)来学习有理论基础的经济模拟中的动态税收政策。该框架不使用先验世界知识或建模假设,能够直接针对任何社会经济目标进行优化,并且仅从可观察的数据中学习。

实验表明,与 Emmanuel Saez 提出的税收框架相比,the AI Economist 可以将经济平等与生产率之间的权衡提高 16%。

此外,the AI Economist 在有人类参与的模拟中非常有效,除了在经济平等-生产率的权衡方面优于基线之外,还能显著提高收入加权(income-weighted)的平均社会福利。这表明,该方法有望改进实体经济的社会成果。

Salesforce 的开发者希望 the AI Economist 能够以传统经济研究无法轻易处理的复杂性水平,针对政策对现实世界经济的影响进行客观研究。

目前,Salesforce 已将 the AI Economist 这个项目在 GitHub 上开源。

项目地址:https://github.com/salesforce/ai-economist

开发者希望:
  • AI 研究者能为 the AI Economist 项目代码提出更多改进的意见;

  • 经济社区的研究者为该项目贡献专业知识,以开发丰富的经济模拟、评估 AI 策略以及探索 AI 如何进一步解决更为复杂的经济问题;

  • 政策专家能够对此项目作出指导,并指出他们想用 the AI Economist 框架解决哪些经济问题。

以下是该研究的详细内容。

The AI Economist

应对现实世界中的社会经济挑战,需要设计和测试经济政策。但是,由于缺乏适当的经济数据和进行实验的机会,在实践中很难做到这一点。而在 the AI Economist 中,研究者训练了社会计划者(social planner)模型,用以发掘能够在经济平等和生产率之间高效寻找平衡点的税收策略。开发者基于智能体和政府都可以学习和适应的经济模拟,提出了一种两级深度强化学习方法来学习动态税收策略。但 the AI Economist 的数据驱动方法未利用经济建模假设,仅从观测数据中学习。

论文链接:https://arxiv.org/abs/2004.13332

the AI Economist 主要有四点贡献:

首先,研究者提出了一个具有竞争压力和市场动态的经济模拟环境。他们通过证明基准税收系统与经济理论相一致验证了模拟的有效性,包括学得的智能体行为和专业。

其次,该研究表明,由 AI 驱动的税收政策与包括著名的 Saez 税收框架在内的基线政策相比,将平等与生产率之间的平衡提高了 16%。

第三,研究者展示了几个新出现的特征:AI 驱动的税收政策在质量上与基线不同,设置了较高的最高税率和较高的低收入净补贴。此外,针对 AI 代理商学到的新兴税收博弈策略,AI 驱动的税收政策表现出色。

第四,AI 驱动的税收政策在与人类参与者进行的实验中使用时,也很有效。在 MTurk 上进行的实验中,AI 税收政策提供了与 Saez 框架相似的平等 - 生产率权衡。同时具有较高的反收入加权社会福利。

The AI Economist 的应用创新

人工智能为复杂的经济优化问题提供了强大的算法和计算解决方案。因此,研究者开发了一种经济策略设计方法。该方法运用强化学习和经济模拟方法,以数据驱动的方式快速设计和评估新的经济策略。

研究者在论文中介绍了通过 AI 智能体进行模拟来研究经济设计的框架。文中描述了模拟环境的核心机制,包括训练 AI 智能体进行优化的目标,并介绍了在这种情况下典型的经济 AI 智能体的突现行为(emergent behavior)。

该研究中使用的一般网络架构的示意图。

如上图所示,空间观察(spatial observations)由两个卷积层(CNN)的栈来处理,并被「压平」为固定长度的特征向量。该特征向量与其他观察输入连接在一起,结果由两个全连接层(MLP)的栈来处理。接下来,输出被用于更新 LSTM 的隐藏状态,动作 logit 通过更新后的隐藏状态的线性投影来计算。最后,网络计算每个动作头的 softmax 概率层。

对于智能体策略,只有一个操作空间和操作头。对于税收策略,每种税率都有一个单独的动作空间和动作头。

该研究中引入的社会计划者(social planner),使用经济政策来改善社会成果,尤其是在税收和再分配两方面。这一问题的难点在于税收会降低生产率。工作者可能会因为对收入缴税而选择放弃劳动,从而减少了劳动的效用。这可能会对技能更高的工作者产生更高的影响。

因此,在经济平等与生产力之间需要权衡:允许财富重新分配的相同干预措施也首先导致重新分配的财富减少。由于税收和劳动力之间存在这种耦合关系,确定最佳税收政策会带来困难且受约束的优化问题。

研究者在论文中详细描述了 the AI Economist 学到的税收策略的类型,定义了可以采用的社会目标的类型,并描述了如何使用强化学习共同优化智能体行为和经济中使用的税收策略。

借助 AI 智能体提升社会成果

研究者将 the AI Economist 的经济成果与自由市场(不征税或再分配)、模拟的美国联邦税收计划以及由 Saez 框架产生的税收策略进行了比较。

对下图中的 4 种情况,研究者都用强化学习来优化经济 AI 智能体的行为,结果如下图所示。

总体经济成果比较结果。

如上图所示,the AI Economist 相比于基线模型显著提高了平等 - 生产率权衡。所有基线模型均已收敛。

含有人类参与者的社会成果

此外,研究者还探讨了 AI 学习的税收策略能否在有人类参与(人可以赚钱)的经济模拟中提高社会成果。为此,开发者在 Amazon Mechanical Turk(MTurk)平台上进行了实验,参与者来自美国。

研究发现,the AI Economist 的税收策略可以在无需进行大量重新校准或微调的情况下扩展到有人类参与的模拟。与最强的基线(Saez 的税收策略)相比,the AI Economist 实现了具有竞争力的经济平等 - 生产率权衡,并获得了更高的收入加权的社会福利。

伦理与道德规范

经济模拟可以研究各种经济诱因及其后果,包括利益相关者的资本主义模型。但本研究中使用的模拟不是实际可用于重新配置税收政策的实际工具。研究者鼓励任何使用 the AI Economist 的人发布描述经过训练的 AI 驱动的税收模型的道德考量的模型卡片和数据表,以提高透明度。

此外,研究者认为未来任何基于经济模拟的应用程序或策略都应以可查的代码为基础,并具有完全的透明度。

参考链接:
https://t.co/PxB3K44MCn?amp=1
https://t.co/XdLwBsYYCq?amp=1
https://t.co/FtYFXNpU0g?amp=1

工程Salesforce经济强化学习
1
暂无评论
暂无评论~