Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

第四范式陈雨强:企业智能决策的下一代技术「强化学习 + 环境学习」

过去数年,以强化学习为代表的决策智能技术战胜人类玩家的新闻屡屡进入人们的视野,直观地展示了这种技术赋予 AI 的强大智能。同时,业界也开始思考,该技术能否像之前的机器学习深度学习一样,应用到更加广泛的行业领域?


在 2022 北京智源大会「强化学习与决策智能专题论坛」上,第四范式联合创始人、首席研究科学家陈雨强发表了主题为「智能决策技术在企业智能化转型中的实践应用」的演讲。他从决策的本质出发,介绍了强化学习通过环境学习发挥产业应用的价值,并介绍这两项技术在产业界的应用实践。

机器之心对陈雨强的演讲内容进行了不改变原意的整理。

中国人工智能产业化发展的历程大体分为三个阶段。

第一阶段,在 2010 年前后,随着数据量增长、算力增强以及算法提升,人工智能开始帮助互联网实现很大的飞跃。其中,受益最显著的领域要属搜索、广告和推荐(搜广推)。

第二阶段,2015 年以后,随着 AlphaGo 的出现,人工智能被认为是一个改变生产力的新技术,开始试水除互联网之外的其他一些行业,比如智慧金融、智慧零售、智慧安防和智慧医疗。

如今到了第三阶段,AI 已经不仅局限在个别行业领域,而是走向了赋能千行百业的道路上,产业互联网迎来了爆发期。产业互联网带来的 GDP 增量连年上升,并且企业生产和 IOT 数据呈现爆炸式增长,远未见顶。

图片

信息化面对高度不确定性的不足催生决策智能化

产业互联网服务于工业、制造业及其他各行各业。以工业生产为例,在过去传统的工业化生产的过程中,不管是外部环境、供求关系、生产计划等,都相对标准化,转型更多做的是信息化转型,尤其是流程的信息化和生产资料的信息化,从而优化管理,提升效率。

但是,面对当下高度不确定性的乌卡时代,外部环境与消费者需求高度变化,产品也高度多样化。面向大量的不断变化问题,固定流程已经没法保证效率与产能,因此单纯的信息化已经无法形成有效的决策与安排

图片

另外,我们发现若使用人工智能解决这类问题,过去广泛应用在互联网核心场景的技术并不是解法的全部。

例如在供应链场景中,最核心的是要保证现货率与库存周转,但背后包含了销量预测、从哪发货、货发多少、如何配送等一系列问题。又例如在制造领域的生产环节中,工厂的核心目标是在需要保障生产安全合规的前提下,针对动态增加的订单合理的排产来提高产线效率、产能,提高机器综合利用率。在产品研发的环节中,需要决定生产什么类型的产品更受消费者欢迎。这些已经不仅是对未来的预测,而是当下该如何行动才能达成未来的预测结果。

同时,不断变化也给技术本身带来了巨大的挑战。这些决策场景往往面对的是大规模连续实时精准问题,更加关注长期回报,而非单次结果;场景的环境在时刻变化,每一次输出的结果可能会改变场景环境本身,比如交通场景中,单车的遵守或违背规则的决策会直接影响交通环境,改变整体环境的状态;在复杂多变的环境和众多的影响因素下,部分场景还需要实时输出决策结果

决策智能的关键:在动态环境中持续、快速找到最优决策

决策智能技术是解决这类复杂问题的关键,其核心是通过技术手段利用机器模拟人的决策思维方式。美国知名专家 John Boyd 曾提出了 OODA Loop 决策周期理论,被广泛用于概括企业的决策闭环,分别是 Observe(观察)、Orient(判断)、Decide(决策)和 Act(行动)。四个环节构成相互关联、相互重叠的循环周期。

图片

首先对企业进行全面 “观察”,为决策提供充足信息依据;然后在观察的基础上,精准“判断” 所处现状及未来发展,为决策提供参考结论;接着根据当前现状和对未来的预判,制定较优 “决策” 方案,走好整个决策流程的关键一步;最后基于前三步的成果采取相应“行动”。这一循环反复迭代,持续迭代决策结果。

其中,在整个决策周期中,能否理想地完成观察、判断和决策环节,决定了业务决策的整体质量和效果。

在没有人工智能的时代,企业主要以人为中心进行决策。不过人的计算能力是有限的,没有办法做到事无巨细的观察,获得的信息也不是最全面准确的,只能通过抓大放小的方式做出有限理性的判断和决策。同时,这种决策趋向于整体的决策,无法做到非常细节。庞大的企业组织还会带来决策效率等问题。

此前,也有诸如数字孪生、模拟仿真和运筹学等技术来辅助人做决策。

数字孪生利用传感器、业务系统收集的数据,打造一个反映物理世界全生命周期的数字化系统。该技术的核心价值是帮助企业更及时、细致的观察业务发展,即实现了 OODA 的第一步——观察。

传统的仿真技术的核心是专家通过手工模拟器仿真模拟人的判断,即 OODA 第二步—判断。

运筹学则是通过数学模型模拟人的决策过程,即 OODA 的第三步——决策。由于该技术通常可以给出理论最优解,被应用于各类决策场景中。

可以看出,这些技术实现了 OODA Loop 的部分环节,取得了一定的效果。然而在业务场景复杂化以及经营环境快速变化的当下,这些将 “将复杂问题简化求解”、“决策结果相对滞后” 的技术思路已无法有效地在动态环境下实时做出最优决策。

强化学习 + 环境学习:高效产出最优决策

强化学习是解决复杂化、精细化决策非常合适的方法。核心是通过智能体与决策环境不断地交互,形成反馈,在动态环境中不断试错找到最优决策的方法。过去,强化学习技术已经在围棋和电竞游戏领域得到了验证,如典型的 AlphaGo 和 AlphaStar

相比于人和传统决策技术,强化学习更适合解决复杂实际决策问题。首先,得益于深度学习技术的发展,深度强化学习借助深度学习,使得决策策略可以融合复杂场景中的大量因素;其次,结合功劳分配(Credit Assignment)考虑连续决策的长期影响;同时依靠计算机强大的计算能力,提供大量精细化决策,并依靠分层强化学习技术,实现不同决策层级的自主决策。

但是问题在于,强化学习所需要的数据量往往是比深度学习大两到三个量级,如果真正把强化学习直接应用到现实中,企业往往无法承受获得数据的成本,以及试错的代价。

比如直接在真实的路况中使用强化学习来实现无人驾驶可能造成大量人员伤亡;或者在生产环节中直接应用有可能造成产品报废、产线异常甚至生产安全事故,这种结果是不可逆的。由于当前强化学习技术极低的样本利用效率,企业难以支撑强化学习大规模的试错成本与代价,这也是过去强化学习在游戏或固定边界中运用较好但在现实中无法广泛应用的原因所在。

环境学习技术的出现正好解决了强化学习技术落地成本高、不可逆等业界难题。

图片

具体来讲,环境学习综合了专家知识、机理模型和数据驱动的机器学习能力,能够构建更为精准的虚拟环境,因此可以为决策提供更加精准的预判,定量推演在不同决策情况下的业务发展。同时,构建的虚拟环境可以帮助强化学习做低成本试错和策略迭代,加速了强化学习的产业应用进程

基于强化学习和环境学习的智能决策技术,能够充分发挥机器的优势,实现数据驱动的定量决策,在实时决策的同时,快速跟上业务及环境的变化,做到面面俱到的「机器理性」。同时也弥补了数字孪生、仿真模拟的缺陷,打通 OODA 闭环,让 AI 技术能够在供应链、产品研发、派工排产、精准营销等复杂场景中做出更好的决策效果。

图片

新一代自主决策方案加速决策智能产业落地

供应链是决策智能的典型应用场景之一。以供应链优化中的智能补货场景为例,业务的核心目标是通过销量预测进行供应链补货。传统方案会根据专家经验进行滑动销量预测,然后根据预测结果制定调拨计划。但当面临 618 等促销活动,或者某地区突发疫情导致的商品需求激增时,需要尽早预判并快速调拨货物。

第四范式采用了如下模式:利用自动机器学习(AutoML)做销量预测,同时用自动强化学习 + 自动环境学习做策略优化(库存计划 / 补退货 / 库存)

图片

传统销量预测方案不能预测大单量和机会损失量,预测销量也与实际销量偏差较大。同时,模型效果依赖于大量的特征工程,缺少归因分析和领域知识。第四范式基于 AutoML 的销量预测方案结合了历史销量、商品数据、时间数据、节日数据、地理数据、天气数据和促销数据等诸多因素,以更优的预测模型辅助实现更智能的决策。

图片

在此基础上,利用环境学习搭建模拟器去模拟现有库存率和现货率。该方案具备数据友好、模型保持高保真度、高灵活度、利于传统机理模型结合等优势。

图片

相较于传统决策方案(即补货结果 = 预测销量 + 安全库存﹣当前库存),基于强化学习 + 环境学习的决策方案能够实现最优且动态的自主决策,且效果有较大提升。

图片

来伊份基于自主决策方案构建了智能供应链体系,完成了从顶层的订单履约达成率和库存周转分解到销售预测、商品定价、库存管理、物流配送能力等完整的供应链业务数据化,实现了计划与调度方案可根据不同的业务环境自动输出决策结果,保证了供应链数据透明、可试算、可追溯,计划与执行结果可评估、可分析,同时实现业务的可视、可控、可优化。

最终,智能供应链实现了 38 万长尾商品系统智能补货,约 3000 个门店系统自动补货调拨;销售预测准确率提升 1 倍;销售现货率达到 95% 以上 ;全渠道的盘货管理预计可节约 20 万人时 / 每年人效 ,节约库存资金数亿元。

随着技术的发展和演进,智能决策技术正在成为传统企业数字化转型中不可或缺的核心技术,也加快了产业互联网进程。我们也希望能有更多优秀的企业、人才关注决策智能领域,共同推动技术产业化落地与发展。
产业第四范式
相关数据
第四范式机构

第四范式成立于2014年9月,是企业人工智能的行业先驱者与领导者,中国以平台为中心的决策型AI市场的最大参与者。公司以“AI决策,企业转型新范式”为品牌理念,提供端到端的企业级人工智能解决方案,使企业实现人工智能快速规模化落地,发掘数据隐含规律,全面提升企业的决策能力。公司服务的行业包括但不限于金融、零售、制造、能源电力、电信及医疗。第四范式的产品旨在为企业提供端到端的人工智能解决方案,满足企业在AI建设过程中对应用、平台和基础设施的需求,让企业可以轻松构建量身定制的人工智能系统,将机器学习、应用、决策和评估的流程自动化,有着快速简易建模、提供低代码或无代码开发环境等特点。此外,第四范式还能为用户提供支撑人工智能应用运行的基础设施,即第四范式企业级软件定义算力平台。

https://www.4paradigm.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

策略迭代技术

策略迭代算法直接操纵策略,而不是通过最优值函数间接找到策略。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

分层强化学习技术

分层强化学习是强化学习领域中的一个分支。传统强化学习通过与环境的交互,进行试错(trial-and-error),从而不断优化策略(policy)。但是强化学习的一个重要不足就是维数灾难 (curse of dimensionality),当系统状态(state)的维度增加时,需要训练的参数数量会随之进行指数增长,这会消耗大量的计算和存储资源。 分层强化学习将复杂问题分解成若干子问题(sub-problem),通过分而治之(divide and conquer)的方法,逐个解决子问题从而最终解决一个复杂问题。这里的子问题分解有两种方法:①所有的子问题都是共同解决被分解的任务(share tasks);②不断把前一个子问题的结果加入到下一个子问题解决方案中(reuse tasks)。分层强化学习核心思想是通过算法结构设计对策略(policy)和价值函数(value function)施加各种限制(constraints),或者使用本身就可以开发这种限制的算法。

运筹学技术

运筹学,是一门应用数学学科,利用统计学和数学模型等方法,去寻找复杂问题中的最佳或近似最佳的解答。运筹学经常用于解决现实生活中的复杂问题,特别是改善或优化现有系统的效率。研究运筹学的基础知识包括矩阵论和离散数学,在应用方面多与仓储、物流等领域相关。因此运筹学与应用数学、工业工程专业密切相关。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

数字孪生技术

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~