Aishwarya Srinivasan作者王雨桐校对Cream翻译

一文了解强化学习的商业应用

DeepMind开发的AlphaGo(用于下围棋的AI系统)的出现引起了强化学习的热潮。从那之后,许多公司开始投入大量的时间、精力来研究强化学习。目前,强化学习深度学习领域中的热点问题之一。大多数企业都在努力寻找强化学习的应用实例或者将其应用在商业中的方法。目前来说,此类研究只在零风险、可观测并且易模拟的领域展开。所以,类似金融业、健康行业、保险业、科技咨询公司这样的行业不愿冒险去探索强化学习的应用。此外,强化学习中的“风险管理”部分给研究带来了很大压力。Coursera的创始人Andrew Ng曾表示:“强化学习机器学习中,对数据的依赖远超过有监督学习。我们很难获得足够多的数据来应用强化学习算法。因此,将强化学习应用到商业实践中仍有许多工作要完成。”

基于这样有些悲观的想法,本文的第1部分将从技术层面深入地探讨强化学习。在第2部分,我们将介绍一些潜在的商业应用。基本上,强化学习是一种复杂的算法,用于将观察到的实际情况和度量(累计奖励)映射到动作集合中,以实现短期或长期的奖励最优化。强化学习的智能体(agent)通过和环境的互动不断学习策略,策略一个动作(以奖励为导向的)序列。事实上,强化学习关注的是即时奖励和随后步骤的奖励(延迟的奖励),因为奖励值是决定智能体改变策略的主要依据。

强化学习的模型包含一个智能体(agent),该智能体在每个环境状态下,通过执行一个动作,改变其状态,这个动作产生的影响用奖励函数来表示。该智能体的目标是要实现长期累计的奖励最大化,在每一个动作执行后,将反馈传递给智能体,智能体可以评估在当前环境最优的下一个动作。通过历史相似情况下的最佳行动,系统会从中学习经验。

图 1 强化学习模型

从数学的角度,我们可以把强化学习看作一个状态模型,特别是一个完全可观测的马尔可夫决策过程(MDP)。为了理解MDP背后的概率理论,我们首先要了解马尔可夫的性质,如下:

“未来只依赖于当前,与过去无关。”

此性质用于这样的环境:不同行为产生的结果的概率与历史状态无关,只依赖于当前状态。有人用“无记忆性”来描述这个性质。在需要用过去状态来推测未来结果的情形下,马尔可夫性质不适用。

这个模型的环境是有限的随机过程,输入智能体的动作,以产生的奖励为输出。总奖励函数(长期累积奖励函数)包含即时奖励和长期折扣的奖励两部分。即时奖励是在智能体执行了一个动作到达某种状态所得到的量化的奖励。长期折扣奖励表示的是这个动作对未来状态的影响。

长期折扣奖励采用折扣因子γ,0<γ<1。折扣因子越大,这个系统越倾向于长期奖励;折扣因子越小,这个系统倾向于即时奖励。Χt表示t时刻的状态,At表示t时刻智能体的动作。

状态转移概率函数:智能体在当前状态Χt-1,执行动作A,产生的状态之间的转移概率:

智能体是模拟为一个随机过程的有限状态的机器,输入当前状态,输出下一步执行的动作。St是t时刻的状态,是t-1时刻执行了At动作后达到的状态。At是在长期累计奖励最大化的策略模型下t时刻的策略。

状态转换函数:智能体向一个状态的转变是与环境互动的结果。也就是说智能体某一时刻的状态是关于上一时刻状态、奖励、动作的函数。

策略函数:策略是在状态St下,以奖励最优化为目标,要执行的动作。

智能体的目标是找到满足长期累计折扣奖励最大化的策略Ppi

智能体在马尔可夫决策过程中试图从当前状态出发,获得最大的总奖励期望。因此,需要得到最优值函数。Bellman方程用于值函数,分解为当前奖励和下一个状态值的贴现值。

希望你们能够从本文中获得关于强化学习的技术知识!!

原文标题:

Reinforcement Learning: The Business Use Case, Part 1

原文链接:

https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.html

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门机器学习深度学习AlphaGo模型应用强化学习
52
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

随机过程技术

在概率论概念中,随机过程是随机变量的集合。若一随机系统的样本点是随机函数,则称此函数为样本函数,这一随机系统全部样本函数的集合是一个随机过程。实际应用中,样本函数的一般定义在时间域或者空间域。随机过程的实例如股票和汇率的波动、语音信号、视频信号、体温的变化,反对法随机运动如布朗运动、随机徘徊等等。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

马尔可夫性质技术

马尔可夫性质(Markov property)是概率论中的一个概念,因俄国数学家安德烈·马尔可夫得名。其含义是,当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。马尔可夫假设(Markov assumption)则是用来假设描述一个模型具有马尔可夫性质,比如隐马尔可夫模型。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
棒谷科技・数据分析师
商业应用在哪?
可能没找到,哈哈