郑丽慧整理

Sutton老爷子经典之作,《强化学习》中文第2版

作为强化学习领域的经典导论性教材,第 2 版《强化学习》中文版从强化学习基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

强化学习教父 Richard Sutton 的经典教材《Reinforcement Learning:An Introduction》出版的 20 年以来,在机器学习 (包括强化学习) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。

去年,《Reinforcement Learning:An Introduction》第 2 版完成了,这本书的中文版本近日也已在京东平台上架。该书分为三大部分,共十七章,机器之心对其内容和框架做了简要介绍,并为强化学习爱好者们送出 20 本作为读者福利(见文末)。

当然读者们也可以看看 Sutton 原版的书籍主页,它包含了 PDF、课程代码和资料等众多开放资源。

原版书籍主页:http://incompleteideas.net/book/the-book.html

书籍简介

作为强化学习思想的深度解剖之作,《Reinforcement Learning:An Introduction》被业内公认为是一本强化学习基础理论的经典著作。

第 2 版中,它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

基于强化学习近来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益最大化等,涵盖了当今最关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。

「思想总是走在行动的前面,就好像闪电总是走在雷鸣之前。」德国诗人海涅的诗句恰如其分地描述了译者余凯第一次读到本书英文原版时的感受。本书的两位作者 Richard S. Sutton 和 Andrew G. Barto 就是这样的思想先行者,而本书所介绍的「强化学习」,则是后深度学习时代技术发展的重要火种之一。

内容概要

当一个婴儿玩耍时,挥舞手臂,左顾右盼,旁边没有老师指导他,他与环境却有着一种直接的感知连接。通过这种连接,他懂得了因果关系,行动带来的结果,以及为了达成目标所需做的一切。

人的一生中,这样的交互成了我们关于环境和自身知识的主要来源。不管学习驾驶汽车,还是进行一场交谈,实际上我们自始至终观察着环境如何回应我们的所为,并通过自身行为影响当下情景。

我们将这一方法称之为「强化学习」。相较于其他机器学习方法,它更专注于交互之中的目标导向性学习。

第 2 版在原先的基础上进行了许多拓展,整体结构也有所变化。本书包含三部分内容:

第一部分以最简单形式描述了强化学习算法几乎所有的核心的概念;

第二部分扩展了第一部分中介绍的列表法以应用于任意大的状态空间;

第三部分简单地概述了强化学习和心理学以及神经科学的关系,讨论了一个强化学习应用的采样过程,和一些未来的强化学习研究的活跃前沿。

作者简介

Richard Sutton(理查德•萨顿)

埃德蒙顿(DeepMind)公司杰出科学家,阿尔伯塔大学计算科学系教授。他于 2003 年加入阿尔伯塔大学,2017 年加入 DeepMind。在此之前,他曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,以及在马萨诸塞大学做学术研究。

理查德•萨顿于 1978 年在斯坦福大学获得心理学学士学位,1984 年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。他的主要研究兴趣在于决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。

他被称为「强化学习教父」,同时也是自由主义者、国际象棋选手和癌症幸存者。

Andrew Barto(安德鲁•巴图)

马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。安德鲁•巴图 1970 年获得密歇根大学数学专业的杰出学士学位,并于 1975 年获该校计算机科学专业的博士学位,1977 年加入马萨诸塞州阿默斯特大学计算机科学系。在 2012 年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多著名的机器学习研究者。

目前担任 Neural Computation(《神经计算》)期刊的副主编,Journal of Machine Learning Research(《机器学习研究》)期刊的顾问委员会成员,以及 Adaptive Behavior(《自适应行为》)期刊的编委员会成员。2004 年,安德鲁•巴图因强化学习领域的贡献荣获 IEEE 神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17 卓越研究奖,2019 年获得马萨诸塞大学神经科学终身成就奖。

译者简介

俞凯

上海交通大学计算科学与工程系教授,思必驰公司创始人、首席科学家。清华大学自动化系本科、硕士,剑桥大学工程系博士。青年千人,国家自然科学基金委优青,上海市「东方学者」特聘教授。曾获得 2014「吴文俊人工智能科学技术奖」进步奖,「2016 科学中国人年度人物」,2018 中国计算机学会「青竹奖」等个人荣誉。

俞凯长期从事交互式人工智能,尤其是智能语音及自然语言处理的研究和产业化工作。发表国际期刊和会议论文 150 余篇,获得 Computer Speech and Language、Speech Communication 等多个国际期刊及 InterSpeech 等国际会议的最优论文奖,所搭建的工程系统曾获美国国家标准局语音识别评测冠军,对话系统国际研究挑战赛冠军等。

部分内容图示

tic-tac-toe 行动的图示

马尔可夫决策序列中的智能体和环境互动图示。

「黑杰克」游戏中的优化策略和状态-价值函数图示

附全书目录


参考链接

  • http://incompleteideas.net/book/the-book.html

  • https://item.jd.com/12696004.html

  • https://book.douban.com/subject/34809689/

理论Richard Sutton时序差分学习蒙特卡罗方法马尔可夫决策过程强化学习
3
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

思必驰机构

思必驰是国内领先的人工智能语音交互技术平台公司,为企业和开发者提供自然语言交互解决方案,包括DUI开放平台、企业级智能服务、人机对话操作系统、人工智能芯片模组等,并在赋能智能终端后,丰富后端服务资源,满足用户多样化需求。

http://www.aispeech.com/
俞凯人物

思必驰联合创始人兼首席科学家,剑桥大学语音博士,上海交大教授,IEEE 高级会员,国家「青年千人计划」、NSFC 优秀青年科学基金获得者,上海市「东方学者」特聘教授,中国语音产业联盟技术工作组副组长。清华大学自动化系本科、硕士,剑桥大学工程系博士。 2012 年在上海交通大学创建智能语音技术实验室,将人机口语对话系统的全面技术引入回国。在人机口语对话交互的主要核心技术领域进行了广泛研究,在国际一流期刊和会议上发表论文 80 余篇,获得 ISCA 颁发的 2008-2012 Computer Speech Language 最优论文奖等多个国际期刊和会议优秀论文奖。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

联结主义技术

联结主义是统合了认知心理学、人工智能和心理哲学领域的一种理论。联结主义建立了心理或行为现象模型的显现模型—单纯元件的互相连结网络。联结主义有许多不同的形式,但最常见的形式利用了神经网络模型。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~