李玉喜作者

强化学习时代正在到来

强化学习是近来最热门也是成果最丰富的人工智能领域之一。之前为我们带来《深度强化学习》手稿的加拿大阿尔伯塔大学计算机系博士Yuxi Li 近日发表博文认为我们正迎来强化学习的时代,本文为该文章的中文版。

强化学习(RL)已经取得了斐然的成就,比如 Atari 游戏、AlphaGo、AlphaGo Zero、AlphaZero、DeepStack、Libratus、OpenAI Five、Dactyl、DeepMimic、夺旗,以及学习穿着打扮、冷却数据中心、化学合成、药物设计等。更多强化学习应用请参阅:https://medium.com/@yuxili/rl-applications-73ef685c07eb

其中大多数都是学术研究。但是,我们也正见证着强化学习产品和服务的诞生,比如谷歌的 Cloud AutoML 和 Facebook 的 Horizon,还有 OpenAI Gym、DeepMind Lab、DeepMind Control Suite、Google Dopamine、DeepMind TRFL、Facebook ELF、Microsoft TextWorld、Amazon AWS DeepRacer、Intel RL Coach 等开源项目和测试平台。多臂赌博机方面(尤其是情景赌博机(contextual bandits))已有很多成功的应用。

后文将简要介绍强化学习,讨论强化学习近期的成果、问题、研究方向、应用和未来。总体而言想要说明一点:强化学习时代正在到来。

简要介绍

在自然科学、社会科学、工程学和艺术等范围广泛的领域,针对序列决策问题,强化学习智能体(agent)会通过试错方式与环境交互,随着时间学习到一个最优策略。

在每一个时间步骤,智能体都会接收到一个状态并遵循一个策略选择一个动作,这就是该智能体的行为,即从状态到动作的一个映射。智能体会接收一个标量的奖励,并会根据环境动态转换到下一个状态。模型直接关乎转换概率和奖励函数。智能体的目标是最大化一个长期回报的期望,即一个折扣的累积奖励。

监督学习通常是一次性的、短视的且考虑即时的奖励,而强化学习则是序列式的、目光长远且会考虑长期的累积奖励。

Russell 和 Norvig 的人工智能教科书指出:「也许可以认为强化学习包含了一切人工智能:放置在环境中的智能体必须学习以便在其中成功地行事」以及「可将强化学习视为整个人工智能问题的一个缩影」。研究也表明计算机科学领域具有可计算描述的任务都可以构建为强化学习问题的形式。这些都支持 David Silver 博士的假设:AI = RL + DL(人工智能=强化学习+深度学习)。

可参考下列资源了解更多有关强化学习的详细情况:

  • David Silver 博士的 UCL 强化学习课程:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
  • DeepMind 和 UCL 的深度学习强化学习课程:https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs
  • Sergey Levine 教授的深度强化学习课程:http://rail.eecs.berkeley.edu/deeprlcourse/
  • OpenAI 的 Spinning Up in Deep RL:https://blog.openai.com/spinning-up-in-deep-rl/
  • Sutton 和 Barto 的强化学习著作:http://incompleteideas.net/book/the-book-2nd.html
  • 一本有关深度强化学习的书籍草稿:https://arxiv.org/abs/1810.06339
  • 一份深度强化学习资源汇集:https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f

近期成果

我们已经见证了深度强化学习取得的一些突破:比如深度 Q 网络(DQN)、AlphaGo(以及 AlphaGo Zero 和 AlphaZero)、DeepStack/Libratus。它们每一个都代表了一大类问题和大量应用。DQN 可用于单玩家游戏和广义上的单智能体控制。DQN 为当前的深度强化学习普及浪潮掀起了最初的浪花。AlphaGo 可用于双玩家完美信息零和博弈。AlphaGo 在一个非常艰难的问题上取得了现象级的重大成果,成为了人工智能领域的一大里程碑。DeepStack 针对的是双玩家不完美信息零和博弈,这一类问题本身是很难解决的。与 AlphaGo 类似,DeepStack/Libratus 也在一个困难问题上取得了重大的进展,成为了人工智能的发展里程碑。

OpenAI Five 在 Dota 2 游戏上战胜了优秀的人类玩家。OpenAI 还训练了 Dactyl,可让类人式机器手灵活地操控实际物体。DeepMimic 模拟人形机器人来执行高度动态的、杂技般的技能。智能体也在多玩家游戏 Catch The Flag 中达到了人类水平,这是在掌握战术和战略团队协作上的进展。另外还有一个衣着模拟模型完成了穿着任务。强化学习也已经被用于数据中心冷却,这是在真实世界物理系统中的应用。化学合成领域已经在逆合成方面应用了强化学习

我们也已经看到强化学习在产品和服务中得到了应用。AutoML 试图让人们更容易获取 AI。谷歌 Cloud AutoML 提供了神经网络架构设计自动化等服务。Facebook Horizon 已经开源了一个强化学习平台,可用于通知、视频传输比特流优化、改善 Messenger 中的 M 建议等产品和服务。亚马逊已经推出了一款实体的强化学习测试平台AWS DeepRacer,另外还有英特尔的 RL Coach。

这些成果之下的技术包括深度学习强化学习、蒙特卡洛树搜索(MCTS)和自学习;它们还将有更广泛和更深入的应用和影响。

问题

强化学习领域存在很多概念、算法和问题。样本效率、稀疏奖励、信用分配、探索与利用、表征都是常见问题,也有人在努力试图解决它们。离策略在学习时既会使用在策略数据,也会使用离策略数据。辅助奖励和自监督学习是学习环境中的非奖励信号。奖励塑造(reward shaping)能提供更密集的奖励。分层强化学习可用于时间抽象。通用价值函数(GVF,尤其是 Horde)、通用价值函数近似器(UVF)和事后经验重放(HER)能够学习目标之间共有的表征/知识。探索技术可从有价值的动作中学到更多。基于模型的强化学习可以生成更多可供学习的数据。学习去学习(比如 one/zero/few-shot 学习、迁移学习多任务学习)是通过学习相关任务以实现高效的学习。结构和知识的整合可帮助得到更智能的表征以及实现更智能的问题构建。

使用了函数近似的强化学习(尤其是深度强化学习)面临着一大问题,即由离策略、函数近似和 bootstrapping 的组合所导致的不稳定性和/或发散性。解决这一基础问题的努力有很多,比如梯度时间差分(GTD)、平滑的贝尔曼误差嵌入(SBEED)和 non-delusional算法。

可再现性是深度强化学习的又一问题。实验结果会受超参数的影响,其中包括网络架构和奖励规模、随机种子和试验、环境和代码库。

强化学习机器学习还有一些共有问题,比如时间/空间效率、准确度、可解释性、安全性、可扩展性、稳健性、简洁性等。

研究方向

我们有必要研究基于价值的方法、基于策略的方法、基于模型的方法、奖励、探索与利用、表征。这 6 个核心元素在这本深度强化学习草稿中也有探讨:https://arxiv.org/abs/1810.06339 。有 6 大重要机制分别在(深度)强化学习的不同方面发挥着关键性作用,即注意和记忆、无监督学习、分层强化学习、多智能体强化学习、关系强化学习、学习去学习。

深度强化学习一书中讨论了六个研究方向,包含挑战和机会。研究方向一是对深度强化学习算法进行系统性的比较研究,这涉及到可再现性以及深度强化学习算法表面下的稳定性和收敛性。研究方向二是「解决」多智能体问题,这涉及到在大规模、复杂以及可能存在对抗性的设定中的样本效率、稀疏奖励、稳定性、非定态性(non-stationarity)和收敛性。研究方向三是从实体而不只是原始输入学习,这涉及到样本效率、稀疏奖励和可解释性,需要整合更多知识和结构。研究方向四是为强化学习设计最优的表征。研究方向五是自动强化学习。研究方向六是用于现实生活的(深度)强化学习。这些涉及到整个强化学习问题,也即强化学习领域中涉及到表征、自动化和应用的各个角度的所有问题。我们预计所有这些研究方向都还会继续存在,但第一个除外,不过它也是很有挑战性的。而这些方向的进展将会加深我们对(深度)强化学习的理解以及推动人工智能前沿的进一步发展。

Rich Sutton 教授重点强调了利用学习到的模型进行规划的重要性。Yann LeCun 教授讨论过世界模型的学习,尤其是自监督学习。Yoshua Bengio 教授讨论过解离式表征(disentangled representation)。

有越来越多的研究在致力于开发构建能像人类一样学习和思考的机器,并且也在整合经典人工智能的组件,比如因果、推理、符号主义等。因果推理和关系学习得到的关注尤其多。更多内容请查阅 https://arxiv.org/abs/1810.06339

应用

《深度强化学习》中讨论了 12 个应用领域,包括游戏、机器人、自然语言处理计算机视觉、金融、业务管理、医疗保健、教育、能源、交通运输、计算机系统以及科学、工程和艺术。最后一项「科学、工程和艺术」几乎涵盖了一切,这传递出了一个信息:强化学习人工智能将无处不在。

强化学习是一种用于序列决策问题的解决方案式的方法。但是,某些问题表面上看似不是序列式的,也能被强化学习成功解决,比如神经网络架构设计。一般而言,如果一个问题可以被看成或可以转换成一个序列决策问题,并且可以构建出状态、动作以及可能的奖励,那么强化学习都可能提供帮助。粗略地讲,如果一个任务涉及到某种人工设计的「策略」,则就有可能能用强化学习帮助自动化和优化该策略。

强化学习在波束搜索策略、数据库联合查询主动学习、问题合成、模型压缩和加速、驱动器管理等方面都有有趣的应用。

强化学习有一个具体应用方向是扩展 AlphaGo 技术。正如 AlphaGo 的作者在他们的论文中建议的那样,以下应用还值得进一步研究:广义上的游戏(尤其是视频游戏)、经典规划、部分可观察的规划调度、约束满足、机器人、工业控制、在线推荐系统、蛋白质折叠、降低能耗、寻找革命性的新材料。化学合成就是一个很好的例子。

要让强化学习用在现实生活应用中,我们需要考虑数据和计算的可用性。AlphaGo 的成功就得益于其完美的围棋模型(可以生成大量训练数据)和谷歌级的计算能力。对于机器人、医疗保健和教育等一些应用而言,我们通常还没有优良的模型,因此不容易得到大量数据。离策略的策略评估是一种解决这一问题的方法。

讨论

前文讨论了强化学习近期的进展、问题、研究方向和应用。下面我将介绍几位研究人员的观点。

David Silver 教授总结了深度强化学习的原则:评估推动进步,可扩展性决定成功,泛化能力保证算法的未来,对智能体的经验和状态的信任是主观的,控制流,价值函数建模世界,规划,从想象的经历中学习,为函数近似器赋能,学习去学习。

Dimitri Bertsekas 教授对强化学习的未来(包括其在现实生活中的应用)的态度是谨慎乐观。以下内容直接引用自他的幻灯片:

  • 可广泛应用的方法:可以解决范围广泛的难题。确实-随机-动态,离散-连续,等。
  • 没有任何方法能确保对所有甚至大部分问题都有效。
  • 对于大多数类型的优化问题,都有足够多的可尝试的方法且它们都有相当好的成功可能性。
  • 理论的作用:引导前沿发展,描绘可行的想法。
  • 所有方法都有困难的实现问题,而且没有防误操作的方法。
  • 问题近似和特征选择需要领域特定的知识。
  • 不同于你通过阅读文献可能形成的看法,训练算法可能并没有那样有效。
  • 近似策略迭代涉及到振荡。
  • 很难认定成功或失败!
  • 强化学习在游戏领域的成功很惊人,但这得益于完美已知的和稳定的模型以及(每个状态)少量的控制。
  • 具有部分可观察状态的问题依然是一大难题。
  • 大规模计算能力与分布式计算很有希望。
  • 一线曙光:我们可以开始解决一些难度超乎想象的实际问题!
  • 前路激动人心!

Sutton 和 Barto 的强化学习著作《Reinforcement Learning: An Introduction》很直观。Bertsekas 和 Tsitsiklis 的《Neuro-Dynamic Programming》(神经动态规划,接近(深度)强化学习)是理论方面的。Bertsekas 教授有一本新的强化学习最优控制著作《Reinforcement Learning and Optimal Control》。如果我们称 Sutton 教授是强化学习之父,那么 Bertsekas 教授就是强化学习的叔叔。

我们看到,不仅重视基础研究的研究者对强化学习有积极的态度,而且 Google Cloud AutoML 和 Facebook Horizon 等产品和服务也在部署强化学习

预测是很困难的,尤其是预测未来。很多博客探讨过强化学习的重要性,尤其是在 2019 年。强化学习是 MIT Technology Review 2017 年的 10 大突破性技术之一,深度学习入选了 2013 年的榜单。对于广义上的人工智能,Geoffrey Hinton 教授说过:「不,不会再有一个人工智能冬天了,因为它驱动着你的手机。在之前的人工智能冬天,人工智能还没有真正成为你的日常生活的一部分。而现在已经是了。」吴恩达博士提供了一份人工智能转换手册:https://landing.ai/ai-transformation-playbook/

在基础研究和现实生活应用方面,强化学习一直在积累量的变化,这将会导致质的变化。要记得,挑战与机遇并存,有证据表明强化学习时代正要来临。

原博文:https://medium.com/@yuxili/e3-cb5325d60381 

《深度强化学习》:https://arxiv.org/abs/1810.06339

理论强化学习深度学习Richard Sutton
5
相关数据
AWS机构

亚马逊网络服务系统(英语:Amazon Web Services,缩写为AWS),由亚马逊公司所创建的云计算平台,提供许多远程Web服务。Amazon EC2与Amazon S3都架构在这个平台上。在2002年7月首次公开运作,提供其他网站及客户端(client-side)的服务。截至2007年7月,亚马逊公司宣称已经有330,000名开发者,曾经登录过这项服务。

相关技术
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

相关技术
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

策略迭代技术

策略迭代算法直接操纵策略,而不是通过最优值函数间接找到策略。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

零和博弈技术

零和博弈,又称零和游戏或零和赛局,与非零和博弈相对,是博弈论的一个概念,属非合作博弈。零和博弈表示所有博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失。在零和博弈中,博弈各方是不合作的。非零和博弈表示在不同策略组合下各博弈方的得益之和是不确定的变量,故又称之为变和博弈。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

分层强化学习技术

分层强化学习是强化学习领域中的一个分支。传统强化学习通过与环境的交互,进行试错(trial-and-error),从而不断优化策略(policy)。但是强化学习的一个重要不足就是维数灾难 (curse of dimensionality),当系统状态(state)的维度增加时,需要训练的参数数量会随之进行指数增长,这会消耗大量的计算和存储资源。 分层强化学习将复杂问题分解成若干子问题(sub-problem),通过分而治之(divide and conquer)的方法,逐个解决子问题从而最终解决一个复杂问题。这里的子问题分解有两种方法:①所有的子问题都是共同解决被分解的任务(share tasks);②不断把前一个子问题的结果加入到下一个子问题解决方案中(reuse tasks)。分层强化学习核心思想是通过算法结构设计对策略(policy)和价值函数(value function)施加各种限制(constraints),或者使用本身就可以开发这种限制的算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

经典规划技术

智能规划(intelligent planning)是人工智能研究的一个重要领域,它的主要任务是在给定初始状态,可执行动作和目标条件的情况下,设计相应的规划系统,使得当前初始状态通过执行合适的动作序列到达满足目标条件的状态。规划问题的描述通常采用国际通用的规划域描述语言(planning domain description language,简称PDDL),包含了用词以及对各种逻辑关系的表示方法。对智能规划问题的抽象描述予以一定限制和规范化,就得到了经典规划问题(classical planning)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

分布式计算技术

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

多任务学习技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~