ICML 2020线上分享 | Google AI:如何用ConQUR算法解决强化学习在应用落地上的难题?

ICML(International Conference on Machine Learning)是国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,每年都会吸引大批 ML 研究者参加。

受到疫情影响,今年的 ICML 大会已经改为在 2020 年 7 月 13 日至 18 日线上举行。


据官方统计,ICML 2020 共收到 4990 篇论文投稿,最后接收论文 1088 篇,接收率为 21.8%。与往年相比,接收率逐年走低。

为向读者们分享更多 ICML 的优质内容,在大会开幕之前,机器之心将策划多期线上分享。

这是机器之心 ICML 2020 线上分享的第一期,我们邀请到了普林斯顿大学在读博士生 DiJia Su 为我们分享他们今年被接收的最新论文:《ConQUR: Mitigating Delusional Bias in Deep Q-learning》

Google AI 如何用 ConQUR 算法解决强化学习在应用落地上的难题


讲师简介:DiJia Su(苏迪加) ,本论文的第一作者,目前在普林斯顿大学攻读博士,研究方向是人工智能强化学习。他本科毕业于 UBC 工程系,后在加州理工获得了硕士学位,曾在 Amazon AI,Uber AI Lab 与 Google AI Lab 担任过人工智能研究员。Dijia Su 平时也积极参与普林中国学生会,担任副主席的职位。

演讲概要:众所周知,强化学习在应用落地和理论之间存在巨大的偏差,理想很美好,现实很骨感。作者与 Google AI 团队围绕这个复杂的问题上提出了 ConQUR 算法框架,有效地解决强化学习在部署落地中面临的各种问题。

在实际应用场景中,深度学习神经网络与 Q-learning 的结合会导致其在某种状态 (state) 采取「非合理」 的动作。在这次演讲中,作者将讲解如何通过修改一行代码从而实现强化学习 (Q-learning 或相关算法) 性能上显著的提高。此论文为 NeurIPS 2018 Best Paper (Non delusional Q-Learning)的延续。作者也将分享他是如何与原版人马打造 ConQUR 算法并通过现实应用场景,结果强化学习落地的难题。

论文链接:https://arxiv.org/pdf/2002.12399.pdf

直播时间:7 月 14 日 20:00-21:00

ICML 2020 机器之心线上分享

在 ICML 2020 收录的大量优秀论文中,我们将选出数篇优质论文,邀请论文作者来做线上分享。整场分享包括两个部分:论文解读和互动答疑。

线上分享将在 「ICML 2020 交流群」 中进行,加群方式:添加机器之心小助手(syncedai6),备注「ICML」,邀请入群。入群后将会公布直播链接。
 

理论论文分享ICML 2020
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~