Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度强化学习大牛、UC伯克利教授Pieter Abbeel获2021 ACM计算奖

AI 大牛吴恩达的学生、机器人学习专家、UC 伯克利教授 Pieter Abbeel 摘得了最新一届 ACM 计算奖的荣誉。

刚刚,ACM 官方宣布将 2021 ACM 计算奖(ACM Prize in Computing)授予加州大学伯克利分校教授 Pieter Abbeel,以表彰他在机器人学习方面的贡献,包括从演示中学习和用于机器人控制的深度强化学习

图片

在获奖公告中,ACM 提到:「Abbeel 率先教会机器人从人类演示中学习(学徒学习)和通过自己的反复试错学习(强化学习),这为下一代机器人技术奠定了基础。」

ACM 计算奖设立于 2007 年,由 IT 巨头 Infosys 赞助,奖金为 25 万美元,旨在表彰在职业生涯早期到中期在计算领域做出基本创新贡献的研究者,这些贡献通过其深度和广泛的影响体现了该学科的最高成就。

过往获奖者包括谷歌 AI 负责人 Jeff Dean、AlphaGo 之父 David Silver、量子计算先驱 Scott Aaronson 等著名计算机科学家。

Abbeel 将于今年 6 月 11 日在旧金山举行的 ACM 年度颁奖晚宴上正式获颁 ACM 计算奖。

伯克利大牛 Pieter Abbeel 的研究贡献

图片

Pieter Abbeel 现为加州大学伯克利分校计算机科学与电气工程教授,也是人工智能机器人公司 Covariant 的联合创始人、总裁兼首席科学家。Abbeel 在比利时鲁汶大学获得电气工程学士学位,并在斯坦福大学获得计算机科学硕士和博士学位(师从吴恩达)。

图片

Abbeel 曾获得多项荣誉,包括美国科学家及工程师总统早期职业奖、美国国家科学基金会早期职业发展计划奖和 Diane McEntyre 卓越教学奖。此外,Abbeel 还被 MIT Technology Review 评为 35 岁以下杰出青年创新者,并获得了机器人与自动化领域的 Dick Volz 最佳美国博士论文奖。同时,Abbeel 也是 IEEE Fellow。

在职业生涯的早期,Abbeel 开发了新的学习技术,以显著改善机器人操作。随着该领域的成熟,研究人员能够对机器人进行编程,以使其感知、操纵木块或勺子等刚性物体。然而,通过编程让机器人操纵可变形物体(例如布)相对来说较为困难,因为软性材料在被触摸时的移动方式是不可预测的。Abbeel 引入了增强机器人视觉感知、基于物理的跟踪、控制和从演示中学习的新方法。通过结合这些新方法,Abbeel 开发了一种能够折叠毛巾和衬衫等衣服的机器人,这在当时被认为是一个重要的里程碑。

图片

Abbeel 的贡献还包括开发能进行手术缝合、物体检测以及在不确定环境下规划轨迹的机器人。最近,他开创了「少样本模仿学习」,即先让机器人接受大量相关任务演示的预训练,然后使其仅通过一次演示就学会执行一项任务。

Abbeel 做出重要贡献的另一个方向是机器人深度强化学习强化学习机器学习的一个领域,在该领域中,智能体在奖励的驱动下不断前进(比如赢得一场比赛)。虽然早期的强化学习程序非常有效,但它们只能执行简单的任务。将强化学习深度神经网络相结合的创新之举催生了深度强化学习这一新领域。与仅使用强化学习开发的程序相比,它可以解决复杂得多的问题。

Abbeel 在该领域的突破性贡献是开发了一种名为「信赖域策略优化(Trust Region Policy Optimization)」的深度强化学习方法。这种方法稳定了强化学习过程,使机器人能够学习一系列模拟的控制技能。通过分享研究结果、发布视频教程以及发布开源代码,Abbeel 帮助建立了一个研究社区,进一步推动了用于机器人的深度学习研究,可以让机器人执行更复杂的任务。

Abbeel 还做出了其他几项开创性的贡献,包括:

  • generalized advantage estimation,这使得第一个 3D 机器人运动学习成为可能;

  • soft-actor critic,这是迄今为止最流行的深度强化学习算法之一;

  • domain randomization,它展示了在适当随机化的模拟器中进行的学习如何能够很好地泛化到现实世界;

  • hindsight experience replay,这对奖励稀疏 / 目标导向的环境中的深度强化学习很有帮助。

图片

ACM 主席 Gabriele Kotsis 表示:「教机器人学习可以推动许多行业的重大进步,包括手术、制造、航运、自动驾驶等。Pieter Abbeel 是新一代研究人员中公认的引领者,他们正在利用最新的机器学习技术彻底改变这一领域。Abbeel 做出了跨越式的研究贡献,同时还慷慨地分享了他的知识,建立了一个同行社区,致力于将机器人提升到令人兴奋的新能力水平。他的工作体现了 ACM 计算奖旨在表彰具有『深度、影响力和广泛影响』的杰出工作的初衷。」

Infosys 首席执行官 Salil Parekh 表示:「很荣幸能表彰 Pieter Abbeel 获得 2021 年 ACM 计算奖,随着机器人与人工智能相结合的创新方式不断涌现,机器人领域有望取得更大的进步,我们相信像 Abbeel 这样的研究人员将有助于该领域取得下一个重大进展。」

获奖后,Pieter Abbeel 在社交媒体上表示:「我感到无比荣幸。非常感谢所有让这一切成为可能的合作者,感谢我的学生、同事、硕士及博士阶段的导师。」

图片

相关阅读:

参考链接:https://awards.acm.org/about/2021-acm-prize

产业深度强化学习ACM 计算奖
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

推荐文章
暂无评论
暂无评论~