NIPS 2018 强化学习比赛结果出炉,百度赢得NIPS 2018 AI 假肢挑战赛

距 NIPS 2018 召开还有不到一个月的时间,NIPS 2018 的各种技术挑战赛也接近尾声。在上周结束的 2018 人工智能假肢挑战赛(AI for Prosthetics Challenge)中,来自中国百度的技术团队一举击败全球的 400 多个参赛团队,以 9980 分的成绩夺得冠军,领先第二名高达 30 多分。

人工智能假肢挑战赛是由斯坦福大学神经生物实验室与EPFL 联合举办的强化学习赛事,旨在通过将强化学习应用到人体腿部骨骼仿真模拟模型的训练,从而加快人体假肢领域的相关研究,并开创该领域的研究的新方法。

自今年 7 月份启动以来,来自全球 400 多技术团队都参与其中。其中既有上届冠军、由 “RNN之父”Juergen Schmidhuber 创立的 NNAISENSE,也有阿里巴巴、Yandex 等巨头。百度今年首次参加强化学习领域比赛,就在强手如云的团队里脱颖而出,一举夺得冠军,并领先第二名30多分。第二到五名分别被NNAISENSE,Yandex,阿里巴巴等获得。显而易见,百度在强化学习领域占据了明显的优势,冠军含金量颇高。

今年的比赛中,赛会组织者提供了一个人体骨骼-高仿模型,该模型是斯坦福国家医学康复研究中心研发的 Opensim 高仿模型,拥有人类腿部绝大多数真实骨骼、关节和肌肉的精细仿真。参赛者需要根据该模型中多达 100 个以上的状态,来决定模型肌肉的信号,然后控制该模型的肌体行走。

在去年的第一次挑战赛上,比赛规则围绕谁能让模型肌体行走速度最快。而今年除了将整个模型运动控制从2D改为3D外,还引入带有假肢的模型,同时模型的假肢不可控制,模型肌体行走的速度也有要求,并且还需要在第二轮比赛中按照事先未知的指定速度进行切换。

相较而下,今年的比赛难度再次增加。比如对模型肌体有效信息的判断上,由于实际状态空间和动作空间稠密并且非常大,导致基于强化学习的算法无法准确把握模型肌体的行走姿势;更进一步,由于规则要求不断切换速度,更增加了模型控制难度。

在此次比赛中,百度首先通过上千台机器的 CPU 集群来加速模拟环境,利用 RPC 机制进行机器间通信,从而能在高性能GPU上进行高效的模型训练。其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG),使得模型能够应对较大空间和连续动作空间的挑战,最终也使得一个单一模型能够学习多种速度和姿态。第三,在算法层面,通过 multi-head bootstrapping,能够更高效的对巨大的解空间进行探索(Exploration),同时还将旋转不变性等各类特征处理方式,以及不断实验累计的各类 reward shaping 方法应用其中。正是这些关键技术的综合应用,让百度能以 9980 的高分一举夺冠,有参赛者表示,这是一个他们难以相信的分数。

事实上,早在本次比赛以前,百度已经将强化学习技术应用于信息流推荐、广告展现、搜索排序等大规模工业级场景。而本次比赛中所展现出的技术实力,再次证明了百度在强化学习相关技术上的积累,也能够进一步推广到复杂机器人控制、自动驾驶等更多工业领域。

与此同时,百度会将这种能力通过 PaddlePaddle 开源平台赋能更多开发者。基于 PaddlePaddle 的强化学习框架 PARL 将在今年四季度正式发布,届时将为更多深度学习领域开发者提供强而有力的技术支撑,也进一步深化百度构建AI完成生态的决心。

产业比赛百度NIPS
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~