龙牧雪作者

AI不用地图和GPS也能认路:DeepMind再放大招

是的,谷歌DeepMind又在搞事情。

这次,是用深度强化学习神经网络来建立导航系统。无需标注好的地图指引,AI仅仅依靠街景照片的图像识别就能到达目的地。类似于AlphaGo Zero的没有棋谱,也能学会下棋。

注意,这无关乎驾驶,仅仅关乎导航——穿越真实城市,到达指定的经纬度坐标。整个过程不涉及交通数据(周围有没有车和人),也没有对车辆控制建模。

但这已经足够复杂了。在曼哈顿的5个区域、伦敦和巴黎市中心,AI能成功穿过复杂的交叉路口、人行道、隧道和各种拓扑结构。

3月31号,DeepMind在ArXiv上发布了相关论文:Learning to Navigate in Cities Without a Map。

DeepMind随后发表的一篇博客文章称,AI做的这件事类似于一个小孩如何记住周边的环境。小孩并不需要看一张地图,只需记住街道的视觉外观并沿途转向,就能前往朋友家、学校或杂货店。而且会越走越熟练。如果迷路了,他可以通过关键地标甚至太阳的朝向来认路。

这是人类的导航系统。

导航是一项重要的认知任务,有导航系统的人类和动物可以在复杂的世界中远距离穿行,而无需地图。同时,可以自我定位(“我在这里”)和表述目标(“我要去那里”)。

那么,AI如何学习在没有地图的城市中进行导航?

一个利器是谷歌街景视图(Google Street View)。这些图像数据是现成的。这样,AI不用真的到某个城市里穿行,只要在街景里游荡就可以了。利用街景视图建模的优势在于,这些照片以人眼视角拍摄,也就是说,如果一个人站在相同的地理位置,他看到的图像就和模型看到的一样。

依靠街景图像而不是地图

研究人员建立了一个基于神经网络的人工智能体,学习使用视觉信息(来自街景图像的像素)在多个城市中导航。当AI到达目标目的地(例如,指定的经纬度坐标)时,该AI就会得到奖励。

好比一个7x24小时无限循环工作的快递员,要不断地到达指定地点,但是又没有地图可以看。

随着时间的推移,AI学习以这种方式跨越整个城市。经过在多个城市的训练和学习,在适应新的城市时AI的表现非常好。

AI在巴黎街景中训练。街景图像与城市地图叠加,显示目标位置(红色),代理位置和视野(绿色)。请注意,AI不会看到地图,只能看到目标位置的纬度/经度坐标。

与传统的依赖明确映射和探索的方法(例如试图本地化并同时绘制地图)相反,DeepMind让AI只使用视觉观察,而不使用地图、GPS定位或其他辅助工具。

用到的技术是,构建了一个神经网络代理,用于输入从环境中观察到的图像,并预测它应该在该环境中执行的下一个操作。使用深度强化学习进行端对端训练,类似于此前关于学习穿越复杂3D迷宫,以及用无监督辅助任务进行强化学习来玩游戏的研究,但是使用到的数据规模比小型模拟迷宫环境要大得多。

神经网络由三部分组成

  1. 可以处理图像并提取视觉特征的卷积网络

  2. 特定场所的循环神经网络,其隐含任务是记住环境,并学习“这里“(代理的当前位置)和”那里“(目标的位置)

  3. 产生关于代理行为的导航策略的场所不变循环网络。特定于语言环境的模块被设计为可互换,并且如其名称所示,对于代理导航的每个城市都是唯一的,而视觉模块和策略模块可以是语言环境不变的。

CityNav (a)

MultiCityNav特定城市建模 (b)

训练和转移到新城市 (c)

就像在Google Street View界面中一样,AI代理可以在适当的位置旋转,或者在可能的情况下前进到下一个街景。与谷歌地图和街景环境不同,AI不会看到小箭头,本地或全球地图,或著名的Pegman:它需要学习区分开放道路和人行道。目标可能在真实世界中距离数公里,AI要通过数百个街景图才能到达。

Pegman,谷歌街景视图中的虚拟小人

值得注意的是,这是一个可以转移到新城市的模块化神经网络架构。与人类一样,当AI访问一个新的城市时,我们会期望它必须学习一组新的地标,但不必重新学习其视觉表现或其行为(例如,沿着街道向前走或在交叉路口处转向)。因此,使用MultiCity体系结构,DeepMind首先在许多城市进行训练,然后冻结策略网络和视觉卷积网络,并在一个新城市中只建立一个新的特定地区路径。这种方法使AI能够获得新的知识,而不会忘记它已经学到了什么,类似于渐进式神经网络架构。

导航系统是研究和开发人工智能的基础,也对了解人类的生物导航系统有帮助。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门AI谷歌Deepmind
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~