AI迷路了怎么办?Facebook正在训练AI学会问路

如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

这件在你看来顺理成章的事情对于人工智能来说却是一个大难关。

AI不能独立地彻底理解人类的自然语言,自然也听不懂使用自然语言的指路,对于虚拟助手而言,仅仅能够对人类提出的问题做出简单的回应,这远远达不到要求。

Facebook的人工智能研究室(FAIR)正在试图突破这一难关。

要让人工智能系统理解人类语言,方法之一就是把语言和特定环境联系起来,以更加自然的方式来训练这些系统。就像婴儿最先学会说的是他们能看到摸到的东西一样,这种方式也被称为具体的人工智能,更偏向于在真实环境中学习,而不是通过大量的文本数据进行训练。

FAIR的研究人员把这一新的研究课题称为Talk the Walk。在这个研究课题中,一对AI智能体相互交流,共同完成导航到指定位置的任务。

但是他们不是将AI智能体置于一个简单的类似于游戏的环境中,而是设计了一个机器人游客,向它展示纽约街区真实的全景照片,让它模拟一位迷路的游客来问路。另一个只记录下周围街区二维地图的机器人作为指路人,输出自然语言,来帮助“游客”找到它的目的地。

通过一种新型的被称为MASC (Masked Attention for Spatial Convolution) 的注意力机制,让导航机器人专注于地图上正确的地方。这种方式使得在测试集上导航的准确率提高了一倍。


Facebook表示,这项工作的目标是要提高学术界对于交流、感知和行动如何影响基础语言学习问题的理解,同时也为把自然语言作为一种人机交互方式提供了压力测试。

FAIR也将发布Talk the Walk的基线和数据集。他们认为开源这项工作可以为其他研究人员提供一个测试他们自己的具体AI系统的框架,特别是在对话方面。

数据集链接:

https://github.com/facebookresearch/talkthewalk

AI将如何扮演游客和导游?

为了为他们的系统提供学习和演示基础语言的环境,FAIR研究人员使用全景摄像头分别拍摄了纽约市五个街区的部分街道,包括曼哈顿的Hell’s Kitchen、East Village、Financial District、Upper East Side以及布鲁克林的Williamsburg。

选定的这些区域都具有统一的、网格状的布局,同时为实验中的每一对AI智能体双方分别提供了一半的第一人称环境视角。

另一方面,AI“导游”只能获取带有通用地标的2D俯视地图,例如“餐厅”和“酒店”。“导游”和“游客”都不能和对方共享自己的视图,因此,必须要沟通才能导航到指定位置。

当导游预测游客已经到达目标位置时,就意味着本次实验的结束。如果预测正确,则导航过程被标记为成功;失败的预测则被标记为不正确。实验不限制移动或交流的次数。

在真实环境中学习对于这一领域来说是全新的,对环境的完全仿真可能会是未来的方向。

FAIR研究人员还创建了智能体之间的自然语言互动,收集了来自人类玩家的真实互动数据,例如“一直走到下一个街区,然后右转进入餐厅”,而不是专门为机器人生成的、经过仔细措辞的信息。

这些人类参与者也和机器人一起被分配了导游和游客的角色,具有相同的共享导航目标和信息约束(第一人称视角或俯视地图)。


强调使用真实环境和现实生活语言使整体问题更加困难。与实际城市街区的全景图像相比,模拟的环境一般不会那么混乱,而且更具有可预测性。一系列精心编写的回复也不太可能捕捉到在人与人真实对话中那种微妙的、不精确的和混乱的信息传递。

但是提高任务难度可以使其结果更具相关性。为了能够有效地与人类进行交互,未来的AI系统需要理解在复杂环境中的文本和超出有限的预定短语列表的语言。

探索自然和人造交流

尽管自然语言交流是这项研究的主要焦点,但FAIR团队还设计了两种额外的“紧急通信”设定,在其中智能体使用不同的通信协议而不是模仿人类语言。

第一个设定是,智能体通过连续向量进行通信,这意味着它们将原始数据相互传输。例如,这些连续的向量包括游客正在看到的和做的事情的表示,这能够帮助基于地图的导游来定位他们的同伴。

第二个紧急通信设定采用了完全不同的方法,研究人员称之为人造语言。在这种情况下的交流比自然语言简单得多,使用的是一组非常有限的离散符号来传达信息。

通过为机器人提供以最简单的形式进行通信的选项,从而能够实现快速而精确的互动,这也让我们能更好地了解到自然语言的魅力。

当使用这两种紧急协议而不是自然语言时,AI游客和导游都会表现得更好。这对于研究人员来说并不奇怪,因为AI使用的自然语言没有得到明确的信息交换。

紧密联系AI与其应用环境

将这些研究结果以及FAIR的研究放在适当的背景中非常重要:Talk the Walk不是自然语言和合成交互之间的竞争,而是试图为创建能够和人类有效交互的机器这一最终目标,提供一个清晰而可衡量的结果。

为了证明语言基础的价值,研究人员创建了MASC,一种新型的注意力机制,使得导游根据游客提供的俯视地图的信息,可以预测其位置。

注意力机制通常用于深度学习,以允许系统集中处理某些任务,类似于人们将注意力集中的状态。

MASC根据游客的状态转换(例如向左,向右移动,从俯视角度,向上和向下移动)识别地标嵌入(例如,“餐馆”,“酒吧”等),并将其表示为地图嵌入的2D卷积。该空间掩膜基于对游客可能行进的追踪来预测游客当前的位置。

MASC具有广泛的有效性。它提高了所有通信协议、自然语言和紧急通信方法的本地化性能。

通过将旅游系统的话语与导航系统的地图相关联,MASC的准确性有了大幅改进,是基于合成通信的系统准确度的两倍以上。

人工智能代理经过培训可以生成自己的自然语言信息,在使用这些自然语言的任务中也有更好的表现。用自动生成的自然语言,而不是简单地使用从人类玩家的互动中提取的文字例子,可以明确沟通任务内容。

不相关的闲聊通常是自然语言交互的优势,但对于基于通信交流的任务并非有利,因为闲聊会带来性能的不稳定。

例如,一个人类参与者在看到两家咖啡店和一家邻近的Chipotle后,发出了信息:“天呐,如果我来纽约,这就是我要去的地方!”,其他玩家对此发出“这是天堂啊!”的回应。通过微调和AI代理来生成仅与任务相关的自然语言,由此产生的交互就避免了这些闲聊的分歧和干扰。

最后,这项研究表明,使用自然语言的人类比使用合成通信的AI代理人在本地化方面更糟糕。和Talk the Walk得出的其他人机性能间的比较一样,这是一个重要的结果,它有助于为进一步研究与开发依赖自然语言的AI系统相关的挑战建立基线和可能的机会。

未来的系统能否利用自然语言的多功能性,同时避免人们沟通方式固有的模糊性和低效率?或者对话是否施加了无法规避的限制?作为基础研究,这项研究提出了这些问题,而对它们的回答还有待进一步的研究。

相关报道:

https://code.fb.com/ai-research/talk-the-walk-teaching-ai-systems-to-navigate-new-york-through-language/

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门FAIRFacebook
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~