李航转载

李航教授展望自然语言对话领域:现状与未来

原华为诺亚方舟实验室主任、现已加入字节跳动 AI Lab的李航教授近日发表博客,对自然语言对话领域的现状和最新进展进行总结,并展望了未来的走向。本文内容朴实,既重视整体格局和跨领域思维,又能着眼于现实条件,富有启发性。

1.    引言

语音助手、智能客服、智能音箱、聊天机器人,近年各种自然语言对话系统如雨后春笋般地涌现,有让人眼花缭乱的感觉。一方面对话系统越来越实用化,另一方面当前技术的局限性也凸显无遗。计算机多大程度上可以自如地和人进行对话?自然语言对话的挑战在什么地方?未来可能会有哪些突破,以及需要重点研究与开发哪些技术?

笔者曾有幸在华为与前同事一起进行了对话技术的研究,以及华为 Mate10 语音助手的开发,本文基于自己的研究与开发经验,尝试对以上问题做出回答。

2.    前提条件

功能主义

脑科学和人工智能的先驱马尔(David Marr)曾提出,计算有三个层面,自上而下分别是功能层面、算法和表征层面、实现和物理层面。如果有两个系统做计算,给定同样输入,产生同样输出,两个系统的行为完全一致,则认为它们在功能层面是等价的。这时不考虑它们在算法层面进行的是串行计算还是并行计算,也不考虑它们在实现层面进行的是数字计算还是模拟计算。

两个系统,一个是人脑,一个是计算机,情况也一样。假设人的思维可以还原为计算,那么只要看到功能上计算机可以和人脑做同样的事情,就认为它们在功能上拥有同等的智能。本文讨论对话系统,也是站在功能主义的立场。

合理行动的智能机器

人工智能是关于构建智能机器(或智能计算机)的科学与工程领域,但对智能机器,有不同的定义。可以是像人一样行动的智能机器,也可以是合理行动的智能机器。本文采用后者的定义。合理行动的智能机器有以下几个特点。1. 系统与环境互动;2. 目标导向,有明确的任务要完成;3. 有评价完成任务好坏的标准;4. 旨在功能上完成任务,并不试图模仿人类;5. 完成任务上能力达到或超过人类。

构建合理行动的智能机器,比起构建像人一样行动的智能机器,在人脑的工作机理还不是很清楚的现在,更加现实可行。现在的大部分人工智能系统都属于这种类型。大数据与机器学习使人工智能的这条路线更加容易取得突破。(笔者近期的短文《合理行动的智能机器》对相关问题做了更详细的论述 [1])。

图灵测试的对象实质上是像人一样行动的智能机器,但如何评价像人一样行动并不容易。如果目的是为人类提供智能性的工具,提高人们的生活质量或工作效率,可能没有必要考虑构建像人一样行动的机器。图灵测试作为人工智能的测试实验有其局限性。

所以,近未来构建「合理行动的」对话系统应该是我们追求的目标。为用户提供问答、帮助用户完成任务(打开音箱、订机票)、甚至做用户的陪伴,都满足以上合理行动的智能机器的特点。

3.    自然语言对话

自然语言理解

自然语言理解,也就是人或机器理解人类语言,有两种不同定义:一种基于表征,另一种基于行为。基于表征(representation),就是系统根据输入的语言产生相应的内部表征,这个过程也称为语义接地(semantic grounding)。比如,有人说「哈利波特」,在大脑里联系到哈利波特的概念就意味着理解了对方的语言。基于行为,就是系统根据输入的语言采取相应的动作。比如,有人说「给我拿一杯茶」,机器人按照命令做了,就认为它理解了人的语言。这两个定义在一定程度上互为补充,前者从语义角度,后者从语用角度界定这个问题。

下面从功能角度概述语言理解过程,可以是人脑,也可以是计算机系统。

自然语言理解,输入是自然语言的语句,输出是语句的语义表征,包括词汇分析、句法分析、语义分析、语用分析几个步骤,如图 1 所示。原则上是自下而上的处理,也有自上而下的指导,一般是两者的结合。词汇分析使用词典,句法分析使用句法,语义分析使用世界知识,语用分析使用上下文信息。

图 1. 自然语言理解过程

词汇分析将输入语句中的单词映射到单词的语义表征上。每一个单词都有丰富的语义。一个单词的语义包含了它的相关概念,以及使用方法。一个语言的常用词汇量一般在 5 万到 10 万的范围。

句法分析根据句法规则判断输入语句中的单词之间的语法关系,得到语句的语法表征。句法既有一定的规律,也有大量的例外。一个语言的语法是一个非常复杂的规则体系。

语义分析,基于单词的语义表征、语句的语法表征,根据系统中的世界知识的表征,构建语句的(可能是多个)语义表征。

语用分析,基于语句的语义表征,根据系统中的上下文,确定语句具体语义表征。

自然语言理解的核心是:听到一句话或者读到一句话,把它映射到系统的一个表征上面。这个映射是一个多对多的映射,必然产生多义性(ambiguity)和多样性(variability),也就是一句话可以有多个意思,一个意思有多种方法表达。比如:「I saw a girl with a telescope」一句话表示两个不同的意思,这是多义性。再比如:「distance between sun and earth」和「how far is sun from earth」两句话表示的是同一个意思,这是多样性。

语义分析,进行的只是在字面上对语言的理解,可能还有多个意思,对应着多个语义表征。语用分析,进行的是在上下文中的语言理解。同样一句话,比如,「这个房间真热」,语义上就是字面的意思,但是语用上话者的真实意图可能是「请把窗户打开」,只有在上下文中才能判断。

必须指出,语言是一个极其复杂的现象 [2],虽然从功能上,有可能在计算机上实现或者近似语言理解。仍然有许多挑战,还有漫长的路途要走。

人脑的语言理解机制

对人脑的语言处理机制了解的还不多,有一些发现和假说。

人的自然语言理解,整个大脑都在参与,是一个非常复杂的过程。大脑大约有 1 千亿 个神经元,1 千万亿个连接,是一个庞大的复杂网络,人的思维是在这个网络上进行的并行处理。通过核磁共振发现,人在聆听他人朗读的时候,大脑的各个部位都有反应 [3]。

有两个脑区和语言密切相关:布洛卡区(Broca's area)和韦尼克区(Wernicke's area),是在对失语症的研究过程中发现的 [4]。韦尼克区负责词汇,布洛卡区负责句法。患有失语症的病人的特点是:如果布洛卡区受损,说话只会说出一个个单词,没有语法,不能形成语句。如果韦尼克区受损,说话听起来是一个语句,但可能用词不对,不能形成完整的语义。有一个假说是人脑中的词汇分析和句法分析是并行处理,布洛卡区和韦尼克区的功能分工是一个证据。

最近的嵌入模拟假说(embodied simulation hypothesis)颇受瞩目,有大量的脑科学与认知科学的实验佐证 [5]。人脑中语言的理解,是基于视觉、听觉、运动等的表象(image)的模拟。语言理解过程就是把相关表象联系起来,并将这些表象重新组合的过程。比如,问:「大猩猩有没有鼻子?」要回答这个问题,我们会在脑里先浮现出大猩猩的视觉表象,然后根据这个表象去回答问题。说明大猩猩的概念在我们的脑子里,至少有一部分是通过视觉表象记忆和理解的。再比如,听到:「Flying Pig(飞猪)」,不同的人会根据自己对飞的概念的理解(飞的表象),以及对猪的概念的理解(猪的表象)组合成不同的新的表象,也就是语言理解。有人会想象出像小飞象一样的 Flying Pig,也有人会想象出像阿童木一样的 Flying Pig。

语言对话与任务

罗素曾举过这样一个有趣的例子,说明语言的本质是表达和交流的工具。当牙医碰到你时,你可能会不由自主地发出呻吟,这不算语言。但是如果他说「如果我碰到你,你告诉我一声」,这时你发出同样的呻吟,它就成了语言。

对话是两个或更多人之间的书面或口头的交流,从功能主义的角度来看,对话的目的是话者共同完成信息交流的任务。多轮对话包含单轮对话,在对话的每一轮中一方需要理解另一方的语言。比如,问候、问答,协作(如订机票),甚至说服、辩论等,都可以看作是任务。其实聊天也可以看作是任务,目的是进行交流和沟通,整个过程可以分解为不同的子任务,每个子任务都有明确的目标。聊天的特点是开始不特意设定子任务,在过程中,子任务动态地变化,随时被设定、终结、恢复。

对话中要完成的任务一般可以由一个有限状态机表示,其中状态表示完成任务的一个阶段,有一个目标状态,若干个初始状态,从一个初始状态到达目标状态往往有多个路径,甚至许多路径。完成对话对应着从初始状态出发,通过一条路径,到达目标状态。比如说订机票,需要通过与对方交流,提供相关信息,每一个状态表示目前为止明确的信息。当任务简单的时候,有限状态机的状态数不多,模型的复杂度不高。但是,当任务变得复杂时,状态数和模型的复杂度会爆炸式地增加。

现实中,对话任务的形式化还有不少挑战,特别是当任务复杂,状态无法穷举、或者状态无法明确刻画的时候。所以对话系统还都局限在特定任务上,称为任务驱动的对话,比如,命令型、问答型。

对话过程中需要对对方的发话进行理解,也就是产生内部的表征。否则,无法判断任务的完成情况(也就是状态),进行任务驱动的对话。任务驱动的对话需要有语义表征。

4.    当前技术

计算机上达到和人同等的对话能力还非常困难。现在的技术,一般是数据驱动,基于机器学习的。对话技术分单轮对话和多轮对话。

单轮对话有基于分析的,基于检索的,基于生成的方法。表 1 给出几种方法的比较。

基于分析的方法,把问题定义为分类和结构预测。给定自然语言的发话,将发话转为内部的表征,之后产生系统的回复或动作。这种方法有显式的内部语义表征,适合于命令型的对话,在语音助手和智能音箱等应用上被广泛使用。

基于检索的方法,把问题定义为匹配。给定自然语言的发话,将发话与内部的文本进行匹配,之后将匹配到的文本返回,作为回答。这种方法,以文本(非结构化数据)形式拥有内部语义表征,可以做问答型的对话,在问答系统等应用被广泛使用。

基于生成的方法,把问题定义为文本的转换或翻译。给定自然语言的发话,一般利用深度学习模型,自动生成相应的回复。这种方法不拥有显式的语义表征,适合于自动生成回答的场景,比如,邮件的智能回复。

多轮对话系统,使用范围相对有限,当前多用于特定领域的任务型对话。如图 2 所示,一般地,多轮对话系统拥有语言理解,语言生成,对话管理,知识库等模块。对话管理又包括状态跟踪和动作选择子模块。可以认为多轮对话系统,是基于分析的单轮对话的扩展,在每轮对话中,对发话进行语义理解,产生内部表征。对话管理使用有限状态机,表示对话中获取信息的整个过程。经过几轮对话,系统逐步获取所需信息,并执行任务,如航班信息查询

表 1 单轮对话方法比较

图 2 多轮对话系统

5.    最新进展

近年,深度学习强化学习被成功应用到包括对话在内的自然语言处理的各个方面,并且取得了重大进展。端到端的训练和表征学习深度学习的主要特点,正是这些特点使深度学习成为自然语言处理的强大工具,对话也不例外。强化学习适合于系统与环境互动并在这个过程中学习的贯序决策过程(sequential decision process)问题,多轮对话正是其应用。

下面介绍几个最新研究成果。

Liang 等开发了神经符号机(Neural Symbolic Machines)模型 [7]。神经符号机可以从知识图谱三元组中找到答案,回答像「美国最大的城市是哪里?」这样的问题。模型是序列对序列(sequence-to-sequence)模型,将问题的单词序列转换成命令的序列。命令的序列是 LISP 语言的程序,执行程序就可以找到答案。神经符号机的最大特点是序列对序列模型表示和使用程序执行的变量,用附加的键--变量记忆(key-variable memory)记录变量的值,其中键是神经表征、变量是符号表征。模型的训练是基于强化学习(策略梯度法)的端到端的学习。

吕等开发了神经查询器(Neural Enquirer)、符号查询器(Symbolic Enquirer),连接查询器(Coupled Enquirer)三个模型 [8,9],用于自然语言的关系数据库查询。比如,可以从奥林匹克运动会的数据库中找答案,回答「观众人数最多的奥运会的举办城市的面积有多大?」这样的问题。问答系统包括语言处理模块、短期记忆、长期记忆、查询器,语言处理模块又包括编码器和解码器。查询器基于短期记忆的问题表征(神经表征)从长期记忆的数据库中(符号表征与神经表征)寻找答案。符号查询器是一个循环神经网络,将问句的表征(神经表征)转换为查询操作(符号表征)的序列,执行操作序列就可以找到答案。利用强化学习,具体地策略梯度法,可以端到端地学习这个循环神经网络。神经查询器是一组深度神经网络,将问句的表征(神经表征)多次映射到数据库的一个元素(符号表征),也就是答案,其中一个神经网络表征一次映射的模式。利用深度学习,具体地梯度下降法,可以端到端地学习这些深度神经网络。符号查询器执行效率高,学习效率不高;神经查询器学习效率高,执行效率不高。连接查询器把两者的优点结合起来。学习时先训练神经查询器,然后以其结果训练符号查询器,问答时只使用符号查询器。

Peng 等提出了基于层次化深度强化学习(hierarchical reinforcement learning)的对话策略学习方法,可以通过多轮对话帮助用户做旅行安排,包括预订机票、订酒店 [10]。对话系统整体架构与图 2 的相似,有语言理解、对话管理、语言生成模块。对话管理模块有两层结构,顶层模块负责管理子任务,底层模块负责管理子任务中的动作,状态跟踪模块负责管理全局的跨子任务的约束条件(如酒店的入住时间需晚于航班的达到时间)。对话管理策略通过层次化深度强化学习获得。

6.    未来展望

下面列举自然语言对话中比较重要的研究课题。

•    对话需要语义接地,即将自然语言映射到内部的表征,如何定义和使用语义表征是一个核心问题。

•    语言理解的多义性、多样性问题。虽然迄今有很多研究,但仍然没有根本解决。

•    语言和知识,既可以由符号表征,又可以由向量表征(神经表征),各有优缺点,如何将符号处理和深度学习结合是一个重要的问题。

•    多轮对话系统可以基于深度强化学习,也有很多问题需要研究。

•    对话系统是一个复杂的系统,需要进行层次化和模块化处理,如何构建这样的系统,并使其拥有自动学习功能也是一个大问题。

•    机器学习的数据往往是不够的,这使得端对端训练一个对话系统变得困难,在小样本的条件下学好对话模型是需要解决的重要课题。

7.    总结

以下将本文的主要观点进行总结。

从功能的角度,计算机也有可能能够像人一样,自如地进行自然语言对话,但是现在这个命题无法证真或证伪。原因是尚不清楚人脑的语言理解机制,用计算机完整模拟人的语言理解仍然非常困难。

但在特定领域,特定场景下,和人一样进行自然语言对话的计算机的实现,我们已经看到。问题是如何进行扩展,能够以更低的开发成本覆盖更多的领域和场景。

语言理解的核心是向内部表征的映射。多义性和多样性是计算机进行语言理解最大的挑战。

要完成具体的任务,体现计算机的智能性,定义和使用内部表征看来是不可或缺的。基于分析的方法本质上是重要的,甚至是在聊天机器人的场景。基于检索方法更适合于单轮问答的场景。基于生成的方法只能用于特定的场景。

多轮对话要体现完成任务的整个逻辑有限状态机表示。开放式的对话意味着动态地改变任务,所以在现在的技术条件下,是非常困难的;在特定领域任务明确的条件下的对话,现实可行。

近年,深度学习强化学习的使用,使得对话有了长足的进步。主要体现在表征学习、端到端学习上。事实上需要符号表征和神经表征,深度学习和符号处理的结合,这应该是未来发展的重要方向。

产业李航自然语言诺亚方舟实验室
3
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

深度强化学习技术
Deep reinforcement learning

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

聊天机器人技术
Chatbot

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

有限状态机技术
Finite-state machine

有限状态机(英语:finite-state machine,缩写:FSM)又称有限状态自动机,简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。

知识图谱技术
Knowledge graph

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

知识库技术
Knowledge base

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

LISP技术
LISP

LISP是具有悠久历史的计算机编程语言家族,有独特和完全括号的前缀符号表示法。起源于公元1958年,是现今第二悠久而仍广泛使用的高级编程语言。只有FORTRAN编程语言比它更早一年。LISP编程语族已经演变出许多种方言。现代最著名的通用编程语种是Common Lisp和Scheme。

逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

梯度下降技术
Gradient Descent

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

问答系统技术
Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

关系数据库技术
Relational database

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

查询技术
Query

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

表征学习技术
Representation learning

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

图灵测试技术
Turing Test

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

返回顶部