Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

吴文俊人工智能科技进步奖颁出首个特等奖,文心一言背后技术竟是它

人工智能技术和产业发展正进入一个新的临界点。
「我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我路线规划一下吧。」在 2018 年的百度 AI 开发者大会上,百度 CTO 王海峰现场表演了这样一段「Rap」。

在众人还没反应过来之际,内置小度语音助手的百度地图已经把路线规划了出来,现场响起一片欢呼。此时,人们惊讶地发现:对话类语音助手的进步原来如此迅速。不知不觉间,它们已经能帮人类做很多事情。

2023 年 3 月问世的文心一言让这种感觉变得更加强烈:它不仅能写小说、商业文案、新闻稿,还能应对一些数理逻辑推算等复杂任务,大大拓宽了国内对话类 AI 产品的能力边界。
图片
最近,这些成绩获得了来自中国智能科学技术最高奖 ——「吴文俊人工智能科学技术奖」的肯定。

「吴文俊人工智能科学技术奖」是以我国智能科学研究的开拓者和领军人、首届国家最高科学技术奖获得者、中国科学院院士吴文俊先生命名,依托社会力量设立的科学技术奖,具备提名推荐国家科学技术奖资格,代表我国人工智能领域的最高荣誉。

在这届颁奖活动中,王海峰带领团队完成的「知识与深度学习融合的通用对话技术及应用」成果,荣获「2022 年度吴文俊人工智能科技进步奖特等奖」,这也是该奖项设立以来颁发的首个特等奖。不过,这并不是王海峰第一次获奖,早在 2018 年,他就拿到了吴文俊人工智能科学技术奖的杰出贡献奖,而且是该奖项的首位获得者。

图片

在通用对话领域,王海峰带领的百度团队究竟做出了什么不一样的东西,才能获颁如此重要的奖项?我们还要从通用对话的技术特点、应用价值等方面说起。

打破人机交互次元壁,通用对话系统需要「知识」

自然语言是人与人之间沟通交流的主要媒介,也是人类希望与计算机进行交互的方式。在实现这一目标之前,人类先后经历了命令行界面、图形用户界面等阶段,直到最近才有望真正进入自然语言交互阶段。

不过,这一阶段依然存在很多待解决的问题,比如对话不连贯、语音听不清、理解不准确、回复有错误…… 王海峰带领的百度技术团队认为,要解决这些问题,让模型拥有并运用「知识」非常重要,也就是将知识与深度学习融合到一起。

但在实际操作中,这并不是一件容易的事。

首先,对话依赖的知识类型多、范围广,而且缺乏统一的表示机制。在进行对话时,计算机需要获取并理解各种类型和领域的知识,如常识、科学、历史、文化、技术等,以及具体的领域知识,如医学、法律、金融等。然而,这些知识往往以不同的形式和表示方式存在,没有统一的标准或机制来整合它们。例如,知识可以以结构化的形式存储在数据库中,以文本的形式存在于百科全书或网页中,或者以非结构化的形式存在于自由文本、论文、博客等中。这种多样性使得获取、整合和应用这些知识变得具有挑战性。

其次,符号化的对话知识与向量化深度学习隐式表示异构,难以有效融合。符号化的对话知识依赖于明确的规则和逻辑推理,而向量化深度学习表示则更加隐式且基于数据驱动,缺乏明确的语义规则,二者天然难以融合。

针对这些挑战,王海峰团队提出了对话知识的统一表示方法,通过知识的内化外用实现了知识与深度学习的有效融合。

知识内化是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中;知识外用是指有些知识在模型参数中未内化进去,但可以在推理过程中引入外部多源异构知识,做知识推理、提示构建等。

利用这些技术,王海峰团队在融合知识的对话管理、对话语音识别、对话理解和对话生成上取得了重大突破:

  • 对话管理方面,团队提出了基于知识统一表示的通用对话管理技术,通过攻克对话知识统一表示与构建的难题,为通用对话奠定了知识基础。他们还突破了对话内容全局规划的技术瓶颈,并实现了基于知识外用的通用对话管理技术,从而提升了对话的连贯性和条理性。

  • 对话语音识别方面,团队提出了融合知识的流式对话语音识别技术,通过攻克基于知识内化的语音流式局部注意力机制和语音置信度计算等关键技术,实现了对话语音识别精度与延迟的平衡。此外,团队还开发出了高精度、低延迟、低功耗、全双工的对话语音交互芯片,显著提升了语音唤醒和全双工语音交互的抗噪性和鲁棒性。

  • 对话理解方面,团队提出了知识增强的通用对话理解技术,突破了基于知识内化的小样本学习、反馈驱动的持续学习等关键技术,解决了对话理解训练数据稀缺、自学习能力弱的难题,实现了迁移成本低、可持续在线优化的对话理解模型,显著提升了对话理解准确度及对话满足度。

  • 对话生成方面,团队提出了基于隐变量与知识的对话生成技术,攻克了对话行为多样性建模难题,突破了知识内化与外用相结合的通用对话生成技术。此外,他们还研制了全球首个百亿参数对话预训练生成模型,实现了内容丰富、知识准确、自然流畅的对话。

图片


公开资料显示,该项目已获授权发明专利 82 项,发表高水平论文 36 篇,在国际权威评测中获世界冠军 11 项

当然,其应用范围也是相当广泛:以小度智能硬件产品、智能搜索、智能车载等形式支持了 5 亿智能设备,覆盖人群超过 10 亿,服务的行业超过 20 个,包括通信、金融、汽车、能源等等

更令人振奋的是,该项目的成果已经成功落地并应用于百度新一代知识增强大语言模型文心一言。

百度通用对话技术落地重要节点:文心一言

在 3 月份的新闻发布会上,王海峰曾介绍说,文心一言基于文心大模型 ERNIE 及对话大模型 PLATO 研发,具备有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强六大核心技术模块。前三项是大语言模型都会采用的技术,后三项是百度已有技术积累的再创新,也是百度的独特优势所在。

文心大模型的定位是产业级知识增强大模型,因此,知识增强本就是重中之重。通过从海量的知识和数据中融合学习,模型能够实现更高的效率、更好的效果、更强的可解释性。做到这些就需要我们前面提到的知识内化和知识外用,这离不开知识图谱的加持,比如用知识图谱构造数据、构建提示等等。百度拥有业界最大的多源异构知识图谱,包含了 50 亿实体和 5500 亿事实,而且一直在不断演进和更新。

此外,百度通用对话技术中的对话增强也在文心一言中发挥了重要作用,其中所涉及的记忆机制、上下文理解和对话规划能力帮助文心一言实现了更好的对话连贯性、合理性和逻辑性。记忆机制可以理解为让模型在多轮对话中记住前面说了什么,上下文理解则要求模型理解前面已经说过的话的含义,对话规划则涉及抓住整场对话的核心要点并理清对话结构等。

不管什么样的公司,都不可能在几个月的时间里靠突击做出来这样复杂的技术,文心一言是百度用十几年的研发投入慢慢积累起来的。从这个角度来看,文心一言其实可以理解为百度在通用对话等技术方向上努力了十几年之后积累出的一个重要节点

而这个节点之所以能诞生,离不开百度多年来建立的四层 IT 架构 —— 芯片层、框架层、模型层和应用层。在每一层,百度都拥有领先的自研技术和产品,而且它们之间能形成层到层的反馈、端到端的优化,尤其是框架层的飞桨和模型层的文心大模型。

图片

飞桨支撑了文心一言从开发训练到推理部署的整个流程。在开发训练层面,飞桨动静统一的开发范式和自适应分布式架构,实现了大模型的灵活开发和高效训练;在推理部署层面,飞桨支持大模型高效推理,提供服务化部署能力,包括计算融合、软硬协同的稀疏量化、模型压缩等。最近,飞桨又专门针对文心一言做了专项优化,一个月内迭代了4次,推理性能提升10倍,其中业内首创的支持动态插入的分布式推理引擎,推理性能提升了123%。

人工智能技术和产业发展正进入一个新的临界点

整体技术指标与应用效果达到国际领先水平,极大地提升了我国在这一领域的科技竞争力和产业影响力。」这是参与吴文俊人工智能科技进步奖评审的院士专家给予王海峰团队工作的评价,也是对该团队在通用对话领域多年工作的一个恰当总结。

为什么该团队如此执着于通用对话方向?王海峰在获奖感言中给出了答案:通用对话技术是人工智能领域最具挑战性的方向之一,也被认为是通用人工智能的必备能力。如今备受关注的对话式人工智能,其背后就有通用对话技术。

而且,随着以往的瓶颈被逐个攻破,通用对话技术的成果正在走向各行各业,以及大众的日常生活,有望带来新一轮产业变革。

在近期北京科技创新十年回顾的采访中,王海峰说,人工智能技术和产业发展正进入一个新的临界点,「我们看到,大语言模型,开始出现一些人们过去认为人工智能不会具有的能力,例如更强的创作能力、逻辑能力、推理能力甚至情感理解和情感生成能力等等。」这些突然「涌现」的能力究竟还能做哪些事情,目前我们还没有看到上限。

正如我们所看到的,王海峰团队基于通用对话等技术打造的文心一言等产品目前还在不断迭代升级。借助来自真实世界的反馈,这些产品正在飞速进步,未来将「会在我们能想到的、没想到的方方面面带给人类前所未有的价值。」
产业百度
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

局部注意力机制技术

每生成单个目标词都需要考虑原语句子的所有词在计算上是非常昂贵的,也不是必需的。为了减少这种问题,Luong et al. [20] 提出了一种仅关注固定窗口大小 2D+1 的局部注意力机制

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~