「观潮」百度NLP十年:语言与知识全布局,重磅推出5款产品新发布、2大计划

深度学习潮起仿佛还在昨天,百度 NLP 已走过了十年。

人工智能是一门新兴学科吗?当然不是。但能让 AI 技术被上亿人每天使用到的,一定是走在最前端的公司。

在国内,百度就是这样一家公司。在人工智能最具挑战性的方向——自然语言处理(NLP)上,百度一直拥有着技术优势。8 月 25 日,在百度语言与知识技术峰会上,百度 CTO 王海峰向我们分享了这家公司在 NLP 领域的技术创新和产业实践,同时也展望了未来的发展趋势。

在这个七夕,百度还向我们发布了不少 NLP「爆款」。

「语言与知识技术是人工智能认知能力的核心。2010 年,百度成立自然语言处理部,十年间不断发展壮大,」王海峰表示,「在百度语言与知识技术的布局和发展中,我们始终注意把握两个趋势,即技术发展趋势和产业发展的趋势,并力争引领趋势。」

随后,王海峰全面分享了百度语言与知识技术的完整布局和最新成果。

十年坚守,一路领先

经过了十余年的发展,百度已形成了完整的 NLP 技术布局,包括知识图谱、语言理解与生成技术,以及应用系统等。知识图谱包含概念图谱、实体图谱等不同类型的图谱,以及知识挖掘、索引、存储到知识推理计算的一整套知识相关的技术和平台。语言理解包括基础的词法分析和句法分析技术,也包括篇章理解、对话理解、情感分析和语义理解等技术。而语言生成则覆盖了从句子、摘要到篇章各种类型的生成技术,以及语言风格转换技术。

全球最大知识图谱

首先是知识图谱知识图谱是以结构化的形式描述真实世界中的实体、属性、关系等,是机器认知世界的重要基础。百度很早看到了知识图谱蕴含的潜力,王海峰等人也在自然语言处理部成立之后不久就敲定了在知识图谱技术上的研发投入。2013 年,百度 NLP 就已经开发出了垂类知识图谱

知识图谱的搭建依赖大量数据,而百度搜索引擎所蕴含的多源异构大规模数据为知识图谱的发展提供了天然土壤。此外,百度还创建了一整套构建知识图谱的方法,包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术以及融合多源异构数据的知识补全和知识挖掘技术。

基于这些技术,百度创建了世界上最大规模的知识图谱。这个知识图谱拥有超过 50 亿实体和 5500 亿个事实。

除了在百度搜索等各类产品中的使用之外,百度知识图谱还开放给金融、能源、媒体、政务、教育、司法等各行各业使用,每天的调用量已超过 400 亿次。

语言理解领跑全球 NLP 领域

有了知识之后,下一个问题就是如何基于知识实现语言理解的增强。

首先是基础的语义表示。百度提出的知识增强语义理解框架 ERNIE 以知识增强和持续学习为核心创新点,在深度学习的基础上融入了知识,通过持续学习技术不断吸收海量数据中的词汇、结构、语义等方面的知识。在最具影响力的 NLP 评测基准 GLUE 上,ERNIE 在 10 个任务中的平均得分首次突破 90,刷新了榜单最高分,超越了人类水平。

再来看持续学习的效果。在基线系统的基础上,百度通过持续学习机制为 ERNIE 系统增加了百科知识、对话知识、篇章结构知识等,使得模型性能得以持续提升。

有了知识图谱和语义表示之后,下一步就可以做语言理解。以下图红框中一句话为例,如何利用这段话推断出「但使龙城飞将在,不教胡马度阴山」这首诗的作者?这段话包含两个名字(「李广」和「王昌龄」),如果随机选择一个作为答案,正确率只有 50%。为了找到正确答案,百度 NLP 将知识作为背景信息融入文本语义表示,增强了模型的语义推理能力。这项阅读理解技术在 EMNLP-MRQA 2019 评测中获得冠军,取得了 10 项任务的第一名。

除了文本阅读理解之外,对话可能是更为常见的一种自然语言理解任务。如何做好对话理解呢?百度 NLP 提出的方法是:先从大规模跨任务对话知识中学习通用的语义表示,再利用小样本学习快速提高新任务的对话理解能力。小样本学习可以解决新领域语料数据不足的难题。

人认知世界的时候不仅仅是用自然语言,往往是多模态的语音、视觉、语言,各种信号都会有输入。因此,百度 NLP 的研究也从自然语言扩展到跨模态的语义理解。突破跨模态语义理解技术面临两大难题:一是不同模态的信息相互独立,彼此缺乏关联;二是不同模态的信息异构,语义空间难以融合。

针对这些难题,百度 NLP 提出了知识增强的跨模态深度语义理解方法,一是从多源异构大数据中构建大规模知识图谱,作为关联跨模态信息的桥梁;二是语言可以描述不同模态信息的语义,通过知识增强的自然语言语义表示方法,解决不同模态语义空间的融合表示难题,从而突破跨模态语义理解的技术瓶颈。

这些技术突破为人们接触最多的百度搜索引擎带来了很多变化。「传统的搜索引擎通过关键词进行简单的需求理解,其核心是排序。而近年来,百度搜索已经完全进化成了智能搜索引擎。」王海峰说道。

现在,你的输入不仅可以是一个词、一句话,也可以是语音、图片。这涉及到语言理解和跨模态理解,还需要将互联网上大量的内容与其连接起来,而搜索结果的排序现在也是基于深度学习和语义表示融合的方法。

在结果的呈现上,很多时候搜索引擎给出的答案图文并茂,这背后则是知识图谱技术的支撑。

语义理解之外,最近 NLP 领域发展较快的方向是语言生成。基于预训练模型等技术,百度提出了基于多流机制的语言生成预训练方法,兼顾词、短语等不同粒度的语义信息,显著提升了生成效果。百度也探索了多文档摘要生成,通过图结构语义表示,引入篇章知识,新的模型解决了跨文档领域关系建模难题。在单文档和多文档摘要上,都取得了很大的效果提升。

从内到外的 AI 技术渗透

有了知识、语言理解和生成,我们就可以实现自然的人机对话。在基于知识的对话框架下,基于知识,理解对话意图,规划对话路径。同时,基于用户的反馈,机器可以学习和积累知识,不断提高对话的体验和效率;百度提出了知识图谱驱动的对话控制技术,利用知识图谱提供的语义内容和关联信息,帮助对话系统自动规划话题路径,知识之间的关联使得话题可以自然切换,显著提高对话流畅度和逻辑性。

对话生成方面,百度研发了首个基于隐空间的大规模开放域对话模型,借助隐空间建模不同的对话回复方式,在对话合理性、内容丰富度、吸引力等方面效果突出,中英文效果上都超越了业内最佳的模型和系统。

「在基于知识的对话框架里,我们实现了在线交互学习,通过主动向用户发起交互,机器可以利用用户的反馈学习新知识,持续优化对话效果,」王海峰说,「整合上述技术,我们研制了智能对话定制与服务平台,可以帮助开发者高效构建智能对话系统,实现规模化应用。」

人工智能和 NLP 的经典难题——翻译问题,百度也在不断打磨。

百度自 2010 年开始研发大规模互联网机器翻译,在大规模翻译知识获取、翻译模型、多语言翻译、同声传译等方面创新突破,研发了领先的互联网翻译系统,率先上线互联网神经网络机器翻译,实现了机器翻译的大规模产业化应用。在机器翻译技术方面,百度提出了多智能体联合学习等多项创新技术,效果领先,并在国际评测中获得第一。

AI 同声传译方面,百度首次提出了基于语义单元的同传模型,结合全局话题及上下文信息进行翻译,实现了高质量低延时的同声传译系统,达到了与人类翻译相当的水平。针对很多语种数据稀缺的问题,百度提出了稀缺语种分组混合训练算法和多语言联合编码框架,实现了 200 多种语言之间的翻译。截至目前,百度的翻译系统已支持 200 多种语言,每天响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用。

「复杂知识表示和快速构建技术,知识与深度学习进一步的融合,融合感知与认知的跨模态语义理解技术,模型可解释性和鲁棒性等方面,仍有很多技术难题需要研究和解决,」王海峰表示。「但我们对未来充满信心,百度会继续探索让机器掌握知识、理解语言、拥有智能的能力。」

5 款产品新发布、2 大计划

除了这些技术的总结和展望之外,在这次活动中,百度还一口气发布了文心、TextMind、AI 同传会议解决方案 3 款新产品,智能创作平台面向媒体的 3 个场景方案,智能对话定制与服务平台 UNIT 的 3 项全新升级以及数据共建和算力共享计划。

语义理解技术与平台「文心」

首先是 NLP 的核心语义理解。目前使用机器做文本处理的需求广泛存在,通用算法 API 已无法满足一些场景,而传统深度学习处理特定任务的方法则需要专业人员花费大量时间打造。文心基于深度学习平台飞桨打造,其目标是帮助企业开发者更低成本、更方便地将最新的语义理解技术应用于自己的场景。

今天所说的「文心」,「是以刷新各项 NLP 任务记录的 ERNIE 核心技术为依托,集成优秀的预训练模型、全面的 NLP 算法集、端到端开发套件和平台,提供一站式 NLP 开发与服务。」百度集团副总裁吴甜表示。

使用这个工具有多方便?吴甜现场以一个情感分析任务为例,将标注好的 100 条商品评论倾向性数据导入到平台(文心也提供智能标注能力),随后选择预训练模型和算法,点击任务提交,模型开始训练。训练结束后,平台会对模型效果进行自动评估。最后,训练好的模型可一键发布,开发者可通过 API 服务直接进行调用。

文心全面降低 NLP 定制开发成本,将减少开发者 90% 数据标注量、90% 算力投入、85% 模型开发时长。

百度表示,文心在各类真实场景中淬炼,已具备领先的工业级应用实力。目前,文心广泛用于百度产品中,累计支持业界开发者超过 2 万名,应用场景覆盖金融、通信、教育、电商等各行各业,显著提升企业 NLP 应用效果和效率。 

智能文档分析平台 TextMind

有可供开发定制模型的平台,也有普通人直接可以上手的 AI 办公套件。百度发布的 TextMind 是一款企业文档分析平台,目前已提供包括文档解析、文档比对、文档审核在内的一站式解决方案。

这款工具的特点简单说来就是「多快好省」:它支持多达 20 类文档、6 种格式;可以让之前需要 3-5 个工作日的工作 1 分钟完成;预置文档解析能力,企业开箱即用,实现零门槛定制;在文档规范化解析应用之后,公司相应的人力成本可以降低 80% 以上。

除了语言理解,还有可以生成内容的产品。2019 年初,百度智能创作平台上线,目前在媒体等行业已有很多应用。本次平台的升级面向媒体推出 3 个场景方案,可以让 AI 帮媒体人更好地进行创作。

智能创作平台

此前,百度的智能创作平台已具备丰富的辅助创作和自动创作能力,广泛服务于内容创作机构与个人。在上线之后的 4 个多月里,图文转视频功能已被 7000 多家用户使用,自动创作短视频超过 15 万条,相当于一个人 100 年的工作量。一年多以来,AI 的自动创作文章也已累计超过 200 万篇。

具体来说,百度的创作工具已得到了 20 多家媒体的应用,包括人民日报,央视网等。在合作的过程中,百度积累了更多经验,本次推出的新版本包含智能策划、智能采编和智能审校 3 大场景方案。

智能对话定制与服务平台 UNIT

对话方面,智能对话定制与服务平台 UNIT 推出三大升级,进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。

UNIT 任务式对话理解,通过升级了小样本意图理解能力,并新增了词槽值口语化同义词的自动推荐、词槽修饰关系的自动识别,数据标注成本进一步降低了 30% 以上。

表格问答能力,让开发者只需要上传业务数据表格,「只需 1 分钟的自动分析,UNIT 生成的问答机器人就可以准确回答大部分事实型问题。再进行 1 小时左右的人工调优,问答机器人可以达到以往至少通过 2 周人工整理 FAQ 建设才能达到的问答系统水平。」吴甜说道。UNIT 不仅集成了业界领先的通用对话技术 PLATO,还推出新一代融合任务式对话和通用对话的引擎,让对话系统不仅干练办事,还能顺畅交互。

AI 同传会议解决方案

与其他公司需要一些专业设备的方式不同,百度的 AI 同传可以让你只用一台电脑,一部手机,就快速搭建起一套同传服务。

「无论线上远程会议室还是线下会议,主题演讲还是多人讨论,使用百度的解决方案,每一场会议都能做到让人彼此听懂,」吴甜介绍道。「在邀测期间,这项技术已经支持了上百场会议,覆盖数十个领域,是一套经过了实践检验、成熟可靠的解决方案。」

在会议的每一个环节,百度的服务都不缺席。在会议开始前,百度同传可以根据会议涉及的特定领域进行术语定制,以应对专业议题中独有的释义,提高准确度。在会议中,百度的工具支持双语字幕投屏和手机边听边看。而且在正在进行的讲话中,人们也可以随时进行术语释义修改,结果实时生效。在会议结束后,系统还会自动生成会议记录,并保存到网盘中。

百度不仅提供成型的工具,也欢迎开发者在算法等组件的基础上自行开发——AI 同传中使用的技术,已经同步面向所有人开放。

数据共建与算力共享计划

除产品新发布之外,百度技术委员会主席吴华在峰会上公布了千言数据共建计划和百度语言与知识算力共享计划。

百度联合中国计算机学会、中国中文信息学会发起全球最大中文自然语言处理数据共建计划——千言,解决数据稀缺问题。千言一期由来自国内 11 家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等 7 大任务,20 余个中文开源数据集。百度技术委员会主席吴华表示,“我们计划在未来 3 年,面向 20 多个任务,收集和建设不少于 100 个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”

吴华还发布了百度语言与知识技术算力助力计划,通过百度 AI STUDIO 平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。

百度 NLP 强大的技术,离不开过硬的人才支撑。在这十多年的时间里,百度 NLP 聚集了一大批兼具扎实技术实力和实践经验的 AI 人才。在这次活动中,百度首次向业内介绍了这家公司 NLP 十年的「代表人物」。

百度 NLP 十年十人

2010 年 1 月,自然语言处理领域知名专家王海峰博士加盟百度,成立了「自然语言处理部」。「立足百度,扎根中国,胸怀世界,成为有丰富产出及广泛影响力的国际一流自然语言处理研发团队」是当时立下的愿景。

十年征程,百度语言与知识技术发展历程中培养、吸引了大量全球顶尖人才。会上,百度推出以王海峰为代表的百度 NLP“十年十人”,他们是:

  • 王海峰,百度首席技术官,ACL 主席(2013),AACL 创始主席,ACL Fellow,中国中文信息学会副理事长。

  • Kenneth Church,Baidu Research Fellow,ACL 主席(2012),ACL Fellow,EMNLP 创始人。

  • 吕雅娟,百度高级科学家知识图谱技术负责人、中国计算机学会中文信息技术专委会副主任(2015-2019)。

  • 吴华,百度技术委员会主席,ACL Program Chair(2014)。

  • 黄亮,百度杰出架构师、IDL(美国)主任,ACL Area Chair (2012, 2014, 2018, 2019)。

  • 吴甜,百度集团副总裁。

  • 赵世奇,百度 MEG 用户产品策略平台负责人,ACL 秘书长(2016-2020)。

  • 田浩,百度研究院首席架构师。

  • 何中军,百度人工智能技术委员会主席。

  • 于佃海,百度飞桨平台总架构师。

十年坚守,他们坚持技术信仰,勇攀技术高峰,致力于让机器掌握知识、理解语言、拥有智能,更好地服务于人们的生产、生活。以他们为代表的百度语言与知识技术团队取得了丰硕的成果,获得包括国家科技进步奖在内的 20 多个奖项,30 多项国际竞赛冠军,发表学术论文超过 300 篇,申请专利 2000 多项。「十年来,我们始终如一,用技术上的持续突破创新和应用上的硕果累累,践行了我们的使命,实现了我们的愿景。」王海峰表示。

让我们期待百度大脑语言与知识能力带来更多惊喜,为技术和社会进步做出更大贡献。

产业王海峰NLP十年百度
相关数据
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

概念图技术

概念图(CGs)是知识表示的形式主义。 在第一篇关于CG的论文中,John F. Sowa用它们来表示数据库系统中使用的概念模式。 关于CGs的第一本书(Sowa 1984)将它们应用于人工智能、计算机科学和认知科学等广泛的主题。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

推荐文章
暂无评论
暂无评论~