9大核心特性,3大场景集成方案,百度大脑发布UNIT3.0智能对话引擎

5月15日,「与未来对话——百度大脑智能对话引擎及产品发布会」在京举行,会上发布了包含UNIT3.0和语音技术平台的全新智能对话引擎,并在此基础上推出了客服、消费电子和出行三大智能对话解决方案,首次展示了百度大脑智能对话生态。

UNIT3.0全面升级

UNIT(Understanding and Interaction Technology)是面向第三方开发者的理解与交互技术平台,提供专业对话系统定制技术。

2017年7月,百度在AI开发者大会上发布对话系统定制平台UNIT,搭载了业界领先的对话理解与对话管理技术,可以帮助开发者赋予产品智能对话的交互能力;2018年7月,UNIT推出的2.0版本,技术、功能与架构实现全面升级,为开发者提供更加易用、更加专业的对话系统定制能力。

百度自然语言处理部主任架构师孙珂博士孙珂介绍,UNIT平台具有强大的对话理解及管理能力,该平台已累计超460亿次的交互量。而在应用中,从对话核心技术到场景化的真实对话系统落地,企业或个人开发者仍然面临着数据标注、知识整理、系统集成的高成本投入。基于此,百度大脑推出UNIT3.0版本,在搭建技能、构建知识和整合技能与知识三方面实现全面升级。

搭建技能

技能搭建包括预置技能和自定义技能。

UNIT3.0全新发布了智能问答、设备控制、影音休闲、生活服务等多个方面共58项积累自真实业务的预置技能,沉淀了全网最全面最优质的信息类资源;同时,预置技能也支持开发者结合特定场景进行再次开发,使其更符合场景业务需要。

自定义技能包含自定义问答技能和对话技能两部分。

定义问答技能方面,全新发布了文档问答功能,支持开发者上传业务文档并一键训练,在1分钟内快速定制问答系统

自定义对话技能方面,针对大样本量训练数据的获取与标注难题,UNIT3.0正式发布了训练数据生产与标注辅助工具DataKit,实现自动收集、筛选、预处理样本,大幅提升样本生产和标注效率。

强大的对话理解技术是实现优秀对话技能效果的必要条件。UNIT3.0使用多引擎融合的对话理解技术,融合「快速生效」与「深度训练」两种训练模式,利用「快速生效」实现对话技能快速冷启动,基于「深度训练」持续优化效果。其中,「深度训练」模型全新升级,融入了百度最新发布的语义表示预训练模型ERNIE,可在标注数据大量减少的情况下达到同样效果。升级后的DataKit和基于深度训练的理解技术结合起来,可使对话技能的综合研发成本节省60%。

构建知识

据了解,70%的企业在智能对话系统构建过程中面临梳理和准备企业知识的困难。针对这一痛点,UNIT3.0在构建知识方面实现重磅升级,全新发布问答知识库构建工具和图谱知识库构建工具。

问答知识库构建工具:帮助开发者构建问答知识库,节省人工成本。

图谱知识库构建工具:辅助企业梳理和推理复杂知识体系,实现可视化数据生产与抽取工具。同时,生成的图谱知识可以导入UNIT问答技能词槽词典,进一步帮助对话理解效果的优化。

整合技能与知识

UNIT3.0进一步升级了技能与知识管理能力,帮助开发者整合对话、问答技能,接入知识,通过单一接口一站式满足复杂的对话系统研发。

技能与知识管理能力包含「技能管理」、「对话管理」、「知识接入」三个方面。其中技能管理实现多技能顺序可调,并共享全局记忆;对话管理具有在线与离线可编程对话管理框架,可适应多样化的业务场景;知识接入方面具备图谱知识库关系数据库,HTTP服务全面支持接入。

语音技术平台新升级

听懂语音、理解对话、快速反馈是智能对话中的重要组成部分,对此语音技术平台全新升级,推出呼叫中心语音解决方案及语音自训练平台。

百度语音技术部资深产品经理何荡首先介绍了百度的语音技术,包括语音唤醒、语音识别语音合成三大块:

呼叫中心语音解决方案

本次发布的呼叫中心语音解决方案,可在呼叫中心场景中提供全新的端到端的语音技术解决方案,包括呼叫中心场景专属的语音识别模型(基于流式多级的截断注意力模型SMLTA)、呼叫中心场景专属的语音合成8k音库,满足适配主流厂家MRCP对接,与对话理解深入配合,灵活支持打断等需求,同时采用高可用流式传输语音识别语音合成协议,实现全双工流式交互,提供低延迟、高并发的企业级语音服务。

语音自训练平台:零代码自助训练语言模型

「零代码自助训练」所体现的低门槛无疑是语音自训练平台的最大亮点。其操作步骤简单:创建模型,系统评估;上传文本,训练模型;上线模型,持续迭代。

据了解,该平台通过使用业务场景文本语料,自助训练个性化的语言模型,可广泛应用于各场景,达到特定业务场景下业务用语的准确识别,有效提升业务领域语音交互体验。

三大智能对话解决方案

上文介绍的百度全新智能对话引擎对开发者而言非常具有吸引力,不论是其简洁性,还是效果。

而场景落地是技术发展的最终方向,智能对话也是如此。百度大脑此次推出了针对客服、消费电子和出行的三大智能对话场景方案。这三大方案从领域业务需求、集成与配合、部署与维护做出了不同程度的升级。

客服智能对话场景方案

客服智能对话场景方案结合其呼叫中心的语音语义技术需求特点,推出全新的语音语义一体化中控,实现一次交互完成语音和对话理解服务访问同时,预置对话中打断、沉默、语义去噪能力可降低通话中的异常处理成本。此外,在部署与维护方面实现了云端部署和私有化部署的多样化部署,可按需匹配。

消费电子对话场景方案

消费电子对话场景方案综合考虑其场景、资源的开放性,软硬件终端产品的多元化等特点,除了前面提到的沉淀至真实场景的58项预置技能和优质的信息与问答资源外,还开源了对话管理模块DMKit对话中控模块USKit,它们具备与云端理解能力无缝对接,帮助开发者深度定制对话技能。也支持公有云、虚拟私有域部署模式,提供完善的Android、iOS SDK接入方式,还可一键接入DuerOS和小程序等。

出行智能对话场景方案

出行智能对话场景方案是面向出行场景专属定制的,拥有车载专属语音解决方案和车厂专属语义定制平台。车载专属语音解决方案中有全套面向车载环境的语音唤醒、离/在线语音识别、风格发音和明星发音等语音合成声库以及声纹识别能力。车厂专属语义定制平台提供丰富的预置能力和车厂技能自定制能力支持。

其中,在车载领域,面向车载网络稳定性不可控的特性,百度大脑推出了包含导航、设备控制、多媒体、通信等高质量离线预置技能,高性能离线语义嵌入式SDK;也推出了支持出行场景离在线对话能力融合的框架。

从1.0到3.0,UNIT系统越来越开发者友好,利用大量预置技能、自定义技能,便捷的知识构建方式等帮助开发者和企业更加快速便捷地构建自己的对话交互系统。而升级后的语音技术平台携「零代码语音自训练平台」等更新,极大地降低了使用门槛。从「开发者友好」到「场景落地」,百度智能对话引擎开启了新的生态。

工程百度大脑对话系统人机对话定制化平台UNIT
相关数据
定义问答技术

问答式信息检索(简称问答检索)是信息检索领域的一个重要研究方向。定义问答检索是问答检索的一个重要分支,其根据指定的目标概念,从开放领域(或指定)的文本中检索得到该概念的释义文本。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

推荐文章
暂无评论
暂无评论~