晋耀红作者

首席科学家说:NLP的风口在哪里? 场景化应用!

下边这条微博虽然只有100多个字,却包含了丰富的信息。利用NLP技术,可以识别出实体“××银行”、“信用卡”、“客服电话”,数量“10万”,也可以根据“什么逻辑啊??”的上下文识别出用户的情绪是“生气”。

同样,不同部门的银行业务人员,关注点却截然不同,可以分属不同的应用场景。银行客服部门关注用户投诉的类别,应用场景是投诉分类,如“信用卡->额度->临时提额”、“客服->电话->接不通”;而银行营销部门关注用户是否为潜客,可针对性营销哪些产品,应用场景是潜客获取,如“出国金融”。

由此可知,同样的NLP技术,识别出同样的实体结果,但在不同的应用场景下,输出的结果却截然不同。显而易见,NLP的应用必须是场景化的

应用场景能给NLP什么?

一、NLP的需求必须结合场景

NLP的需求,无处不在,只要有文本的地方,就有NLP的用武之地。但通常无法简单概括NLP的需求,都必须结合场景才能明确。比如本文例子,客服场景的需求是投诉分类,而营销场景的需求是潜客获取。即使都是客服场景的投诉分类,不同银行的分类体系也不同,如:临时提额、额度不够。这对NLP来说,这显然是不同的需求。

不似语音识别人脸识别感知技术,需求相对单一明确,与场景关联度低。如语音识别需要把语音转换成文字,无论转录、听写、对话场景,或是教育、司法等应用领域,需求是明确不变的。

NLP需求的场景化,使NLP应用只能针对具体场景定制,无法实现快速复制。这也是在NLP领域尚没有出现类似科大讯飞商汤科技这样的独角兽公司的原因。

二、NLP的任务类型受场景支配

NLP技术是多样的,底层基础技术有自动分词、词性标注、实体识别,乃至当前流行的深度学习预训练模型等,应用技术有分类、匹配、关联、抽取等。每一种技术或算法,往往都只擅长某类特定的任务,比如谷歌发布的BERT模型,在文本分类、相似性匹配等任务中表现很好,但是在关联关系识别任务中的表现没有那么惊艳。因此,在NLP领域,没有一个通用的模型或框架,能适用于所有应用场景,能在所有场景中都表现良好。

NLP任务的确定,算法与模型的选择,存在复杂性,且受应用场景支配。既需要行业知识,熟悉场景需求,如客服投诉的需求;又需要有极强的NLP专业知识,对各种算法的优劣性了如指掌,知道在什么条件下,哪些算法是表现较好。而这在外人看来,就像艺术一样,让人捉摸不透,“state of the art”(最先进的,是艺术级的)。

NLP任务的场景化,是NLP技术走向产业应用的必经之路,也是最容易产生认识误区的地方。常有人抱怨,某个算法在论文中可以达到96%的正确率,为什么放在实际场景中,正确率却不到70%。这其实都是场景在作祟,论文的封闭实验场景和实际应用的开放场景不同而已。对待场景化的正确姿势,是选择最适合场景需求的NLP技术,而不是最优技术。

三、NLP的常识知识来源于场景

NLP应用需要常识知识。如“股市翻红”这一简单描述,到底是利好,还是利空?就涉及到股市常识,如果应用场景是中国股市,那么“红色”上涨,“翻红”为利好;如果应用场景是美股,那么“红色”是下跌,“翻红”则为利空。

常识知识包含两种。一种是通用常识,如“上涨”的反义词是“下跌”,“思考”的主语是“人”,“吃食堂”中“食堂”是“吃”的地点(而不是“吃”的内容)等,这些是普通人都掌握的知识。另一种是特定场景下的专业知识,也叫业务知识,如银行客服的投诉分类体系,每个类别都包含哪些内容等,这些是具体场景下的专业人员所拥有的专业知识,必须来源于场景。这里关注的是第二种常识。

场景的业务知识,一般是由两类人掌握。一是具体业务人员,如银行客服人员,但他们只懂业务,而对技术了解甚少;一是提供行业解决方案的应用开发商,如客服系统开发人员,他们往往既懂业务,又懂技术。相反,对一般NLP开发人员来说,场景业务知识是短板。这是很多NLP技术人员,甚至是著名高校的顶级专家,到具体的场景下倍感挫折的原因,不管你跟客户讲“技术是多么的先进”,客户最后都会落脚到“你们不懂业务”。NLP应用的落地,一定要将NLP技术与场景的常识知识结合起来

应用场景对NLP的要求

实际的应用场景千变万化,每个场景都有特定的需求,这要求NLP技术不能只局限在实验室环境和论文级别上,而应用工程化思路,提供适合场景的、好用的NLP技术。

一、组件化

将NLP中的算法和模型组件化,实现在具体场景下的零门槛调用。

组件以任务为单位实现标准化。NLP的技术体系庞杂,算法、模型很多,即使同一个任务,也可用不同算法实现。如命名实体识别,可选CRF算法,可与LSTM算法结合,也可与最新的BERT模型结合。不同算法有特定的输入、输出要求。组件化将不同算法封装成统一格式,不论选择哪种算法,都可无缝跳转,不影响组件使用

组件将算法细节封装起来。NLP算法的训练、调参过程,技术性极强,一般用户会望而生畏。组件将这些过程都封装起来,用户使用组件时,只需选择正确的组件,无需搞懂组件内每个算法的参数,也无需对参数进行反复试错,以寻找最佳配置。

组件的开发,需要NLP专业人员来做,但组件的使用,应该不需要专业知识,一般场景下的开发人员即可完成。

二、流程可组装

一个应用场景的实现,经常需要调用多个NLP组件,而不同的应用场景,组件的调用流程也不同。这就要求NLP的处理流程可组装

一个典型的客服投诉分析场景,其实现流程包括:

输入:投诉文本

自动分词->词性标注->命名实体识别->情感计算->投诉分类

输出:投诉分类

该流程中,输入文本(如本文开始的一段文本),经过多组件处理,上级组件的输出,作为下级组件的输入,逐级对数据进行加工,最后输出投诉分类(如“信用卡->额度->临时提额”)。

流程可组装,要做到两个一致性:一是上下级组件的数据一致性,确保数据能在各组件之间正确传递;二是各组件运行环境的一致性,确保所涉及的组件,能在相同的环境下,正确执行。

三、可建模

NLP技术需要学习、使用场景的业务知识,主要通过建模完成,大体分为两类建模方式:

一种是形式化建模。业务人员利用形式化规则,如产生式规则,直接编写业务规则。NLP技术自动识别和执行这些形式化规则,从而输出符合业务人员预期的结果。优点在于简单直观,业务人员经过简单培训即可操作。缺点是规则泛化能力弱,且规则难免以偏概全,无法覆盖所有业务现象。

一种是机器学习模型训练。业务人员标注大量的数据,尽可能地将业务知识体现在标注数据中。NLP技术利用机器学习深度学习算法,对标注数据进行自动训练,形成预训练模型。优点在于自动化程度高,学习的泛化能力强。缺点是对标注数据要求很高,标注数据量、标注语料平衡性等都需要达到算法要求,才能得到理想效果,而这一点在绝大多数应用场景下都很难做到。

选择正确的方式建模,是特定场景下NLP应用成功的关键

泰岳语义工厂--场景化的自然语言处理平台

神州泰岳在场景化NLP应用方向,已经耕耘了8年时间,积累了丰富的场景化技术和经验,已在16个行业的上百个典型客户中实现了落地应用。

泰岳语义工厂是神州泰岳推出的场景化自然语言处理平台,支持场景化应用开发、部署、运行,其核心能力包括:

一、组件化的NLP算法库

语义工厂的算法,我们称之为智慧语义认知技术。将符号化语义表示与深度学习技术进行结合,包含词语、句子、篇章、海量文本多层次的NLP分析技术,能有效地识别多种语言结构,实现同一意思、不同结构的归一化处理;对语言结构的递归嵌套处理,表现优异。同时,平台包含了深度优化的深度学习技术和模型,如中文词向量ChineseWordVec、基于词的BERT模型等。智慧语义认知技术,已有200个NLP组件,涵盖NLP基础、深度学习、分类聚类信息抽取情感计算、自动写作、对话机器人、效果评估等。所有组件均可以通过restful方式调用

二、可建模、可组装、跨平台的场景化开发工具

DINFO-OEC平台,是语义工厂中支持场景化开发、部署、运行的NLP工具。具有三大功能支持场景化开发:

1、支持场景化业务建模,可通过概念规则,构建形式化的业务规则,也可通过数据标注,指定机器学习(包括深度学习)算法,训练机器学习模型。

2、支持可视化流程定制,可通过组件拖拽方式,灵活组合自带的200多个NLP组件,快速搭建NLP应用。业务建模给出的模型,可通过组件方式,加入到定制化流程中。

3、提供统一的、跨平台的NLP运行环境,支持大数据分布式计算(如Spark)、深度学习TensorFlow等技术环境的灵活配置。可以配置使用平台自带环境,也可以配置客户已有环境。

三、 开放赋能的场景化SAAS服务

语义工厂将神州泰岳数十年来,在多个行业典型用户积累的应用场景知识、算法、模型,打包成面向场景的服务,服务的效果已经在行业用户中得到验证。开发者只需要一次调用,输入待处理的非结构化文本,即可输出想要的结构化数据整个过程,无须开发者标注数据,无须调参,无须长时间训练,无须二次开发,开发者即使没有任何NLP技术背景,也可以轻松地把NLP技术嵌入到自己的应用中去。泰岳语义工厂将开放包含NLP基础服务应用场景服务数据服务等三大类服务,涉及16个行业领域,140多个场景的成熟服务

长风破浪会有时,直挂云帆济沧海。

泰岳语义工厂为场景化而生,场景化NLP应用也必将借助泰岳语义工厂的助力,迎风起航!

作者:晋耀红博士,神州泰岳AI研究院首席科学家

泰岳语义工厂
泰岳语义工厂

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台,旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/
专栏二维码
产业NLP
1
相关数据
商汤科技机构

商汤科技成立于 2014 年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过 45 亿美金。以「坚持原创,让 AI 引领人类进步」为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括 Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。

www.sensetime.com
科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

http://www.iflytek.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

神州泰岳机构

神州泰岳始建于 1998 年,2001 年改制成为北京神州泰岳软件股份有限公司,首批深交所创业板上市(300002)。公司现有员工近 4000 人,是「国家规划布局内重点软件企业」、「国家级企业技术中心「,集团旗下拥有 40 余家分、子公司,其中 19 家为国家高新技术企业。公司拥有 CMMI L5、ITSS 二级、系统集成一级、信息安全服务二级、安防二级等顶级资质。公司以科技研发为牵引,打造核心竞争力,拥有软件著作权 1500 余件,授权专利 600 余件。 早在 1998 年,神州泰岳之前身就已经开始涉足于 IT 运维管理领域,经过 10 多年的探索与努力,发展至今,围绕着 IT 运维管理,神州泰岳产品与服务已经涵盖了系统网络管理、服务流程管理、信息安全管理、通信网络管理以及 IT 运维支撑外包服务,立足为客户提供企业级的 IT 运维咨询、解决方案、软件产品、项目实施和运维服务,帮助用户规划运维管理体系、提升运维管理水平、提高业务价值。

http://www.ultrapower.com.cn/
相关技术
推荐文章
暂无评论
暂无评论~