晋耀红作者

授人以渔? 授人以鱼! NLP的民主化之路

作者:晋耀红博士,神州泰岳首席科学家,人工智能研究院院长,北京师范大学教授,博士生导师。

首先,我们一起来看一段客户(User)和开发人员(Developer)的对话。

U: 我们就是想给客服的投诉信息自动分类。

D: 这个啊,需要用到NLP中的分词、词性标注、句法分析等技术。

D: 也会用到CNN+LSTM的自动分类。

U: ...... 我们...客服的投诉信息自动分类。

D: Google最近的BERT模型,您知道吗?有1亿的参数训练,用在这里,效果肯定好。

D: 需要100万条标注语料,给我们4台GPU,必须是英伟达的,训练2周。

U: ...... 我们.....投诉分类。

D:我们公司的NLP技术是国家级项目成果,在国际比赛中可是第一名。

U: ...... 能不能有个懂客服业务的人啊? !.

D: ...... 

1.NLP应用之惑

上面这段虚构的对话,反映了当前自然语言处理(Natrual Language Processing)的应用现状。

一方面,NLP技术具有很高的门槛。(1)NLP技术的专业性很强。要处理一段文本,中间涉及很多个步骤,如自动分词、词性标注、句法分析、篇章分析等;也涉及很多个算法,如深度学习的CNN、LSTM、BERT等,每个算法都有其自身的约束条件,在条件满足的前提下,才能得到较好的效果;需要有大量的标注语料,让机器自动训练;当然也需要很强的算力资源,如GPU服务器等。NLP技术开发的过程,从外人看起来,更像是艺术创造。NLP技术是零散的,需要把各种NLP技术拼凑起来,还需要进行参数优化等大量的工作。而调参的过程,相当于黑盒子,需要技术人员反复尝试。(2)NLP的应用,需要与场景知识结合起来,需要有业务规则、标注语料等数据资源。但是很多时候,业务人员一句话就明白的业务规则,在这里却需要用上万条标注语料来说明,更不用说,标注语料要均衡、要定期更新等。(3)NLP人才缺乏,从事NLP开发的人员,要么是研究机构的学术研究人员,要么是BATJ大厂的“深度学习实验室”中的高端人才,据报道今年应届毕业的博士的入门年薪是80万,组建个团队价格不菲,只有少数头部企业,如BAT、华为、神州泰岳等,有实力参与其中。

另外一方面,NLP的需求广泛存在,只要有文本的地方,就有NLP应用的需求。NLP需求往往都不是独立存在的,只是存在与某个业务环节。比如企业风控中,有90%以上的工作是风控模型的构建与应用,为了扩大风控模型的数据源,希望用NLP技术从非结构化文本中提取风险标签,如裁判文书、招标公告等。大量的传统行业解决方案提供商,在某个行业有很好的客户资源和落地能力,他们希望在自己的产品和解决方案中增加NLP技术,提升非结构化数据的处理能力。这些需求过于零散,再加上给NLP的预算有限,所以头部企业很难为他们提供支持。另外,自己组建个NLP团队,代价太大,也很难吸引到高端人才。

NLP技术的门槛高,广泛存在的需求无法满足,是当前NLP应用的现状和困难。

2.授人以渔,还是授人以鱼

著名华人科学家、斯坦福教授李飞飞提出“AI民主化”是当前人工智能应用的主流趋势。Google、亚马逊AWS、Microsoft Azure均通过云平台,对外开放了部分NLP服务,如AWS的LEX会话机器人服务,微软的BOT工具提供认知服务和会话AI等。国内的BAT、华为们也通过人工智能平台开放NLP API,如句子向量表示、文本相似度计算等。可以看出,这些服务基本是以输出技术框架和基础技术为主,希望“授人以渔”,用户可以利用这些技术接口,进行二次开发,开发出满足业务场景需要的NLP应用。NLP应用的效果,平台无法保证,依然需要用户具有一定的专业知识,来完成优化。

鉴于NLP技术的专业性太强,上述“授人以渔”的开放方式,对不懂NLP的开发者来说,依然无从下手。泰岳语义工厂希望更进一步降低NLP的门槛,提出“授人以鱼”的民主化策略。

语义工厂不仅开放基础的NLP技术,同时将把神州泰岳数十年来,在多个行业典型用户积累的应用场景知识、算法、模型,打包成面向场景的服务,服务的效果已经在行业用户中得到验证。开发者只需要一次调用,输入待处理的非结构化文本,即可输出想要的结构化数据。整个过程,无须开发者标注数据,无须调参,无须长时间训练,无须二次开发,开发者即使没有任何NLP技术背景,也可以轻松地把NLP技术嵌入到自己的应用中去。

3.语义工厂的NLP开放赋能

语义工厂将开放包含NLP基础服务应用场景服务数据服务等三大类服务,涉及16个行业领域,共计200余项服务

(1)NLP基础服务

NLP服务提供7类共计43个NLP服务接口,可以通过restful方式方便快捷地调用,涵盖NLP基础、深度学习、分类聚类信息抽取情感计算、自动写作、对话机器人、效果评估等服务。

NLP基础服务,是神州泰岳人工智能研究院团队20年来,在NLP领域的研究和开发积累,并在真实应用环境下经过检验的NLP技术模块。基础服务的性能优异,均可达到实用。

NLP基础服务,面向的是懂NLP的专业开发人员,熟悉每个算法的优缺点,能调用一个或多个服务,快速搭建起一个完整的NLP应用。

NLP基础服务的适用客户,是在人工智能大数据行业(如视频、图像、语音等相关的行业)有一定积累,希望整合NLP的能力,完善自身解决方案的公司和个人开发者。NLP基础服务将免费开放给开发者。

(2)NLP场景服务

NLP场景服务涵盖16个行业领域共计142个具体场景服务,如银行、政府、互联网、电商、证券、保险、企业应用、运营商、娱乐、医疗、能源、军事、物流、科研等领域、通用领域以及场景定制化服务等。

NLP场景服务,是神州泰岳集团多年来NLP应用开发、项目交付积累的成果。自2011年以来,团队在为几大国有银行、电信运营商、政府机构等典型客户服务的过程中,将客户的场景化需求和业务知识,与NLP技术结合起来,研发了大量的业务模型,形成了很多面向场景的NLP应用系统,处理了亿级以上的数据,处理效果上均达到或超过了客户的预期。NLP场景服务,将把这些业务模型、NLP应用系统中的算法,打包成SAAS服务,对外开放。

NLP场景服务,面向的是完全不懂NLP的应用开发人员,本身在做java、python或前端开发,开发过程中,其中某环节需要用到NLP技术,对特定场景下的非结构化数据进行处理。

NLP场景服务的适用客户,是各个行业领域的应用开发商或解决方案集成商,主营业务是提供行业解决方案,如风险控制等,希望在自己方案中增加NLP的能力,但团队中没有NLP技术专家。NLP场景服务,将根据应用场景的复杂程度采取收费方式开放。同时,为了更好的满足特定场景下客户的NLP需求,也提供场景的定制开发服务。

(3)NLP数据服务

数据服务分5类,共计30个服务,包括语义资源服务、深度学习模型、数据资源服务、建模服务、数据加工服务等。

数据服务,开放的是神州泰岳人工智能研究院团队20年来,在NLP领域的研究和开发积累的知识库资源、语料库,以及训练好的模型等。如其中有一个“中文词向量模型”,提供全网语料覆盖最广、维度最全(字、词、偏旁等多个维度)的中文词向量,用户无须再费时、费力的训练自己的词向量,只需调用服务,即可在此服务的基础上,开展词向量相关的深度学习开发。

数据服务,面向的是懂NLP的专业开发人员,降低前期语料收集和标注、数据训练、资源整理等工作量,专注自身的开发需求。数据服务也支持定制化服务,如语料标注、资源加工等。

数据服务的适用客户,是有算法调优等开发需求的公司和个人开发者。数据服务将采取收费方式开放给开发者。

(4)NLP培训课程

NLP相关的培训课程,共计四类200节,包括:

1、NLP基础课程:介绍NLP的基本概念、基本处理流程、基础算法等内容;

2、NLP技能课程:介绍NLP开发相关的技能,包括需求分析、环境准备、服务调用、建模技能、效果测试、分布式调用等,以及各种工具的使用,TensorFlow、Spark等;

3、NLP资源课程:介绍NLP相关的多个知识库资源、数据资源等的背景、资源现状,以及如何做语料标注等;

4、NLP前沿课程:介绍最新的NLP研究动态、新的算法、新的应用等。

培训课程面向所有希望了解、提升NLP知识和能力的开发者。培训课程免费开放给开发者。

最后,我们再回到开始的客户(User)和开发人员(Developer)的对话场景,对话已经变成这样的。

U: 我们就是想给客服的投诉信息自动分类。

D: 这个啊,您只要调用我们“客服投诉自动分类”服务就可以了。

D: 我们这个服务的准确率和召回率都可以达到98%,已经有100个客户在用了,每天调用量有200万次。

D: 除了自动分类,我们还有一个“客服投诉信息的热点发现”服务,可以把投诉中无法归类的“其他”类自动细分,给出其中的热点类。

U: 这个我们需要。

D: 其实投诉信息中,还可以挖掘潜客呢,我们这有个“客服潜客挖掘”服务,能把投诉转换成绩效,对您肯定有用。

U: 这个我们也需要。

U: 还有什么服务,再给我介绍介绍......

D: 我们有16个行业,200多个服务呢,我给您说说......


“凡事都应该尽可能地简单,而不是较为简单。”  ——  阿尔伯特.爱因斯坦

泰岳语义工厂
泰岳语义工厂

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台,旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/
专栏二维码
产业情感计算信息抽取深度学习词性标注NLP
1
相关数据
AWS机构

亚马逊网络服务系统(英语:Amazon Web Services,缩写为AWS),由亚马逊公司所创建的云计算平台,提供许多远程Web服务。Amazon EC2与Amazon S3都架构在这个平台上。在2002年7月首次公开运作,提供其他网站及客户端(client-side)的服务。截至2007年7月,亚马逊公司宣称已经有330,000名开发者,曾经登录过这项服务。

相关技术
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~