晋耀红作者

面向NLP场景应用的智能辅助建模(三)要素树和概念树建模

我们以前文介绍的一个场景本体的实例,银行领域客服投诉分析挖掘的场景本体模型,来说明本体树辅助建模。模型包括三部分:本体模型、要素模型、概念模型。本文说明本体树模型的辅助建模。








要素树辅助建模

要素树辅助建模(也称要素发现)实现的功能是,对输入的客服投诉文本数据,利用深度学习等技术,对输入的要素“种子词”,自动发现种子词相关的实体,并对实体按照属性进行聚类,给出多种属性的下级要素,以自动对要素种子词的自动扩展,自动发现其下级要素。


以种子词“信用卡”为例,辅助建模给出的结果为:(冒号前是信用卡相关的语义聚类维度,冒号后是此维度下的相关实体)。

“业务”:“申请、升级、开卡、退款、签约”等

“卡种”:“白金卡、金卡、联名卡、招行金葵花卡”等

“费据”:“账单、年费”等

......

要素树辅助建模流程


步骤一
机器学习自动发现相关实体。利用深度学习算法,从客服投诉文本数据中自动计算出“信用卡”的相关实体和概念,并给出每个实体与种子词“信用卡”的相关度(用距离表示)。机器学习结果见上图。
步骤二
OEC Tagging语义聚类。利用DINFO-OEC平台提供的常用语义资源,对机器学习发现的实体进行有指导的语义聚类,如这里根据信用卡的业务知识,种子词“信用卡”的语义聚类结果包括“业务”、“卡种”、“费据”、“额度”等,这些结果构成信用卡要素的直接下级要素节点。这里的语义聚类的维度,可以由业务人员来指定,也可以自动聚类来发现。
步骤三
在DINFO-OEC平台中,要素树辅助建模的输出结果,就是要素树的节点,可直接加入到要素树上。在要素模型中可以方便查看。
概念树资源

在DINFO-OEC平台中,分类体系辅助建模的输出结果,就是本体树的节点,在本体模型中可以方便查看。


DINFO-OEC平台提供的语义资源包括2大类:

1、常用语义资源库,包括8万多常用概念,可以分为“心理概念”、“语言学概念”、“异常类概念”等类别。每类概念按上下位的类进行组织,如“心理概念”,其下级有“评价”、“情感”等,“情感”的下级有“高兴、悲伤”等概念。

2、领域资源库,包括60多个领域的3000万个概念,如银行领域、保险领域、快递领域等。

平台提供的语义资源,会定期自动更新。有专业的语言资源建设团队负责维护和更新。

概念树辅助建模

在特定的场景应用下,对概念的使用,可能会相当灵活,一个概念的表达不仅可以是一个词语,而且可以是一个短语,或一个子句,如“等了两天了还没送到”(表达“不及时”的概念),甚至可以是一段话。

对这种不是词语的概念,一般在平台提供的常用语义资源中不可能完整,而需要利用机器学习算法,从场景应用的数据中自动学习得到。概念树辅助建模,就是帮助自动发现这些复杂概念。

概念树辅助建模,输入一个种子词语,或者一个复杂概念的组合,如“态度+好”,建模工具会利用机器学习算法,对语料自动进行概念相似度计算,发现其相关概念。如“态度+好”的相关概念有“温柔、利索、忙前忙后、谦虚、和蔼可亲”等,“态度+不好”的相关概念有“蛮横、傲慢、冷淡、恶劣、冷漠”等。

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台,旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/
专栏二维码
工程语言建模NLP
4
暂无评论
暂无评论~