晋耀红作者

面向NLP场景应用的智能辅助建模(四)本体表达式发现

我们以前文介绍的一个场景本体的实例,银行领域客服投诉分析挖掘的场景本体模型,来说明本体树辅助建模。模型包括三部分:本体模型、要素模型、概念模型。本文说明本体模型的辅助建模,也即本体表达式发现。



本体表达式发现

本体模型包括本体树和领域模型,领域模型是本体树对应的推理规则的形式化描述,这里是客服投诉分类相关的业务知识。领域模型支持两种类型,一种是概念模型,另一种是机器学习预训练模型。这里的“本体表达式”,是概念模型的形式化规则,说明客服投诉的业务知识,一般是用“客服人员-态度-不好”这样的三元组表示的,其中“客服人员”是投诉对象,来自于要素树,“态度”是投诉涉及的属性,也来自于要素树,“不好”是投诉中对投诉对象涉及的属性的评价性描述,来自于概念树。

本体表达式发现,就是从客服投诉文本数据中,利用NLP和机器学习算法,自动从文本数据中发现类似于“客服人员-态度-不好”这样的三元组表示,辅助业务人员构建领域模型。



关于本体表达式发现,有3点说明:

1、本体表达式发现,本质上是关联规则发现,发现过程需要用到词义消歧、信息抽取、语义角色标注、句子语义分析、上下文推理等技术和算法,这些算法都封装在辅助建模工具中,业务人员不需要关心,只需要利用辅助工具对投诉文本数据处理即可。

2、为了说明方便,这里只说明三元组的发现,本体表达式的表示可以很灵活,还可以是二元组、四元组,甚至更多的要素和概念组合,业务人员可以根据需要,制定本体表达式发现的模板。

3、领域模型,还可以是机器学习模型,也就是给特定的本体节点,配置一个机器学习算法,通过对客服投诉文本进行自动训练,自动生成机器学习模型。由于机器学习模型一般是个黑盒子,不需要业务人员参与,所以辅助发现,重点针对的是概念模型的形式化规则。

本体表达式发现的流程

本体表达式发现的流程如下图说明。发现的过程是有指导的,图示中的每个步骤中的绿色框的“用户操作”内容,是需要业务人员干预的。图示中每个步骤中的蓝色框的“系统输出”,是辅助建模工具根据用户操作的结果,调用算法,自动实现并输出的。

步骤一

用户操作,选择产品类,也就是选择本体树节点,确定为“信用卡”节点,来进行本体表达式发现。

步骤二

用户操作,配置业务规则模板,这里配置的模板是个三元组“e_信用卡+e_属性+c_评价”,其含义是:第一个元组“e_信用卡”,来自于要素树中“信用卡”的要素节点,可以包括各种信用卡卡种、名称等;第二个元组“e_属性”,来自于要素树中“属性”的要素节点,可以包括各种属性的描述,如“态度、效率”等,不仅限于信用卡的;第三个元组“c_评价”,来自于概念树中“评价”的概念节点,可以包括如“好、不好、温柔、蛮横”等。




步骤三

机器学习关联发现e+e,这是系统自动操作输出,不需要用户干预。这里的第一个“e”,指的就是模板中的“e_信用卡”,这是用户输入的确切信息。这里的第二个“e”,指的是模板中的“e_属性”,这是一个宽泛的要素,其下级可以有各种属性,如人的属性(身高、态度等)、信用卡的属性(外观、使用等)、树的属性(高度、树种)等。这里的关联发现e+e的处理策略是,利用机器学习算法,去发现那些与第一个“e_信用卡”有关联的“e_属性”的具体值。比如人的属性“态度”与“e_信用卡”有关联,而“身高”属性与“e_信用卡”就无关。关联发现e+e的输出结果就是,与“信用卡”相关的属性词汇列表,如“申请、年费、账单、业务员”等,每个结果都有相关度距离表示其关联程度。系统输出结果,可以记为“e2”。对系统输出结果,辅助建模工具提供增删改操作,用户可以进行修改,以提高发现结果的质量。

步骤四

机器学习关联发现e+c,这是系统自动操作输出,不需要用户干预。这里的“e”,指的是步骤3输出的属性结果,如“年费、态度、业务员”等。也就是对步骤3输出的每个结果,在这里都要执行一次“e+c”的关联发现,去发现每个e有关联的“评价”概念。如与“态度”关联的评价概念有“温柔、利索、谦虚、和蔼可亲”等,与“业务员”关联的评价概念有“怠慢、欺骗”等。对每个系统输出结果,辅助建模工具提供增删改操作,用户可以进行修改,以提高发现结果的质量。




步骤五

机器学习三元组关联“e+e+c”,这是系统自动操作输出,不需要用户干预。这里是要把步骤3发现的e2,和步骤4发现的评价概念,进一步和“e_信用卡”进行关联发现,确认他们是不是一个有效的、具体上下文中合理的关联。比如“信用卡-业务人员-怠慢”是个合理的关联,会作为一个三元组输出,而“信用卡-申请-温柔”不是个合理的关联,不会输出。

三元组关联的核心是对“e+e+c”这三个要素和概念的上下文进行判断,以确定出合理的关联。这里的上下文判断包括以下几种情况(不限于这几种,辅助工具在不断扩展判断类型):

1、句子范围判断,同句优先。如果三个要素和概念,在同一句子中,会优先判断其合理关联。

2、否定概念排除。如果某个元组在投诉文本中,被否定概念限定,则在三元组关联时会排除掉,不会被确认为合理关联。如评价概念“怠慢”在这样的上下文中“业务人员一点都没怠慢”,虽然在步骤4中会输出“业务人员-怠慢”这样的“e+c”关联,这里也会被排除。

3、疑问概念排除。如果三元组在投诉文本中,所在句子是一个疑问句,那么会优先排除,不会被确认为合理关联。如“信用卡年费是过高吗?”中识别出的“信用卡-年费-过高”,会被排除。

4、引用排除。如果三元组在投诉文本中,所在句子是一个引用或转述的,那么会优先排除,不会被确认为合理关联。


本体表达式发现的结果

在DINFO-OEC平台中,本体表达式发现的结果,经业务人员确认,可以添加到本体模型中相应节点中,作为这个节点的领域模型。


本体表达式发现的更多示例

在本体表达式发现的辅助下,业务人员可以针对不同的业务场景,来构建不同的本体模型。下面是银行领域常见的几个客服投诉本体模型。这些模型都是利用辅助建模工具,对客服投诉文本进行自动学习发现,辅助业务人员建设的本体模型。


泰岳语义工厂
泰岳语义工厂

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台,旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/
专栏二维码
工程NLP
2
暂无评论
暂无评论~