智能质检新实践:「双模」质检

两种模式,各司其职

原文来自:循环智能(Recurrent AI)公众号

上篇文章,我们介绍了新一代智能质检模式——基于 深度学习技术的“非正则”质检落地应用效果:在很多质检项上远超“关键词+正则”的传统模式,能多找出 2~10 倍数量的目标通话,并且介绍了其工作原理与“关键词+正则”的区别。

随着 自然语言处理(NLP)领域技术的发展,以“非正则”质检模式为主、“关键词+正则”模式为辅的方案已成为未来发展趋势。两种模式将长期共存,因为它们各有其更擅长做的事情、更适配的场景

“关键词+正则”模式的 2 种适配场景

在实际应用中,“关键词+正则”作为一种基础质检模式,越来越难以满足企业在质检效果和效率上的精细化需求。但是,这种模式也有它的优势:上手快。

当企业提出一个新的、此前从未用过的质检项时,质检项的标准尚未完全确定,因此可以用“关键词+正则”模式先跑起来,快速进行探索和迭代。其后根据初步探索和迭代的结果,再判断是否可以升级到基于 深度学习技术的“非正则”模式。这是适配“关键词+正则”模式的第一种场景。

第二种场景:当一个质检项命中的目标通话量比较少,只有几百甚至几十条,就无法产生足够的“正例”给 机器学习模型进行训练,只能继续采用“关键词+正则”模式。这是一种被动场景,也是比较常见的场景。

还有一种场景比较特殊:有些质检项命中的目标通话比较多,原则上可以用来训练 机器学习模型,但是因为“关键词+正则”已经得出不错的结果,既找得全(术语叫召回率高),又找得准(术语叫 准确率高),两个值都超过 90%,那么暂时就不迫切需要升级到“非正则”质检模式了。比如很多企业需要的正向质检项——“礼貌问候”,因为可以穷举出大部分“礼貌问候”的用词,用“关键词+正则”模式就能得到双 90%的结果。

不过,这种场景非常少见。大部分情况下,“关键词+正则”质检模式相比基于深度学习技术的“非正则”质检模式,在找全率和找准率上有很大差距

“非正则”模式的 2 种适配场景

在实际应用中,基于 深度学习技术的“非正则”质检模式(原理细节可参考上一篇文章),可以大幅提升质检效率,更好地解决企业质检任务的痛点:传统“关键词+正则”的模式,很难找得全和找得准目标通话,大大影响工作效率——如果找不全,就意味着会遗漏很多目标通话;如果找不准,就意味着在人工复检时会浪费大量人力。

我们之前分享过实际对比的例子,贷后资产管理领域的基础质检项“恐吓威胁”,采用基于 深度学习技术的“非正则”质检模式找出的违规通话量是“关键词+正则”的 9 倍。

考虑到在实际使用中,质检项与命中的目标通话量之间的关系也存在“二八法则”——20%的质检项贡献了80%的质检量,所以将质检量大的少数质检项升级到“非正则”模式,往往可以大幅提升整个质检任务的找全率和找准率。这是“非正则”质检模式的第一种适配场景,也是主要的适配场景。

第二种场景:某些质检项,虽然从某一家企业的角度看,所命中的目标通话量不算大,但是这个质检项是整个行业中较为成熟的、通用的质检项,其他企业也都在用,那么就可以采用基于 深度学习技术的“非正则”模式进行模型训练。因为其他企业都可以比较快速的复用或者经过简单调整之后复用,所以“非正则”模式带来的收益就更高。比如,消费金融领域的正向质检项“提示逾期天数”;客服领域的负向质检项“暴露客户隐私”等都是各自领域或行业通用的。

与“关键词+正则”质检模式相比,基于深度学习技术的“非正则”模式,不再需要既懂业务又懂正则的稀缺人才编写规则和迭代规则,只需要普通人快速进行数据标注即可训练算法模型,而且通常能得到更好的效果。唯一显著的缺陷就是,如果没有数千条数据,很难训练出效果好的模型。

“双模”质检,各司其职

当前阶段,质检项应该采取哪种模式,主要取决于该质检项产生的目标通话量大小——通常数量大,才能快速标注数据、训练出更好的算法模型,采用“非正则”模式,否则仍需要继续使用“关键词+正则”模式。

其次也要考虑到质检项的成熟度——太新的、标准尚不明确的质检项,适合先用“关键词+正则”模式迭代起来,再决定何时升级到基于 深度学习技术的“非正则”模式。

综合来看,循环智能在实践中采用“双模”方案,让两种模式各司其职,可以最大程度提升质检效率。

循环智能(Recurrent AI)
循环智能(Recurrent AI)

循环智能是一家企业服务公司,通过机器学习的方法,分析企业与客户之间的语音沟通记录、文本沟通。公司的主产品是基于对话数据的 AI 销售中台。

https://www.rcrai.com/
产业智能质检深度学习
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~