AI+金融 | 交互式文本特征提取框架X-Encoder,助力金融机构释放资源负担

随着金融科技的深入发展,在提高风控技术深度的同时,技术所能覆盖的广度也愈加被金融机构看重。面对移动互联网带来的海量数据,如何有效应用不同维度、不同结构的数据,也成为大多数技术公司重点关注的领域。

氪信拥有服务大型金融机构的丰富行业经验,在将技术融于金融场景的过程中,我们发现很多信息丰富度极高的数据并不能被结构化的特征提取方式所抽取——比如业务中留存的客服语音,除了用户行为信息数据,也包含了大量能够识别用户信贷风险的信息。

在传统金融机构中,对这部分信息的利用只能依赖于业务经验丰富的客服人员、业务人员的感性分析,但无法对这样非结构化的数据进行定量的特征抽取。氪信在与客户深入交流并且深度挖掘了这部分数据后,提出了X-Encoder作为特征提取框架,量化抽取交互式问答文本中隐含的用户信贷风险特征。

自然语言处理任务通常较为复杂,而在客服语音这样的交互式文本中,客服与用户之间动态的语意变化,更是使得自然语言处理任务的复杂度呈指数级上升。工业界、学术界的大牛们因而提出了各种各样基于机器学习深度学习的技术,旨在降低交互式文本的复杂度。

X-Encoder是基于很多工业界与学术界的尝试,删繁就简,利用卷积神经网络,借鉴自编码的网络结构(如下图),通过客服人员、用户双方的语音文本作为网络结构的输入输出进行交互训练。输入文本经过在全量文本上训练的word2vec转换,降维成较低维度、信息密度更高的矩阵,并通过训练编码器和解码器、拟合输出文本的word2vec矩阵,使得中间层能够更好地表达由输入至输出的语意转换逻辑

X-Encoder作为一个交互式文本的特征提取方式,从稳定性和容错性的角度,借鉴了业务人员的感性思路,从整体的文本用词、句法层面,判断用户的信贷风险,弱化了客服人员与用户在互动的过程中语意发生的过为细微的偏移。这基于自编码网络结构的魅力——在无法评估中间层特征提取质量的时候,将特征的质量问题转化为解码后的输出质量,使得整个网络在逻辑上具有连通性。

同时,为了保证交互双方语意信息提取的全面性,我们通过构造两个网络并交换输入输出的方式,从客服人员和用户的角度,分别提取压缩后的语意。在训练好网络结构后,我们分别从两个网络中抽取中间层特征向量作为文本的表征向量进行后续建模。

对于X-Encoder的特征评估,我们比对了多种特征提取方式与X-Encoder提取特征的信息度(如下图)。

利用人工经验提取文本内容的特征iv量级在0.1左右,方式略强于通过暴力LDA提取文本信息,但这两种方法都远远低于利用X-Encoder构建的深度学习特征提取框架。

这样的信息度对比也能体现在固定测试集的多特征集评估结果:基于X-Encoder的深度学习框架所提取的特征,在单独进行催收模型训练时可在外推集上达到0.311的ks,效果远超于人工特征+LDA特征的0.201的模型ks。

我们通过大量实验发现,从长远角度看,利用先进的技术进行文本非结构化特征提取,可以显著补充业务人员的经验特征,提升效率和效果。人工智能迅速发展的今天,相比于希望利用人工智能解决一切问题,我们更关切的是如何利用技术释放不必要的资源负担。

氪信科技
氪信科技

国内领先的智慧金融科技领域科创公司,致力于运用氪信AI引擎与全域知识图谱,融合率先浸入大型金融场景打磨形成的知识体系和实战经验,助力金融机构业务升级并实现用户价值放大、风险控制强化和经营效率提升。公司成立于2015年12月,总部位于上海,在北京、深圳、南京设有分公司。

产业金融X-Encoder
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

特征抽取技术

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~