机器之心编辑部原创

英特尔「搅局」金融业?看银联如何AI反欺诈,人寿个性化卖保险

在数据中心江湖叱咤风云的英特尔如何助力金融垂直业的智能化升级?

时间倒回到 2000 年。

位于纽约的高盛美股交易大厅里人头攒动,电话声此起彼伏,银行业大客户的订单接踵而至,600 名交易员紧张而有序地进行着股票交易。

如今,这里只剩下三名股票交易员。高盛 3.3 万名全职员工中,超过 9 千名员工都是程序员和工程师。

「高盛是一家技术公司」,高盛 CEO 在近几年的公开场合中反复强调。华尔街的另一家巨头摩根大通也调整了自己的步伐。

摩根大通很早就设立了技术中心,聘用约 4 万名技术人员专门研究大数据、机器人和云基础设施,去年还引入了全球首创的机器人来进行他们的全球股票算法交易。

我国银行业协会数据显示,2017 年行业平均离柜业务率达到 87.58%。

金融业的智能化升级已经成为不可阻挡的趋势,因其注重数据和流程的行业特性,金融业在多年的运作中积累了海量数据,成长为人工智能技术天然的掘金池。目前,人工智能技术已经渗透进金融行业的前端、中台和后端,成为金融企业开展高质量数据分析和业务预测的重要手段。

在这个过程中,强大的算力平台、融会贯通的软件算法系统、有效的执行效力将扮演核心引擎的作用。

英特尔凭借着数十年的数据中心行业客户服务经验,通过出色的英特尔至强可扩展处理器及各类专业的解决方案集成平台在挑剔严谨的金融市场获得一席之地,有效地通过人工智能技术持续驱动金融行业发展,相继推出了金融反欺诈解决方案、信贷逾期风险预测解决方案、金融行业精准营销策略,并加速 AI 影像分析能力以推动保险行业的智能化升级。

一、金融行业需要什么样的 AI?

当前,金融行业在技术升级的支持下加速变革。一方面,新需求层出不穷;另一方面,潜在风险逐渐积累,金融机构需要具备快速应对的能力。

在风险形式上,传统风险与新型风险也正相互交织。除了层出不穷的传统金融欺诈手段,例如信用欺诈、盗刷欺诈、恶意套现以及保险业骗保等,伴随互联网时代出现的个人信息泄露、钓鱼网站、欺诈黑产化等问题,也带来更高频化、精准化的的金融欺诈犯罪。

「未来 5 年,风控和反欺诈将成为金融机构赢得市场竞争的重要因素之一。同时,这一领域也将催生一个巨大的市场」。有从业者这样认为。

按目前官方披露的数据推算,金融科技市场规模至少有 4000 亿元至 5000 亿元。尤其是最近几年,金融机构纷纷加大投资力度,运用大数据及人工智能相关技术提升信息管理水平、降低潜在风险,这为金融科技公司大显身手提供了绝佳舞台。

现在,随着 AI 技术的不断发展,在金融行业的前端、中台和后端,都已经有了相对成熟的应用方案。

1)在前端,感知类技术(计算机视觉、语音识别等)不断走向成熟,代表性应用已有客服聊天机器人、语音或者面部身份识别等。

2)在中台,AI 可以提高基于信息的分析决策效率,帮助用户更加快速地抓住商机。传统的商业智能和数据分析方法,往往停留在趋势分析、原因挖掘、数据挖掘与预测层面。而 AI 的引入,既延伸了分析的广度,也提高了分析的深度。

通过不断学习和完善,提高建议的相关性和特异性,AI 为风险管理、营销、服务等提供基于智能化的分析和决策。

3)在后端,比如行业合规以及 IT、财务等支持职能中,存在大量高度重复性的工作,AI 的重要应用之一,正是承担起这些重复性的人力工作。

二、定制化的金融 AI 软硬平台

在 AI 推理市场,英特尔至强处理器已经获得高度认可,占据 80%-90% 的市场。

作为创新之作,第二代至强可扩展处理器更将平台融合以及计算、存储、内存、网络和安全等功能均提升到了新的高度,提供比前代产品高出 25%-35% 的性能,且具备多项新特性,提升灵活性与安全性,增强内存性能,改善总体拥有成本,提升用户的生产力。

其中,金牌处理器 6200 系列,特别是主流的金牌 6248 处理器、金牌 6240 处理器、金牌 6230 处理器身为英特尔至强可扩展处理器平台的中流砥柱,加强对双 FMA 通道的支持,FMA 性能提升了 2 倍,能够适应更复杂、更多样化的应用场景。

面向深度学习应用,英特尔开源了一款性能增强库,是英特尔为了帮助开发人员充分利用英特尔架构,推进深度学习的研究和应用而创建的基础库。

在该库中,包含了高度矢量化和线程化的构建模块,支持利用 C 和 C++接口实施深度神经网络, 具备广泛的深度学习研究、开发和应用生态系统,适用于:Caffe、TensorFlow、PyTorch Apache、Mxnet、BigDL、CNTK、OpenVINO™ 工具包等丰富的深度学习软件产品。

为了有效提高深度学习模型在英特尔架构基础设施上的运行速度,英特尔 MKL-DNN 提供了众多优化的深度学习基元,比如矩阵乘法和卷积模块、矩阵乘法和卷积、内积等单元,可应用于不同的深度学习框架,以确保通用构建模块的高效实施。

为大幅提升了深度学习在 CPU 上的性能,英特尔还和众多开源社区合作,把英特尔 MKL-DNN 集成进各种深度学习框架。

如早在 2016 年,经过英特尔 MKL-DNN 优化的 Caffe,采用 E5-2697 v3 处理器,相对于原始的 Caffe 性能获得 10 倍提高。在最新一代铂金 9282 处理器上,ResNet-50 上实现了每秒 7736 张图像的领先性能。

目前,英特尔 MKL-DNN 已成为众多深度学习框架在 CPU 上的基本配置。

在数据分析层面,英特尔开源了 Analytics Zoo「大数据分析 +AI」平台,将 Spark、TensorFlow、Keras 以及 BigDL 等软件与框架集成到一个统一的体系,并扩展到大型 Apache Hadoop/Spark 集群,用于深度学习所需的分布式训练或预测。

Analytics Zoo 可在大型英特尔至强可扩展处理器的集群上运行,它允许用户直接在既有的大数据基础设施上开发和运行深度学习应用程序。通过 Plain Old Java Object(POJO)、本地 Java API 或 Scala/ Python 模型加载 API,可无缝集成到 Web 服务中。

针对边缘侧的视觉处理提速,英特尔还特意推出 OpenVINO 工具套件,通过英特尔 AVX-512 以及采用 VNNI 的英特尔深度学习加速技术,在英特尔架构平台上,将计算机视觉相关深度学习性能提升 19 倍以上。

OpenVINO 基于通用 API 接口在 CPU、GPU、FPGA、VPU 等各种硬件设备上均可运行。借助这一工具套件,开发者无需改变软件,即可快速完成硬件升级和算法移植。

三、四大方案落地,针对性攻破

围绕金融反欺诈、风险预测、客户营销、智能核保等多个场景,通过英特尔与中国银联、中国人寿上海数据中心、万事达卡以及中国平安等合作伙伴的经典案例,我们将详细阐述实战中的部署和应用。

1、金融反欺诈:三层融合的「三明治」模型

在金融领域建立反欺诈应用模型时,通常面临缺少足够的用户历史交易数据的难题,且绝大多数数据都源自正常交易行为,10-100 万份正常数据中仅有 1 份非正常交易数据。

传统的模型主要依靠不断建立、更新基于用户行为特征的规则库。当交易发生时,系统调用既定的规则引擎来监测该笔交易潜在的风险。但随着业务场景的增多,交易规则复杂度不断提升,传统的规则系统风的资源消耗和监控时延的压力持续增加。

基于 AI 的金融反欺诈模型通过「对规则的自我学习」,能够实现更为准确和客观地判断。

由于仅依靠机器学习对序列化的交易特征学习能力不足,同时单一的深度学习模型对单笔交易内的特征学习能力有限,于是,中国银联联合英特尔提出多层机器学习 + 深度学习模型,大幅提升反欺诈模型的性能。

针对学习历史交易数据不足的问题,利用建模过程平台可从少量的原始字段中衍生出了几百个特征因子,归纳成当笔 / 上笔交易、长短时统计以及可信特征变量等 6 大维度,并通过这些特征工程来帮助模型进行更好的学习。

在「三明治」多层反欺诈侦测模型,英特尔构建「GBDT—>GRU—>RF」三层架构。

首先,针对单一深度学习方法 (例如 RNN) 在单笔交易内特征学习能力上的不足,英特尔建立 Analytics Zoo 工具,在框架的前端引入 GBDT 模型进行特征优化,并将优化后的特征与人工特征相结合,作为 GRU 网络的输入,以此来学习序列间的特征,并且将单笔交易内的特征时序化。

这一过程可以对数据实施有效的过滤,从而为后续的 GRU 模型提供真正有用的数据。

在中间层,框架并没有直接使用 GRU 网络的输出作为直接的欺诈侦测判别,而是将其作为序列间特征学习的一环,将学习得到的序列间特征与原先的交易内特征相结合,形成最终交易特征向量。

最后在此基础之上,为进一步地将时序特征进行融合学习。在框架的最后,这一架构还叠加了一个顶层的 RF 模型,作为最终的欺诈判别分类器。

通过与发卡量和交易量市场份额位于世界第一的中国银联实战合作,英特尔在上百个节点组成的训练集群上开展其反欺诈侦测模型的构建,已在伪卡/套现欺诈侦测等场景中进行了实测,并获得良好效果。

通过多方位的测评,全新的多层反欺诈模型无论是在召回率,还是在准确率方面都达到预期效果。与其他机器学习、深度学习模型,或者多层模型相比,三明治结构(GBDT->GRU->RF)反欺诈模型的精度-召回曲线最优。随着数据非平衡率的增加,三明治结构反欺诈模型的 F1 值下降最为缓慢。

完成流程化建模和多层反欺诈侦测模型构建后,银联将该套方案进行了封装和整合并提供 API 接口,业务人员输入入参后,即可获得经过智能模型运算分析后的结果指标。

以三明治结构的欺诈侦测模型为例,可以为伪卡、套现等欺诈侦测场景提供底层模型支撑,业务人员并不需要深入研究这些复杂的模型,仅调用上层 API 即可。

在这一创新过程中,英特尔不仅为这一新型的反欺诈模型提供了高性能处理器产品作为动力引擎,针对三明治结构欺诈侦测模型提供了有针对性的优化手段和工具,进而帮助整个反欺诈模型进一步提升了效率。

2、信贷逾期风险:深度学习+机器学习双剑合璧

目前,商业银行针对信贷逾期风险预测主要有两类应用场景,一类是在贷款前就进行的贷前风险评估,其主要关注预测结果的时效性和可解释性; 另一类是针对贷款发放后的贷后风险预测,其主要关注预测结果的准确率和可解释性。

纯粹的深度学习往往是一个黑箱状态,缺乏可解释性,而这正是金融机构所看重的——他们需要可解释的信息和条件算出特定的预测结果。这些解释能够指导金融客户改善业务流程、改进客户体验。

模型融合可有效提升算法的可解释性和准确性,不同模型的学习训练原理不同,所学到的知识也不一样,将其融合可提升训练效果。或直接使用不同模型的结果文件进行融合,或使用一个模型的预测结果作为另一个模型的特征进行训练,然后得到新的预测结果。

例如,将树模型 XGBoost 和 LSTM 融合,使预测能力得到进一步增强,同时又保证了模型的可解释性。

XGBoost 已经开源,基于英特尔架构优化 TensorFlow 深度学习框架所构建,允许模型与 Scikit-Learn 框架中的其他分类器或回归器协同使用,通过调用英特尔针对数据分析和机器学习的加速库,充分利用英特尔架构的硬件资源,加速训练和推断过程。

在基于深度学习模型 (LSTM) 和传统机器学习模型 (XGBoost/RF) 的贷款逾期风险混合预测模型中,首先是特征分析和数据预处理,处理包括缺失数据、数据范围、数据不平衡性等方面,以及数据重要特征的分析。随着数据集容量的增加和复杂化,该模型还可以使用不同的预处理工具包和新模型来应对各种类型的数据输入。

第二步,利用深度学习模型和传统机器学习模型分别对样本数据进行训练和推理,并各自得到相关的结果;而后,混合模型会将分别对结果进行加权处理,更新权值并做出预测。

方案的最后一步,是将本轮的预测结果重新导入模型头部,根据预测效果更新特征值和权值,并进行下一轮的预测。

在软件栈中,左侧底层由英特尔至强 6130 处理器和英特尔以太网融合网络适配器 X710-DA2 构建的硬件基础设施;其上是 AI 能力层,部署了英特尔 MKL- DNN 或 MKL、面向英特尔架构优化的 TensorFlow1.10 以及 Python 分发包。

右侧,底层是由英特尔至强 5118 处理器和英特尔以太网融合网络适配器 X710-DA2 构建的硬件基础设施,其上是数据层。在 AI 能力层和数据层之上,部署了贷款逾期风险混合预测应用。

其中英特尔 AVX-512 为 XGBoost 模型提供出色的并行计算能力。

一个完整的贷款逾期风险混合预测方案包括外部数据处理子系统、在线系统以及离线系统。对于外部数据,统一汇入数据规划与监控平台,而后由一个服务接口将部分数据送至离线系统。

在离线系统中,来自外部数据子系统和在线系统的部分数据被汇入一个数据集市 (Data Mart),清洗之后,进入离线的模型训练和算法部署流程,经训练后的模型算法将被导入在线子系统的预测系统中。

经过某大型商业银行实际部署后证明表明,最终的混合模型方案可以有效地提升 预测的准确率,并大幅降低预测时延。

数据显示,与人工预测方案相比,LSTM 方法的准确性提升一倍,而混合模型方案的预测准确率能够提升 2 倍以上,同时预测时延则缩短到了 2 天 (效率提升 10 倍以上)。在线预测方案 (可放贷风险预测) 中,每笔预测时间均小于 1 秒,显著提升客户满意度。

3、推荐系统:神经协同过滤+宽深模型模型

推荐系统已经成为许多行业拓展销售和服务的关键工具。例如,有 80% 的用户在 Netflix 上通过推荐来选择所观看的电影;而 YouTube 上的这一数字为 60%,且基于深度学习的推荐系统在推荐质量方面正获得越来越多的认可。

中国人寿上海数据中心是保费收入超过四千亿元的超大型保险企业中的重要一员。过去,他们的营销人员只能通过个人从业经验和公司的主推险种来给客户推荐,而很少考虑到客户自身的需求。尤其是对于没有经验的年轻营销员来说,更容易产生误导式的推销。

因此,中国人寿上海数据中心计划以数据为支撑,通过基于深度学习的推荐模型帮助业务人员高效地推荐个性化险种,从而解决因业务规模和险种规模不断扩大带来的问题。

通过采用英特尔的大数据平台 Analytics Zoo,中国人寿上海数据中心推荐系统的命中率为 99.8%,归一化折扣累积增益到达 0.66,这一结果超过了预期的数值。可以认为,该推荐系统具有良好的效果。

作为全球领先的支付解决方案提供商,万事达卡 (MasterCard) 拥有 26 亿张信用卡,年交易量达 560 亿笔,通过引入英特尔 Analytics Zoo「大数据分析 +AI」平台,构建基于深度学习的推荐算法。

通过与基准 ALS 模型进行比较,万事达卡的深度学习模型有显著的改进。

利用 Analytics Zoo 提供的端到端 AI 与大数据分析能力,金融企业得以快速地利用自己的数据资源,在其既有大数据平台上构建深度学习模型推荐系统,无须从头建设,可大幅减少金融企业建设业务推荐系统的成本与时间。

4、影像分析:ResNet+Caffe 优化方案

保险行业中的各个险种都对图像分析有着巨大需求。

例如,车险的投保和出险,需要被投保人在投保系统中上传身份证、行驶证、车辆合格证等证照,再由后台工作人员进行审核。常用的各类证件、签章多达数十个,全部采用人工审核不仅费时费力,出现错误也无可避免。再例如,日益受到关注的健康险,也需要相关核保人员判读被保险人的 X 光、CT 等影像,进而对被投保人的近期和远期健康状况做出准确评估。

针对该领域的 AI 应用,英特尔人脸检测、比对、识别、活检等各个模块上都有相应的算法和模型可供参考。例如,由英特尔推出的 OpenVINO™ 工具套件已经提供了几十个预训练好的 AI 模型,让用户无需从零开始构建诸如人脸检测识别等 AI 应用。

深度神经网络是目前 AI 影像分析中应用最广泛的网络模型之一,在经典的深度神经网络中,网络层数越多,能够提取到的不同层次的特征越丰富。同时,更深的网络,能够使得提取到的特征更抽象,更富有语义信息。

但随着深度不断增加,退化 (Degradation) 问题也随之产生,即准确率会先上升直至饱和,而继续增加深度,却导致准确率逐渐下降。残差网络 (Residual Net,ResNet) 可以有效地解决这一问题。

针对众多流行 AI 框架,诸如 BVLC Caffe、TensorFlow、Apache MXNet 等,英特尔进行了大量的优化工作。以 Caffe 为例,其相较于 BVLC Caffe,英特尔至强可扩展处理器的优势得到进一步释放,实现 1+1>2 的效果。

与面向英特尔架构优化的 Caffe 框架结合层融合技术,使 ResNet 等卷积神经网络在英特尔至强可扩展处理器平台上进行 2D 图像推理时,可媲美甚至超越现有平台。

同时,平台还对 INT8 精度推理有着良好的支持,且框架提供的 calibration 等工具可以实现神经网络无缝切换到 INT8, 进而更大幅度提升性能。

一项数据表明,与使用 BVLC Caffe 相比,英特尔至强可扩展处理器单位时间推理性能可提升达前者的 51 倍之多,推理时长则缩短至前者的 4.7%。

医学影像不仅是医疗机构最常用的诊疗依据,也是保险机构判断被保险人健康状况的重要依据。中国平安基于 2D 图像分类、检测及定位上有着非常优异特性的 ResNet 和前沿的 3D 图像分割模型 V-Net 分割网络,采用面向英特尔架构优化的 Caffe 等深度学习框架,对 2D/3D 医学影像进行 AI 推理。

在 2018 年初的肺结节分析评测中,平安不仅在肺结节智能读片技术中荣获全球第一,更分别以 95.1% 和 96.8% 的精度,刷新了「肺结节检测」和「假阳性筛查」的世界纪录。高效的医学影像分析能力将帮助保险公司准确地分析出所核实的保险是否是骗保的行为,从而大幅提升其保险业务能力。

基于 AI 的影像分析能够有效助力金融机构提高业务办理效率、防范欺诈风险并提升用户体验。通过 Caffe、TensorFlow 等深度学习框架,此类应用已经在保险行业的智能核保流程中,针对病理影像判读、、票据处理等场景获得了广泛的使用。

在各界金融机构都积极引入人工智能技术的当下,把控风险、降低人力成本、提升业务价值成为金融行业升级的关键,英特尔针对各大领域龙头企业打造出的专业性方案极具针对性和借鉴价值。

在这个过程中,原有数据库架构和技术资源得以保留,算法能力和 IT 设施基础却在潜移默化地完成了升级,业务能力和客户体验进一步提升,英特尔核心至强算力平台与 AI 算法融合的价值也在方案落地的那一刻得以实现。

产业金融业英特尔
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

人脸检测技术

人脸检测(face detection)是一种在任意数字图像中找到人脸的位置和大小的计算机技术。它可以检测出面部特征,并忽略诸如建筑物、树木和身体等其他任何东西。有时候,人脸检测也负责找到面部的细微特征,如眼睛、鼻子、嘴巴等的精细位置。

暂无评论
暂无评论~