打破AI黑盒,用机器学习+知识图谱助金融机构反洗钱

2020年反洗钱监管工作仍将持续向纵深发展,监管力度仍处于不断收紧的态势,资管机构亟需提升反洗钱能力。

反洗钱,是指预防通过各种方式掩饰、隐瞒毒品犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪、贪污贿赂犯罪、破坏金融管理秩序犯罪等犯罪所得及其收益的来源和性质的洗钱活动的措施。

01 2020,仍是反洗钱监管大年

自2007年中国正式加入反洗钱金融行动特别工作组(FATF)以来,我国反洗钱和反恐怖融资的监管工作不断加码。央行、银保监会、证监会陆续出台文件,涉及互联网金融、银行业、特定非金融机构等领域,因违反反洗钱规定被罚已成为资管机构罚单重灾区。

处罚力度方面,央行对违规机构的罚没金额逐年加大。在刚刚过去的2019年,央行披露的整年的反洗钱罚单达354张,金额达1.38亿,超过2018同期数据,整体呈“量价齐飞”的特质。

2020年开年不久,监管针对“反洗钱”的相关处罚持续呈现出高压态势,央行不光频频开出千万级巨额罚单,还进行了“双罚”,监管力度可见一斑。

与此同时,FATF第31届第二次大会于2020年2月19日至21日期间在法国巴黎举行。会上FATF公布将于2020年6月审查各国关于FATF新监管指南的执行情况,包括虚拟资产经营者在反洗钱、禁止恐怖主义融资等方面是否有所进展等。

去年2月,FATF全会审议通过了中国第四轮反洗钱和反恐怖融资互评估,报告认为中国反洗钱和反恐怖融资体系具备良好基础,同时存在一些问题需要改进。

内外高压下,可以肯定的是,2020年反洗钱监管工作仍将持续向纵深发展,监管力度仍处于不断收紧的态势,资管机构亟需提升反洗钱能力。

02 资管机构反洗钱,难点在哪?

随着金融交易平台越来越多,移动转账和支付的普及,复杂的国际法以及数字货币的出现等,交易量快速增加,导致成倍增加的案件与有限人力资源反洗钱之间的矛盾凸显。

海量数据使单一金融机构在监测洗钱资金流向、研判可疑交易、定位犯罪分子等方面存在困难,具体表现在:

  • 传统的风险监测方法导致了较高的误报率和大量人力浪费

随着金融业务模式的发展,基于规则策略、依靠人力甄别的传统风险监测方法在准确性和处理效率方面能力不足,难以适应线上业务发展和海量交易数据处理要求,以至造成大量的人物力浪费。

以商业银行为例,传统洗钱风险监测方法多是采用:依据总行反洗钱事后系统(由反洗钱专家设置反洗钱模型和指标),由反洗钱甄别人员每天对海量交易进行规则过滤,对触发模型的异常交易进行甄别的方式进行异常交易账户户甄别。

甄别人员面临海量交易数据,不仅工作量巨大,效率低下,影响了可疑案件上报流程的整体效率及案件审核流程的规范性。还存在大量误报漏报风险:

一方面,采用基于人工总结的规则模型进行异常交易监测会带来较高的误报率;

另一方面,面对比如具有小额高频特点的交易行为,甄别人员很难从中准确识别可疑交易而导致漏报,最终导致机构的有效可疑交易报告上报率低。

  • 基于历史经验的反洗钱规则系统无法识别多重身份或具有复杂交易路径的洗钱行为

目前,反洗钱模型和指标依赖于专家对过去反洗钱工作经验的总结。但近年来,通过复杂金融交易进行洗钱和资金转移的趋势愈加明显。

狡猾的犯罪团体往往使用多重身份、大量账号、低频交易、变换交易路径等复杂的方式混于正常交易之中,或通过跨行转账、证券投资、跨境支付、投资贸易、艺术品拍卖、赌博、数字货币等手段掩盖洗钱交易行为。

以商业银行为例,通过跨行交易切断资金链,已成为洗钱及其上游犯罪资金转移的惯用手法,单凭单点银行系统提取的账户交易信息,难以准确发现账户交易的可疑特征。

再比如国际上,随着跨境贸易频繁发生,“贸易洗钱”已经成为重要的犯罪渠道,具有涉案金额大、影响范围广、隐蔽性强等特点。依赖既往经验的反洗钱规则系统难以对以上洗钱交易行为进行有效甄别。

  • 传统的客户身份识别方法无法进行多层次的账户关联关系分析和可疑身份定位

从2019年监管部门反洗钱行政处罚情况来看,机构违规具体内容中,“未按照规定履行客户身份识别义务”为违规类型之首。而事实是客户身份识别一直是是反洗钱工作中的攻坚难点。

要准确识别客户身份不仅要了解客户的基础身份信息,而且需要了解客户的行为特征信息,以及客户与客户间的交易关联关系。

这就需要对客户的多维数据汇总分析,对与客户相关联的自然人或者非自然人的身份,以及他们之间发生的交易行为进行核实、调查和确证。且因为客户的社会关系总是复杂多变,因此持续识别也非常重要。

当前大部分反洗钱合规系统的基础都是关系型数据库,但关系型数据库并不擅长处理关联问题。无法对复杂的客户关系网络和资金流转网络进行构建,难以解决多层级的账户关联关系挖掘以及逐层计算分析等,而这些对于分析资金流动痕迹和评估账户洗钱风险至关重要。

03 用前沿科技手段,提升反洗钱能力

显然,在面对海量复杂的数据时,人类的处理和决策远落后于机器。借助知识图谱机器学习人工智能等科技力量,可帮助资管机构提升合规水平与数据探索综合能力。

认知智能服务厂商渊亭科技针对合规成本高、误报率高、识别难度大、缺乏有效性和灵活性等行业痛点,设计推出“反洗钱智能交易监测分析平台”。综合利用机器学习在特征发现和规律学习的优势以及知识图谱在关联挖掘和知识计算方面的优势,基于海量数据驱动,融合反洗钱专家规则,形成可解释的、可自主学习的、可主动预警的自动化智能反洗钱应用。

致力于帮助资管机构实现客户全生命周期动态画像和风险分类、可疑交易事件穿透式监测、洗钱行为特征知识沉淀、洗钱风险事前预测等一系列目标。

  • 机器学习提升异常交易监测与上报效率

机器学习提升异常交易监测与上报效率机器学习是一种能够直接从数据中“学习”信息并建立规则的算法,它模拟人类大脑学习,通过数据处理、特征加工、模型训练与验证等工作程序完成模型的创建和优化迭代。

在反洗钱、反恐怖融资等合规领域,可以实现对人工风控分析、判断行为等规律的自动学习。

在异常交易识别中,综合运用有监督和无监督的方法,学习过去已有的洗钱可疑案宗,全方位提取与洗钱行为关联的信号,结合规则引擎和图计算技术,建立综合离群点检测、时间序列预测、分类树和回归树等算法的“智能反洗钱模型”。

基于“智能反洗钱模型”的异常交易识别引擎,甄别能力可以达到资深反洗钱专家95%的水平,可节省90%的人工核查成本,提升上报的及时性、规范性和有效性。

除此之外,由于机器学习模型成果在实际应用中具备持续学习的能力,因此随着训练次数的增加,机器的工作效率和对异常交易的判断准确性将逐渐提升,尤其满足互联网在线业务模式下的海量实时交易监测需求。

  • 自研特征计算引擎反哺反洗钱知识库

人工智能技术是一项可迭代的系统工程,当可用于训练和学习的样本数据增多时,算法性能和模型精度可以得到相应提升。

目前,机器学习在反洗钱领域面临着特征量不够多、不够有效的问题,综合使用人工智能算法可以发现新型洗钱特征。

基于“图计算、AI模型、规则模型”三大引擎,对有效洗钱信号和噪音具备很好的区分能力,能够自适应于不断变化的环境,灵敏侦测洗钱特征。

通过自动学习未知洗钱模式,平台能够不断衍生、拓展和规则化定义洗钱特征,形成洗钱特征知识沉淀,反哺反洗钱知识库。帮助资管机构迭代优化反洗钱规则体系,实现反洗钱监测闭环优化。

除此之外,可视化模型的决策结果和可解释的分析报告,将有助于反洗钱专家还原犯罪场景,帮助业务人员理解决策依据。

  • 分类识别交易类型,辅助上游犯罪监测

众所周知,洗钱与毒品犯罪、贪污贿赂、恐怖活动、违法走私、金融诈骗等许多严重刑事犯罪具有天然的联系。人工智能技术基于洗钱特征,运用多分类模型,可实现智能识别和分类洗钱交易类型。

结合图计算挖掘算法,对基于内外部数据构建的异质关联关系图谱进行碰撞分析,可进一步穿透日趋复杂的洗钱及犯罪活动和复杂的资金流动,不断扩大监测覆盖的范围,精准勾勒金融交易链条,完整展示洗钱及其上游犯罪主体关联关系,辅助重点可疑案件串并案侦查识别。

  • 图谱关联分析精准定位可疑洗钱分子

跟传统的关系型数据库相比,图数据库逻辑可以更好地解决绝大多数底层数据分析问题,特别是在面对海量关系数据时,图数据的数据逻辑维度要远高于关系型数据。

作为图数据库的应用场景,知识图谱提供了从“关系”的角度去分析问题的能力,通过深度图谱关联分析,能够进一步提高可疑交易甄别的准确性。

更重要的是,知识图谱在穿透、关联和传导方面具有天然优势,尤其适用于利用多重身份、关联交易、跨行跨境转账等手段进行资金流转的反洗钱手段识别和犯罪团伙追踪。

首先,通过将客户身份数据、行为数据、交易数据及其他外部数据通过知识图谱的方式进行表征,深度梳理和可视化呈现了复杂的客户关系特征网络和资金交易流转结构。

其次,结合聚类分析、关联分析、碰撞分析等多种图计算算法,在无目标的情况下发现未知的洗钱分子和行为特征,逐层计算可疑账户与已知犯罪账户间的关联关系(比如号码共用、同时出入某场所等等以往可能忽略的风险),深度挖掘相关的潜在洗钱关系分子或组织,可协助进行犯罪团伙角色定位(募资者、传话人、执行者等),识别隐匿的可疑洗钱分子身份。

DataExa渊亭科技
DataExa渊亭科技

DataExa渊亭科技(www.dataexa.com)专注认知智能全栈技术研发与产品化落地,深耕金融科技、监管科技、情报科技三大领域,为客户提供包括知识图谱平台、人工智能中台等产品与解决方案。

http://www.dataexa.com/
产业机器学习知识图谱
3
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规则引擎技术

与基于规则的专家系统(rule-based expert system)涵义类似,通常是依据设定好的规则作出决策的引擎。在计算机科学中,基于规则的系统被用作存储和操纵知识的一种方式,以有用的方式解释信息, 它们经常用于人工智能应用和研究。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

回归树技术

回归树可以被视为决策树的变体,旨在逼近实值函数,而不是用于分类方法。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

时间序列预测技术

时间序列预测法其实是一种回归预测方法,属于定量预测,其基本原理是;一方面承认事物发展的延续性,运用过去时间序列的数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到偶然因素影响而产生的随机性,为了消除随机波动的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。

专家设置技术

R1(后来被称为XCON,eXpert CONfigurer的所写,意为专家设置)程序是基于生产规则的系统,由卡内基梅隆大学的John P. McDermott在1978年用OPS5开发。其目的是按照用户的需求,帮助DEC为VAX型计算机系统自动选择组件。XCON的开发继承了两个之前用FORTRAN语言和BASIC语言未成功的尝试完成了一个专家系统。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~