2019 年 7 月 11 日,由极验主办的 Graph Learning 创新大会暨极验 2019 图数据建模平台发布会在北京泰富酒店举行。本次大会邀请到 203 位行业内头部企业代表、媒体及嘉宾,一起就当下最火热的图神经网络展开了探讨与交流,并共同见证了全国首个自研图数据建模平台的首发时刻。
国内首个图数据建模平台——叠图
中国需要技术创新
这是一个产业智能化磅礴而来的时代,企业的发展与数据的联系愈发紧密,头条系的算法铸就了字节跳动的崛起,Deepmind 则用 AlphaGo 战胜李世石引爆机器智能的无限可能,阿里与华为分别推出 AI 芯片,底层支撑也将迎来变革。
而实现智能化的方法有很多种,在过去,企业通过深度学习来训练神经网络,但是在关系数据挖掘方面,却仍很欠缺。图神经网络,在关系数据挖掘方面有巨大的潜力,正成为学术界和工业界投入研发的热点。
AI 时代企业增长突破关键
2012 年到 2018 年,短短 6 年时间,AI 技术带来了很大的变革。比如 CNN 的出现,让计算机视觉得以突破,刷脸支付,刷脸进站,自动驾驶发展的非常迅速;RNN 让自然语言处理有了很大的进步,像机器翻译,智能助手这些应用都日趋成熟。
但是,这个世界所产生的数据,不只是图像或者语音,更多的是具有特定关系的关系数据。根据 BCG 的报告显示,进入互联网时代之后,企业所产生的数据急剧增加,但是被有效利用起来的不过 40%。
这其中有一个很重要的原因是关系数据没有被有效利用。数据作为 AI 的燃料,未被有效利用起来是企业不能实现增长突破的关键。
图神经网络的出现,将充分发挥关系数据的能量,是企业在 AI 场上角逐的另一大机遇。
图数据建模平台
如何解决落地难
图神经网络出现的很晚,是一个比较新兴的技术,它具有很强的能力,包括拟合多类型数据的能力,对关系的学习能力以及逻辑推理能力。如何将这些强大的能力应用到业务中去呢?想要真正实现该技术的落地其实十分困难。
首先是系统的可拓展性,在工业场景中,图数据都是千万上亿级别的,系统要具备处理大规模数据的能力。其次是 GNN 模型对分布式的高效适应性,大数据的分布式发展到今天已经十分成熟了,但是在处理图数据上存在两个问题,第一是图数据不易切割,第二是图数据库由来已久,设计之初是考虑的主要是增删查改,但是 GNN 的分布式建模更多需要考虑的是对数据特定操作的高效性以及对数据抽取的吞吐率。
极验花了很多时间来测试和调研,经过在实际业务中的探索和思考,发现要想解决这个难题,就必须从底层去适配数据的存储方案与操作方式。
定制化的技术架构
可扩展性和高效性是一个系统能够真正工程化落地的必要条件,极验在图数据建模的探索的几年时间中,充分结合图数据建模的特点与难点,研发了一套符合建模需求的底层数据引擎。技术框架:
整个技术框架的核心是中间三层,分别是存储层、操作层和建模层,是极验针对图数据的特点定制化开发的。
存储层与操作层合称为图存储引擎,主要完成对图数据分布式存储以及图数据操作的抽象接口。在这一层的设计上,他们围绕着图分区、图数据的结构设计与存储,以及整个数据系统的索引设计与优化来做了大量的开发工作,以支撑上层数据操作的高效性,比如随机游走、子图采样等。
在模型层,采用的是 Message Passing 机制,同时由于下层支持对数据高效地操作,所以极验有更多的空间去完成 GCN 对属性图的适配工作。
性能指标展示:
不到 20s 就可以完成百万节点构图,对于 1 亿节点,5 亿边规模的数据,在 10 个 worker 上构图时间只需要 150s。在读的性能上,测试了子图采样的性能,在这项指标上,极验将时间控制在 100ms 之下,达到这样的效率,显卡就不会出现计算延时的情况。
产品为企业带来的价值
叠图是首个支持企业级图数据深度学习的建模平台,为企业提供一站式的建模服务。在 SAAS 服务模式越来越流行的今天,做金融、做零售、做医疗的企业完全没有必要花巨大的精力从底层一步一步搭建平台,这其中耗费的资源成本、人力成本、时间成本都不可小觑。细化分工,让专业的人做专业的事情是我们整个社会不断进步,生产力不断提升的重要前提。
1.降低企业的应用门槛
叠图集成了大规模图数据分布式建模能力,提供 Web 端操作,企业可以直接上手就用,不需要专家也可以建模。其次将整个建模流程固化到平台上,后期模型的维护成本也大大降低。
2.叠图适用的场景多种多样
今天,几乎所有的企业都是业务多线发展,可能一个主业务下面,还有好几个细分业务场景。叠图完全可以支持企业的多场景需求。
3.图数据建模业务效果很突出
今年很流行一个概念叫做技术中台,数据中台,意思是将企业各类业务、各类场景的数据集中起来进行数据生产。这是后面两年一个大的趋势,图建模能够从数据的关联出发,将各类数据进行整合建模,将很大程度上提升业务效果。
应用场景
图数据是最能刻画关系的数据,可以应用的业务场景非常丰富,主要包括风控和营销两大类业务场景,赋能全行业。
1.风险账户识别
在极验深知产品中,已经使用 GCN 模型进行风险账户识别。利用账户、设备、IP 这些数据以及它们的的关联关系进行构图,然后将图输入到模型中,GCN 自己会学习到一些模式,比如高密的二部图(如下图所示)。
GCN 的在 AUC 指标上提升了 1.2 倍,鲁棒性提升了 1.5 倍也就是模型在一个更新周期内的效果。这说明了用 GCN 做风险识别是一个健康地,可持续性对抗的安全手段。
2.车险反欺诈
图数据建模也非常适合车险欺诈检测。一起车辆事故的数据有很多,比如说车辆损伤的数据,包括褶皱、凹陷、开裂、擦伤等等;车辆的属性信息,比如每个车都来自不同的厂商,不同的年份,版本也不相同。这些数据之间存在着非常复杂的关系,比如当车辆的发动机损坏的时候,往往也会伴随着其他的零配件损坏。
而图是最能够刻画关系的数据形式,通过构建车险理赔的图,利用图神经网络,可以很好的发现一些风险模式,比如线上风险,二手车风险,人伤碰瓷,理赔人员问题等等。
在实践过程中,基本上可以成百倍的提升生产效益,实现大额减损。
3.企业风险识别
在金融行业,实时判断贷款企业的风险,及时进行贷款的调整,降低风险也是非常重要的。根据企业的舆论信息,关联企业信息,股东信息,产业链信息等等,构建图数据,利用图计算进行舆情热点分析,企业动态分析,及时的改变针对企业的贷款政策。
AI 下半场的入场券
在数据不断膨胀的当下和未来,借助图数据来提升企业的技术实力将会是一个重要解决方案,可以实现行业整体效率的飞跃。
图计算快速发展。世界上所有的数据都可以表示为图结构。而图卷积神经网络、图注意力机制、图自动编码器、时空图网络和图嵌入等新兴技术的研究也在不断深入。图结构的关联性特征与因果关系网络相结合,有望实现对神经网络结构可解释性的证明。
「图」也在持续赋能各行业。诸如 金融反欺诈、银行反洗钱、保险反欺诈、企业风控等领域大量应用图技术,在医学药物挖掘、图像识别、智慧城市等方向的研究也在不断深入;图技术可以广泛应用在挖掘行为异常、构建知识图谱、推理节点关系等场景。
技术驱动发展,需求创造应用,图技术领域技术挑战多、行业需求大。可惜的是,企业都能意识到「图」的价值,但从零开始研发的金钱、人力、时间成本投入不是谁都能承受。而叠图的发布将为图生态的搭建提供关键一环。