AI+金融 | 深度地理位置特征提取框架,助力金融场景用户背景分析

如今的移动设备金融产品app,除与app本身的交互外,也越来越关注用户本身的日常活动信息。其中所在地理位置,往往能反映用户自身很多有用信息,比如是个私家车用户,或是个惯用公共交通系统的用户;亦或说是在世界各地穿梭的商务人士,还是只在一座城市奔波的老司机。


通过推断用户的行为背景,以及习惯停留的位置分类,可以抓住用户的潜在风险特征。但是,此类地理位置信息(如经纬度),面临存在噪音,稀疏,有确实地理信息的数据少(一般需要用户主动check in)等特点,相对简单的利用方法有限。通常只能依靠使用人工设计的特征,缺点是非常耗时并且需要特定领域的知识。而即便具有专业领域知识,也很难捕获适用于大部分用户背景的所有相关特征。

氪学家们因此而提出使用深度学习+人工特征框架,集成于用户位置分析。

深度学习框架主要参考DeepCity(Pang,2017)与DeepWalk(Perozzi,2014)。目标是使用unsupervised embeddings来保留用户信息以及用户和位置的相邻信息。DeepWalk可以对上下文做类似graph2vec的unsupervised embeddings:图的节点对应单词,通过在图上随机游走生成语句,再借鉴Word2vec算法下的skip-gram获得unsupervised embeddings。类似的,可以将用户与具体位置基于二分图组织,图上的节点对应用户(u)或具体位置(v),在构建好的图上(有目标指向的)随机游走。

例如现在有用户1(u1)和用户2(u2),另有地点v1(Supermarket),v2(Office),v3(Sandwick Shop),u1已知在地点v1 check in 5次,在v2 check in 5次;u2在v2 check in 4次,在v3check in 1次,若by用户赋予权重,v1与v2对u1的权重则都为0.5,v2与v3对u2的权重为0.8,0.2。若by 地点则分别是v1u1 = 1、v2u1 = 0.56、v2u2 = 0.44、v3u2 = 1,由此二分图构建完成。

Figure 1. 用户与已知check_in的位置的关系(右:次数,中:by用户加权,左:by位置加权)

由于大部分获取的数据没有确切位置信息(大多location数据仅有经纬度这类信息),并不能直接处理成特征或放入深度学习框架,需要采取对经纬度作Geohashes 编码,应用osm(OpenStreetMap) ,对graph2vec训练结果降维获得信息更密集的矩阵并加工成特征。在非深度框架特征上,氪信一方面会对经纬度聚类,以专家经验提取聚类特征,一方面匹配各类语料库,如房价,推测该用户的经济水平这类强金融特征,对深度学习特征与人工特征在模型层集成后,最后套用一层逻辑回归模型作为输出。

通过上述特征框架,在寻找地理位置数据的潜藏信息上,专业领域知识和机器自主挖掘能力发挥了各自的长处,前者负责抓住最基础的信息,后者负责高效无风险的尝试各种信息组合,我们认为如此才能有效的做到用户的背景分析以及风险预测。

氪信科技
氪信科技

国内领先的智慧金融科技领域科创公司,致力于运用氪信AI引擎与全域知识图谱,融合率先浸入大型金融场景打磨形成的知识体系和实战经验,助力金融机构业务升级并实现用户价值放大、风险控制强化和经营效率提升。公司成立于2015年12月,总部位于上海,在北京、深圳、南京设有分公司。

入门人工特征框架深度学习金融
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~