Ravindra Reddy Tamma作者欧阳锦、杨学俊校对王菁 编辑方星轩翻译

机器学习真实案例研究:基于文本描述的交易聚类

本文为大家介绍了在日常的电子交易中对用户的交易信息进行聚类分析和建模,提供了用户分析的思路和建议。

我们正生活在数字技术时代。还记得你上次去到没有PayTM或BHIM UPI的商店是什么时候吗?很显然,这些数字交易技术已迅速成为我们日常生活的关键部分。

数字技术不仅是个人,也是各大金融机构的核心。依托着可靠的后台运行系统,执行多种选项的支付交易或资金转帐(例如,网上银行,ATM,信用卡或借记卡,UPI,POS机等)是一件非常顺利的事。

对于我们进行的每笔交易,都会针对它生成一个适当的描述消息,如下所示:

在本文中,我们将讨论一个金融机构的实际使用案例,该案例使用-聚类clustering(一种流行的机器学习算法)来为其客户群定制其产品。

本案例研究的动机

作为一家金融机构,始终根据客户的兴趣为他们量身定制报价,并以此来吸引现有客户群是很重要的事。对于任何金融机构而言,把握全方位的客户信息是一项重大挑战。

Twitter,WhatsApp,Facebook等社交媒体平台已成为描述客户兴趣和偏好的主要信息来源。金融机构使用第三方来源的数据通常会付出巨大的成本。即使如此,将社交媒体帐户映射到每一个客户也非常困难。

那么我们该如何解决呢?

“A partial solution to the above problem can be addressed by using in-house transaction data available with the institution”

“上述问题的部分解决方案可以通过使用该机构提供的内部交易数据来解决”

我们可以根据交易描述消息将客户执行的交易分为不同的类别。此方法可用于标记是否进行了食品,运动,衣服,账单支付,家庭,其他等类别的交易。如果客户的大部分交易都出现在特定类别中,那么我们可以对他/她的交易偏好有更好的预估。

这是我们采取的方法

来了解我们如何处理此问题,并为之找出解决方案时而采取的关键步骤吧。
  • 确定主题数量

我们从所有交易开始,将其描述消息映射到每个客户。首先,我们有一项重要的任务,即确定集群(clusters)(或)类别(catergories)(或)主题(topics)的数量。为了实现这个目标,我们使用主题建模( Topic Modelling)。

Topic Modelling

https://www.analyticsvidhya.com/blog/2018/10/stepwise-guide-topic-modeling-latent-semantic-analysis/

主题建模是一种对文档进行无监督分类的方法,即便我们不确定要查找的内容,它也可以找到适合的项目组。它主要使用狄利克雷分布(LDA)来拟合主题模型

它将每个文档(即交易)视为主题的混合,而将每个主题视为文字的混合。举个例子:预算一词可能出现在电影主题和政治主题中。该LDA的基本假设是,样本中的每个观察值来自可以被生成统计模型解释的任意未知分布中。

主题建模可以解决我们的问题。这里有一种生成统计模型,该统计模型已经生成了交易描述中的所有文字,这些文字来自未知的任意分布(即未知的组或主题)。我们尝试估计/建立一个统计模型,以便预测一个单词属于特定主题的概率。

  • 主题连贯

我们已经通过手动查看各个主题中的热门关键字来确定主题总数,这可能有点主题不一致,而且我们还需要一种主观的方法来评估正确的主题数量。那么,我们使用主题连贯性( Topic Coherence)来确定正确的主题数。

Topic Coherence

https://rare-technologies.com/what-is-topic-coherence/

主题连贯性应用于该主题的前N个单词。它被定义为主题中单词的成对相似度得分的平均值/中位数。好的模型会产生连贯的主题,即主题连贯得分高的主题。

好的主题是可以用短标签描述的。因此,这就是主题一致性方法所捕获的内容:

是时候聚类了!

我们已经确定了主题/群集的总数(在我们的案例中为7个主题)。我们应该开始将每个交易描述消息分配给主题。在将文档分配给主题时,仅依靠主题建模可能无法产生准确的结果。

在这里,我们使用主题建模的输出以及其他一些功能,使用 K-Means clustering对交易描述消息进行聚类,我们将主要为K-Means集群构建功能集。

K-Means clustering

https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/

特征:
  • 基本特征

- 字数,位数,特殊符号数

- 最长数字序列长度,数字-字符比

- 平均,最长字长等

- 交易的周,日和月,当前日期,周末交易等

- 每月最后5天或每月前5天执行的交易

- 公众假期和节日交易等

  • 查找功能–使用行业中的顶级品牌和常用名词作为查找名称。计算与特定行业相关的交易描述中的单词数。

- 食品:蔬菜,多米诺骨牌Dominos(披萨品牌),FreshDirect(美国的在线食品杂货商),赛百味等

- 体育:棒球,阿迪达斯,足球,防滑钉等

- 卫生:药房,医院,体育馆等

- Bill&EMI:政策,能源,声明,时间表,取款,电话等。

- 娱乐:Netflix,Prime节目,Spotify,Soundcloud,酒吧

- 电子商务:亚马逊,沃尔玛,eBay,Ticketmaster等

  • 其他:Uber,Airbus,打包机等

主题建模功能

对使用TF-IDF方法生成的DTM矩阵的一元模型和二元模型执行主题建模。对于每个主题的交易描述的unigram一元模型和bigram 二元模型DTM矩阵,我们使其获得2组7种的不同概率。

最后的想法

每个交易描述大约有30个功能,我们执行K-Means聚类将每个交易描述分配给7个集群之一。

结果表明,聚类中心附近的观测结果大多标有正确的主题。少量错误的主题标签被分配在距离聚类中心较远的观察点。在手动查看的350个交易描述中,大约240个(准确率为69%)交易描述已正确标记了适当的主题。

现在,我们至少可以对内部客户的偏好和兴趣进行基本估算。我们可以通过发送定制的要约和选项使内部客户参与并改善业务。

尽管使用主题建模的方法相对新颖,实际上,大多数的信用卡的发行商都会使用对客户交易的兴趣进行分类。例如,美国运通公司一直在使用这种方法为其客户创建兴趣图。这样的兴趣图不仅将交易分为食物,旅行等主要类别,而且还创建了诸如泰国美食迷,野生动物爱好者等的细分。所有这些分类都仅仅基于交易数据的丰富性!

关于作者

Ravindra Reddy Tamma –数据科学家(Actify数据实验室)

Ravindra是Actify Data Labs的机器学习专家。他的专长包括信用风险分析,应用程序欺诈建模,OCR,文本挖掘以及将模型部署为API。他与贷方广泛合作,以开发应用程序,行为和收款记分卡。

Ravindra还使用非结构化征信机构标头信息为印度的无抵押贷款开发了国家级应用程序欺诈模型。除信用风险外,Ravindra在OCR,图像分析和文本挖掘方面拥有深厚的专业知识。Ravindra还在自动化生产数据管道和将机器学习模型部署为可扩展的API方面具有丰富的专业知识。

原本标题:
Real-World Machine Learning Case Study: Clustering Transactions Based on Text Descriptions
THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论聚类机器学习
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

狄利克雷分布技术

狄利克雷分布是一组连续多变量概率分布,是多变量普遍化的Β分布。为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷(Peter Gustav Lejeune Dirichlet)而命名。狄利克雷分布常作为贝叶斯统计的先验概率。当狄利克雷分布维度趋向无限时,便成为狄利克雷过程(Dirichlet process)。 狄利克雷分布奠定了狄利克雷过程的基础,被广泛应用于自然语言处理特别是主题模型(topic model)的研究。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~