类似性分析

类似性分析是一种数据分析和数据挖掘技术,可以发现由特定个体或群体执行(或记录)的活动之间的共现关系。 通常,这可以应用于识别系统或者任何信息系统处理过程中。 在零售业中,亲和力分析曾经用于执行市场购物篮分析(*market basket analysis*),其中零售商寻求了解顾客的购买行为。 除了影响销售促销,忠诚度规划,商店设计和折扣计划之外,此信息还可用于交叉销售和up-selling的目的。

简介

类似性分析是一种数据分析和数据挖掘技术,可以发现由特定个体或群体执行(或记录)的活动之间的共现关系。 通常,这可以应用于识别系统或者任何信息系统处理过程中。 在零售业中,亲和力分析曾经用于执行市场购物篮分析(market basket analysis,其中零售商寻求了解顾客的购买行为。 除了影响销售促销,忠诚度规划,商店设计和折扣计划之外,此信息还可用于交叉销售和up-selling的目的。

案例:

市场购物篮分析(Market basket analysis)可能会告诉零售商顾客经常一起购买洗发水和护发素,因此同时将这两种商品放在促销上不会带来显着的收入增长,而只涉及其中一种商品的促销活动可能会推动其他销售。市场购物篮分析可以向零售商提供信息以了解买方的购买行为。这些信息将使零售商了解买家的需求并相应地重新对商店的布局进行调整,还可以开发交叉促销计划,甚至捕获新的买家(很像交叉销售概念)。一个伪造的早期说明性例子是,当一个连锁店在其分析中发现购买尿布的男性顾客,也经常购买啤酒时,使得尿布位置接近啤酒位置,结果显示,他们的销售额急剧增加。虽然这个传说只是教授们用来向学生说明这个概念的一个例子,但这个想象现象的解释可能是派出去购买尿布的父亲经常也会买啤酒作为奖励。

这种分析应该是数据挖掘的一个例子。通过市场购物篮分析在网上交叉销售的一个广泛使用的例子:亚马逊网站使用“购买图书A的客户也买了书B”,例如“阅读葡萄牙历史的人也对海军历史感兴趣”。市场购物篮分析可用于将客户划分为不同的组。一家公司可以查看人们购买的鸡蛋以及其他物品,并将它们分类为烘烤蛋糕(如果他们正在购买鸡蛋以及面粉和糖)或制作煎蛋卷(如果他们购买鸡蛋以及培根和奶酪)。然后可以使用该标识来驱动其他程序。同样,它可用于将产品分为自然组。公司可以查看哪些产品最常销售,并围绕这些结果调整其类别管理。

商业用途:

自推出电子销售点以来,市场购物篮分析的业务使用显着增加。亚马逊在根据购买历史记录和购买其他人的购买历史向人们推荐产品时,使用亲和力分析进行交叉销售。 同一个项目。 Family Dollar计划使用市场购物篮分析来帮助维持销售增长,同时购买更多低利润的消费品。

2. 发展历史

描述

最早的关联规则的概念应当是Petr Hájek等学者与1966年介绍的,不过当时并没有得到重视。直到1993年,Agrawal等学者普及了关联规则的概念,有关关联学习的研究逐渐变得流行。1994年,Agrawal等学者提出Apriori 算法,这是一种基于交易数据库进行频繁项集挖掘和关联规则学习的算法。算法识别数据库中经常出现的频繁项,并将它们扩展为更大的频繁项集。1995年Houtsma, M., & Swami, A.提出setm 算法,Mohammed Javeed Zak等学者于1997年在一系列论文中发表了Eclat算法,是一种使用集合交集的深度优先搜索算法。 这是一个自然优雅的算法,适用于连续执行和并行执行以及局部增强属性。 2000年,针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-growth (frequent pattern growth)。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

关联规则学习/挖掘通常用在各种数据库中,用于检测数据之间的潜在关系。因为自从「啤酒和尿布」一起买的故事以来,关联规则学习已经在购物篮分析中应用了很长时间了,所以它被划入了应用阶段。这项技术的其它应用领域还包括 SEO、入侵检测、生产和健康信息分析。如,2008年,通过微流体亲和力分析发现丙型肝炎靶标及其药理学抑制剂。

【出处:Association rule mining/learning - Yuanyuan Li】

主要事件

年份事件相关论文
1966Petr Hájek et al. 的研究成果中出现了关联规则的概念Hájek, P.; Havel, I.; Chytil, M. (1966). The GUHA method of automatic hypotheses determination. Computing. 1(4):  293–308.
1993Agrawal et al. 普及了关联规则的概念Agrawal, R.; Imieliński, T.; Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. p. 207.
1994Agrawal et al. 提出Apriori 算法Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules in large databases, Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), pp 487-499.
1995Houtsma, M., & Swami, A.提出setm 算法Houtsma, M., & Swami, A. (1995, March). Set-oriented mining for association rules in relational databases. In Data Engineering, 1995. Proceedings of the Eleventh International Conference on (pp. 25-33). IEEE.
1997Berry, M. J., & Linoff, G.对市场的数据消费支持的挖掘进行描述Berry, M. J., & Linoff, G. (1997). Data mining techniques: for marketing, sales, and customer support. John Wiley & Sons, Inc..
1997Mohammed Javeed Zak等学者在一系列论文中发表了Eclat算法Zak, M. J.; Parthasarathy, S.; Ogihara, M.; Li W. (1997). New Algorithms for Fast Discovery of Association Rules. KDD 1997.//Zaki, M. J.; Parthasarathy, S.; Ogihara, M.; Li W. (1997). Parallel Algorithms for Discovery of Association Rules. Data Min. Knowl. Discov. 1(4): 343-373.
2000J. Han等提出了不产生候选挖掘频繁项集的方法:FP-growthHan, J., Pei, J., & Yin, Y. (2000). Mining frequent patterns without candidate generation.international conference on management of data, 29(2), 1-12.
2008Einav, S., Gerber, D., Bryson, P. D., Sklan, E. H., Elazar, M., Maerkl, S.提出Einav, S., Gerber, D., Bryson, P. D., Sklan, E. H., Elazar, M., Maerkl, S. J., ... & Quake, S. R. (2008). Discovery of a hepatitis C target and its pharmacological inhibitors by microfluidic affinity analysis. Nature biotechnology, 26(9), 1019.
2017Olson, D. L.对市场购物分析进行回顾Olson, D. L. (2017). Market Basket Analysis. In Descriptive Data Mining (pp. 29-41). Springer, Singapore.

3. 发展分析

瓶颈

关联规则学习需要足够的数据才能发现规则。在现实世界中,要完全取得所需的数据并不容易,而且当数据有偏差时,也会很容易得到错误的结果。寻找挖掘算法的适当参数设置可能很困难,而且有时候还可能生成太多无用的规则。

有时候,我们能够通过大量分析方法来找到现实世界中的一些相关联的事物,但是却又无法解释其中的原因。

【来源:web, URL:http://lib.csdn.net/article/aimachinelearning/50797

未来发展方向

该技术可能会与其它学习技术结合,并在大数据的基础上得到进一步发展。大数据和深度学习也许能发现更有趣的规则。

这些看似是新发现的规则或关联,真正内部的因果关系也需要人去探索。

【来源:web, URL:http://lib.csdn.net/article/aimachinelearning/50797

Contributor: Ruiying Cai

简介