拉克什曼Lak Lakshmanan原文吴金笛校对陈之炎翻译

如何在BigQueryML中使用K-均值聚类来更好地理解和描述数据(附代码)

本文教你如何在BigQueryML中使用K均值聚类对数据进行分组,进而更好地理解和描述。

目前,BigQueryML支持无监督学习-可以利用K均值算法对数据进行分组。与预测分析的监督机器学习不同,无监督学习侧重于描述性分析-在理解数据的基础之上做出数据驱动的决策。

聚类什么内容?

首先,需要确定聚类的内容,为什么要这样做?假设你是一个拥有客户交易数据的零售商,有多种方法可以对此数据集进行聚类,这取决于你想要对聚类做什么操作。

  • 我们可以在顾客中找到自然群体,这就是所谓的客户细分。用于客户细分的数据可能包括客户访问的商店、他们购买的商品、支付的费用等等。首先将尝试了解这些客户组的喜好(这些人称为人物角色),这样便可以设计出针对其中一个组的成员有吸引力的项目。

  • 我们也可以在购买的物品中发现自然群体,这可以称为产品组。可以根据购买对象、购买时间、购买地点等对项目进行聚类。同时可以尝试学习产品组的特征,以便学习如何减少调拨或改进交叉销售。

这两种情况下,均使用聚类作为一种启发式方法来帮助做出决策-设计个性化产品或理解产品交互并不容易,因此可以从客户组或产品项目组两种维度进行设计。

请注意,对于产品推荐的特定用例(向客户推荐产品或特定产品的目标客户),最好使用WALS之类的协作方法训练ML模型来实现。但是对于其他没有现成的预测分析方法的决策,聚类会提供一种做出数据驱动决策的方法。

建立聚类问题

为更好地使用聚类,需要做以下四件事:

1. 确定对哪些字段进行聚类。是客户ID?还是产品项目ID?  然后,将数据集中在该字段的属性上。

2. 找出给定客户/项目/其他属于哪个聚类

3. 理解聚类属性的内容。

4. 利用这一理解做出决策。

在本文中,我将演示对伦敦自行车共享数据的聚类方法。假设我们围绕自行车共享站的设计和仓储做出很多决策,我们希望了解系统中的不同类型的站点,这样便可以数据驱动的方式做出这些决策。

需要做到以下四件事:

1. 聚类自行车租赁站。我们需要聚类的字段是Station_name,为此还需要找到站点的属性。

2. 找出每个站点属于哪个聚类

3. 理解每个聚类的特征。

4. 利用这种理解来做出由数据驱动的决策。

在此之前,首先需要收集数据。

1.  收集数据

我们将用到的数据包括伦敦的自行车租赁,它是欧盟地区的公共数据集,因此,如果想要跟踪我的查询,应确保在欧盟地区创建一个名为demos_eu的数据集。

需要根据下面这些因子对车站进行聚类

  • 租用时间

  • 每天出行次数

  • 自行车架数量

  • 距市中心的距离

我们通常需要做出一些决策,诸如:在工作日和周末不同的时间安排车站的存货(即确保车站有自行车出租)。为此,需要对这些实例进行聚类,其“主键”是Station_name和isworkday的组合。

以下是对收集到的相关数据的查询

我们提取了2015年(见WHERE条款)的租用数据(Start_Station_name,周末/工作日,持续时间),并根据站点信息(自行车数量、距市中心的距离)加入该数据。

然后,遍历自行车计数、距市中心的距离等车站属性,计算出平均骑乘时间、出行次数等车站属性。数据集如下所示:

用于聚类的数据集;数据的主键是Station_name和isweekday的组合

2. BigQueryML聚类

进行聚类时仅需向上述SELECT查询中添加一条CREATE MODEL语句,并删除数据中的“id”字段:

查询处理1.2GB,耗时54秒。模型中列出了聚类用到的4个因子:

K-均值模型请注意,在创建模型过程中指定了所需的聚类数量(num_clusters=4),并删除了不需要对其进行聚类的因子 (Station_name和isweekday)。如果特征有不同的动态范围(bikes_count在10-50范围内,而num_trips在数千个范围内),那么,标准化特性会是一个不错的选择,而我正在这样做的。

如果忽略聚类的数量,BigQueryML将根据训练数据集中的总行数选择一个合理的缺省值,还可以通过超参数调优来找到一个更优的数字。本质上,可以对num_clusters的不同值运行聚类,找出误差,并选择图形平稳的点。可以通过以下方法获得误差:

num_clusters数目越少,聚类越好。

3. 车站属于哪个聚类

特定的车站到底属于哪个聚类?利用ML.PREDICT便可以找到答案。以下便是对名称中包含“Kenningtons”的站点的聚类查询

输出是:

肯宁顿站(Kennington)属于哪个聚类

4. 检查聚类

可以使用以下方法查看聚类图心-本质上是模型中4个因子的值:

只要稍微做一点SQL操作,便可以获得上表的主元:

输出是:

聚类属性

若要可视化此表,单击“在DataStudio中导出”并选择“条状表”。将质心列设为“维度”,其余列为尺寸。然后会得到:

在DataStudio中可视化后的聚类属性这样,便能够解释这些聚类了。从本质上说,第一组(Cluster #1)由人们可以长途骑行的郊外车站组成;第二组(Cluster #2)由其他郊区车站组成;第三组(Cluster #3)由繁忙的城市站组成;第四组(Cluster #4)由不那么繁忙的城市站组成。

根据这些特性和对伦敦的一些了解,可以给出这些聚类的描述性名称。第一组可能是“一日行”, 第二组是“卧室社区”, 第三组是“旅游区”, 第四组是“商业区”。

5. 做出由数据驱动的决策

利用这些聚类做出不同的决策。

  • 如果我们刚刚获得资金,可以扩建自行车架,那应该增加哪些车站的容量?在没有聚类数据的情况下,我们或许会倾向于使用第三组中有很多次行程而没有足够的自行车的站点。但是做了聚类之后,发现这组站主要为游客服务,他们没有投票权,所以我们会把额外的容量放在第二组(卧室社区)。

  • 如果我们需要试验一种新型锁,应该在哪一组车站上做这个实验?商业区的车站似乎更合乎逻辑的,当然,这些车站有很多自行车,而且非常繁忙,足以支持A/B测试。

  • 如果我们需要储备一些有赛车的车站。哪一个?当然是第一组,服务于每天往返于城市的人。

显然,我们虽然可以通过自定义数据分析来单独做出这些决策,但是,将站点进行聚类分析,提出描述性的名称,并使用这些名称来做出决策,要简单得多,也更容易解释。

利用SQL便能完成所有这些操作!是不是相当酷?

原文链接:

How to use K-Means clustering in BigQuery ML to understand and describe your data better

原文链接:

https://towardsdatascience.com/how-to-use-k-means-clustering-in-bigquery-ml-to-understand-and-describe-your-data-better-c972c6f5733b

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

工程k均值聚类BigQueryML
2
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~