作者

基于图卷积神经网络的共享单车流量预测(附数据集下载地址)

摘要

由于单站点流量预测的难度较大,近年来的研究多根据站点类别进行流量预测。但是,它们不能直接指导站点级的精细化系统管理。本文将应用深度学习技术进行站点级别的共享单车流量预测。本文提出了一种多图卷积神经网络模型来预测站点级的流量,其关键创新之处在于从图的角度来观察共享单车系统。更具体地说,我们为一个自行车共享系统构造了多个图来反映异构的站间关系。然后,我们融合了多个图形,并应用卷积层来预测未来的站点级自行车流量。

简介

本文所述的共享单车系统为有桩共享单车。单站点自行车流量往往具有复杂的动态规律,这使得其预测变得困难。因此,既有研究大多根据站点类别解决自行车流量预测问题。也就是说,他们首先将站点分类,然后预测每个类别的自行车流量。但基于类别的预测有两个问题:(1):聚类结果很难评估是否合适;(2):基于类别的预测结果不能进行站点级别的运营管理指导。

本文中,我们提出了一种新的多图卷积神经网络来捕捉不同站点之间的空间关系,例如距离和历史使用关系。在多图卷积层的基础上,提出了一种包含LSTM的encoder-decoder编码解码器结构,用来捕捉时间关系。因此,对于站点级自行车流量预测,可以有效地捕捉时空模式。

据我们所知,这是首次利用多图卷积神经网络来进行站点级别的共享自行车系统中流量预测。To the best of our knowledge, this is the first work of leveraging multi-graph convolutional neural networks in to predict station-level bike flow in a bike sharing system. 本文案例为纽约和芝加哥的共享单车系统。

概念定义和问题描述

共享单车系统图:共享单车系统用加权图表示,节点为站点,边为站点间关系。边的权值表示站与站之间的关系强度。通常,权重越大,两个站点的相关性越高。如何构造图是我们方法的关键部分。

自行车流量:有两种类型的自行车流量:流入和流出inflow and outflow。

问题描述:利用t时刻以前的进站流和出站流预测t时刻的进站流和出站流。

模型框架

本文提出的多图卷积神经网络包含三部分,图生成-多图卷积-预测部分。

图生成:图的生成是图卷积模型成功的关键,如果所构建的图不能对站点间的有效关系进行编码,不仅不利于网络参数的学习,还会降低预测性能。一般来说,我们希望为具有相似动态流模式的站点之间的边缘分配较大的权重。在此基础上,提出了建立站间图的三种方法:距离图、交互图和相关图。

权重1:距离图,即用距离的倒数表示站间权重

权重2:交互图,即用历史数据中两个车站之间的行车记录数表示站间权重

权重3:相关图,计算每个站在每个时间间隔(如1小时)内的历史使用情况(流入或流出),然后计算每两个站之间的相关性作为图中站间权重。本文使用皮尔逊系数来计算相关性。

多图卷积:此部分可分为两块主要内容:图融合以及图卷积。

图融合即将上面的三个图权重矩阵融合为一个图权重。我们首先对每个图的邻接矩阵A进行标准化,然后通过在元素级对不同图的邻接矩阵加权求和来组合不同的图。

A为邻接矩阵,D为度矩阵,A’ 为标准化后的临界矩阵。这一块其实更常用的方法如下图:

为了使加权和运算后的融合结果保持归一化,我们在加权矩阵中进一步增加了一个softmax运算。假设我们有N个图要混合在一起(即W1至Wn代表一条边的N个权重),我们可以把图的融合过程表示为:

○代表元素积,F为融合结果,用于后面的图卷积。(上述过程总结起来就是先把邻接矩阵标准化,然后把N个权重矩阵进行softmax运算,再将两者进行加权相乘得到融合结果)


图卷积过程即为如下过程:

预测网络图如下:

采用encoder-decoder结构的预测网络详细如图2所示。编码器网络采用多图卷积结果序列 [H10, H11,…, H1t - 1] 作为输入,将时间模式编码为final状态。解码器网络以编码器的final状态为初始状态,以多图卷积结果序列 [H1t - T, H1t - T +1,…, H1t - 1] 作为输入(此处有点难理解,可理解为假设 encode 部分的输入为 10 个时间步,则 decoder 部分的输入为 5 个时间步,两者的输入都是多图卷积结果,只不过输入的序列长度不一样)。解码器的输出为 H0t,即为预测目标。我们可以将 T 设置为一个小的值(例如t的一半),这意味着解码器可以根据短时间的历史数据和编码器的final状态预测未来的自行车流量。这也意味着编码器的final状态为预测过程提供了重要的信息。在对编解码器结构进行预训练后,将编码器网络的final状态与外部因素(例如,温度,风速,工作日/周末)进行结合,输入到一个全连接层 (图2的下部)预测自行车下次H0t流动。(先利用黄框对encoder-decoder结构进行预训练,提取encoder部分,利用蓝框作为最终的预测网络模型)

实验部分

本文的案例选用纽约和芝加哥的共享单车数据集,不再详述(目前公开的是从2013到2019年五年的数据)。公众号后台回复“纽约”获取纽约数据集下载地址,回复“芝加哥”获取芝加哥数据集下载地址。

参考文献:

Bike Flow Prediction with Multi-Graph Convolutional Networks

极验
极验

极验是全球顶尖的交互安全技术服务商,于2012年在武汉成立。全球首创 “行为式验证技术” ,利用生物特征与人工智能技术解决交互安全问题,为企业抵御恶意攻击防止资产损失提供一站式解决方案。

理论数据科学深度学习其他智能领域矩阵模型优化卷积神经网络图神经网络
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

推荐文章
暂无评论
暂无评论~