据估计,大约有 90% 的用户收到的电子邮件是机器生成的,其中包括收据、订单确认信息、广告、新闻订阅、密码找回邮件等等。其中有的包含了用户需要记录的信息,比如航班时间、电影座位号等等。通过自动提取这些有用的信息,邮件提供商可以帮助用户将这些信息添加到日历中或设置账单提醒等,从而提升用户体验。伊利诺伊大学厄巴纳-香槟分校和谷歌的研究者提出使用 MLP 和 LSTM 神经网络来预测邮件类别,并与马尔可夫链模型进行了比较。机器之心技术分析师对该研究进行了解读。
论文地址:https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45896.pdf
引言
电子邮件类别预测可被视为一个多类分类任务,因为带有相似主题的电子邮件可能是使用相似的模板自动创建的。这篇论文的目的是基于用户之前收到的电子邮件预测未来将收到的电子邮件。也就是说,如果一位用户收到了一封特定主题的电子邮件,那么一些时日之后,他可能还会收到使用同样或相关模板的另一封邮件。
这篇论文有很高的实用意义,可直接助益我们的日常生活。通过准确预测电子邮件所属的类别,我们可以基于其对应的模板更好地提取出其中的有用信息。电子邮件服务提供商会认为这个功能很有用,举个例子,它们可以将提取出的信息自动添加到用户日历中,帮助安排用户日程,由此提升用户体验。
这篇论文分别使用了 MLP 和 LSTM 神经网络来做预测,并与之前所用的马尔可夫链模型进行了比较。
这篇论文提出的 MLP 和 LSTM 模型取得了一些最高的 MRR 分数,分别为 0.918 和 0.923;相比而言,5-dependent 马尔可夫链模型的表现为 0.840。所以,新模型的预测准确度相比之前最佳提升约 9%。
除了这些结果,该论文还强调,为了预测未来电子邮件的类别,不仅要考虑之前发生过的类别,还要考虑有关时间戳的信息。这篇论文在映射输入特征时就选择了这一做法。
比较三种模型
1.马尔可夫链模型
Gamzu et al. 提出的马尔可夫链模型是求解电子邮件分类预测问题的最有影响力的模型之一。马尔可夫链可通过“状态对(state pairs)”的形式表示为:
其中,a^(1) 到 a^(n) 是指用户收到的 n 封电子邮件的邮件类别序列,根据收到邮件的时间戳排序;k 是指我们选择的预测窗口,这意味着每个状态我们会考虑 k 封电子邮件,这种方法也因此被称为 k-dependent 马尔可夫链。然后我们可以构建有向图,其中的节点表示不同的状态,两个状态之间的边将两者链接成一个状态对。每条边的权重表示从一个状态到另一个状态的“转换概率”。这种类型的马尔可夫链模型可用于预测未来邮件,通过结合时间信息,该模型的精度可达到 45% 左右。
2.多层感知器(MLP)
这篇论文提出的首个神经网络模型是一个简单的前馈模型:多层感知器(MLP)。该论文在神经元中没有使用普通的 sigmoid 或双曲正切激活函数,而是使用了修正线性单元(ReLU),这能更好地模拟真实神经元的“稀疏激活”,因此更具有生物合理性。(举个例子,对于广泛应用的 sigmoid 函数,有接近一半的神经元会被激活,这与我们大脑中真实神经元的实际情况不一样。)其校准函数可写成:
其中 h_l 指第 l 层的输出,W 指第 l-1 层到第 l 层的权重矩阵,b 是偏置向量。
如果这个 MLP 有 L 个隐藏层,则其输出层会首先使用一个 logit 函数得到一个向量 z:
然后,再使用 softmax 函数创建一个概率向量,如下所示:
其中 A 是指所有电子邮件类别的数量。未来的电子邮件属于第 a 个类别的概率 P(a) 即为 [y]a。
需要优化的训练损失函数写为:
其中,u 指代一个特定用户,a_u^t 指类别,m_u^t 是在时间 t 所收到的邮件的时间戳。Δ 是预测时间窗的大小,表示我们将考虑在 Δ 时间内连续收到的邮件。1() 函数在两封邮件之间的时间间隔不超过 Δ 时取值为 1,否则取值为 0(在这篇论文中,Δ 设置为一周)。然后,使用 “Adam 随机优化算法”来优化 L,使用“沿时间的截断反向传播算法”来根据参数 W 和 b 计算 L 的梯度(参见 D. Kingma and J. Ba. Adam,2014 和 I. Goodfellow, Y. Bengio, and A. Courville,2016)。
3. 长短期记忆(LSTM)
另一个神经网络模型是长短期记忆(LSTM),研究已经证明其能非常有效地求解序列问题。不同于 MLP 的相对简单的结构,LSTM 的每一层中都有“记忆单元”来逐一处理电子邮件以及存储之前层的输出和前一封电子邮件的信息。更正式的表示可写成:
通过下面的图可以更清楚地理解:
更进一步查看 LSTM Block 的工作方式,我们能够了解记忆单元 c 能够记忆的原因:
h_1^0 和 c_1^0 都被初始化为零向量;在每个处理状态,LSTM Block 会按以下方式同时更新上面图中的各个参数:
其中 σ 是一个 sigmoid 函数。σ 和 tanh 都是逐元素处理的,两个式子之间的 ⊙ 是逐元素的乘法运算符。
该论文中强调的几点
1.输入映射
如前所述,该论文提出未来电子邮件所属类别的概率不仅与之前邮件的类别有关,而且还与这些邮件的时间信息有关。所以,当将输入的 k 封收到的邮件映射到实数向量时,每个电子邮件向量都由三部分组成:
- 类别向量 a,使用 one-hot 表示的电子邮件。(向量 A 的长度是所有类别的数量,其中第 a 维设置为 1,其它维都设置为 0。)如果我们有 a 个类别,那么其类别向量将是 a 维的。
- 每周所在的天向量 d,同样也映射成 one-hot 表示(因为一周 7 天,所以 d 在该论文中设置为 7)。
- 旬向量 p,同样也映射成 one-hot 表示(论文中 p 设置为 3,分别表示一个月的上旬、中旬、下旬)。
两封电子邮件之间时间间隔设置为实数。如果不超过一周,则该值为 1;如果长于一周则取 0 值。因此,k 封电子邮件的整个输入向量有 k*s 个值,其中 s 是每个邮件向量的长度,s=a+d+p+1。
2.数据集划分
该论文使用了 102,743 位用户在 90 天内收到的 2,562,361 封电子邮件,这些电子邮件分为 17 个类别。
该论文的作者对问题的所有方面都进行了成熟的考虑,并按两种方式对数据集进行了划分。第一种方式是让测试集包含已知一组用户收到的电子邮件,而训练集和验证集的用户则是未知的。第二种方式则是进一步确保测试集中的电子邮件属于一组新用户。
3.衡量预测的准确度
这篇论文使用了 MRR(Mean Reciprocal Rank/平均倒数排名)来衡量预测的准确度。RR 是指首个正确预测到的类别的位置的倒数,按概率的降序排序,也称为排名(rank);M 的意思是取所有排名的平均。
另外,该论文还使用了在 r 处的成功率(SR@r)来衡量准确度,其表示:在预测时间窗内,排名小于或等于 r 的测试邮件的比例。
举个例子,当按以上提到的两种方式划分数据集并逐渐增大预测窗口 k 时,马尔可夫链模型的MRR 和 SR@r 将按下图所示变化。
4.预防过拟合
这篇论文采用了 dropout 正则化方法来降低循环神经网络的过拟合(参见 V. Pham, T. Bluche, C. Kermorvant, and J. Louradour, 2014)。简单来说,dropout 的意思是随机清除隐藏层中的某些神经元(即将它们设置为 0)。下图表明,使用一些正向 dropout,LSTM 模型可以得到更高的 MRR。这张图还表明,对于 LSTM 模型,单个隐藏层得到的结果就足够让人满意了,而 MLP 可能还需要更多隐藏层才能得到同样的结果。
结果
实验结果提供了以下五个方面的见解:
a)马尔可夫链模型不足以描述电子邮件的有用信息,因为它无法很好地映射过去电子邮件的时间特征。因为 MLP 和 LSTM 模型都能更好地描述时间信息,所以它们显然比马尔可夫链模型更优。其中 LSTM 是这三种模型中表现最好的。
b)将隐藏层的数量增加到 2 以上,以及增加 MLP 和 LSTM 中每层中的神经元数量都不会带来显著的性能提升,如下所示:
c)只有当预测窗口大小 k 不大于 5 时,增大 k 才会显著提升准确度,如图 7 所示。增大预测时间窗大小也能提升准确度,如图 6 所示。
d)当使用图 3 中描述的第二种数据划分方法时,即测试集中的用户不会在训练集和验证集中的出现,所有三种模型的准确度都会变低,但只有 5-dependent 马尔可夫链模型下降很显著,其它两种模型下降不多。如下面的表格所示。
e)如果我们最小化这三种模型的“记忆能力”(对于马尔可夫链和 MLP 模型,即设置 k=1;对于 LSTM 模型则意味着清除所有记忆单元),则这三种模型的表现都只会稍微变差,也如下面的表格所示。
总结
这篇论文提出的 MLP 和 LSTM 模型实现了最高的 MRR 分数,分别为0.918 和 0.923,相比而言 5-dependent 马尔可夫链模型为 0.840。即使清除这三种模型的所有记忆能力,LSTM 的表现依然是最优的。
这是一个相当全面的实验,通过研究如何映射过去邮件的更多特征,而不是当前的类别信息和时间信息,还能实现进一步的提升。
分析师简评
在这篇论文中,我们看到 LSTM 神经网络在这三种模型中表现最优。事实上,LSTM 能够有效处理很多不同的问题,尤其是序列问题(时间序列和空间序列都可以)。LSTM 最出色的应用领域之一是自然语言处理——从词性标注和句法结构分析到机器翻译和语音识别,所有这些任务都需要模型有能力处理长期语境或输入序列中符号之间的依赖。
某些语言还有固定的“语法模板”,比如汉语和日语中的连词,其中某些连词很可能会出现在某些其它“配对”连词之后。这篇论文提出的方法有望为自然语言生成或自然语言理解领域的研究提供灵感。
参考文献
[1] Aston Zhang, Lluis Garcia-Pueyo, James B. Wendt, Marc Najork, Andrei Broder, Email Category Prediction
Source:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45896.pdf
[2] D. Kingma and J. Ba. Adam: A method for stochastic optimization. arXiv preprint:1412.6980, 2014.
[3] V. Pham, T. Bluche, C. Kermorvant, and J. Louradour. Dropout improves recurrent neural networks for handwriting recognition. In 14th International Conference on Frontiers in Handwriting Recognition, pages 285–290, 2014.