预测电影偏好?如何利用自编码器实现协同过滤方法

深度自编码器(Deep Autoencoder)由两个对称的深度信念网络组成,它相比常见的自编码器加入了更多隐藏层。在本文中,作者将尝试使用该工具进行协同过滤,帮助人们研究和预测大量用户对于不同电影的喜好。

推荐系统使用协同过滤的方法,通过收集用户的偏好信息来预测特定用户的兴趣。协同过滤技术的基本假设是,如果用户 A 对某个问题与人 B 有相同的口味或意见,那么 A 就更有可能在其他问题上拥有与 B 的相同的意见。

本文将介绍如何根据用户的偏好、观看历史、相同评级和其他电影的其他用户的评价预测用户对电影的评分。

目录:

  • 本文简介

  • 深度自动编码器

  • 模型实施

1 介绍

自动编码器是一种深度学习神经网络架构,可实现协同过滤领域最佳的性能。文章的第一部是理论概述,将会介绍简单的自动编码器及深度自编码器的基础数学概念。在第二部分中,我们将深入实际展示如何在 TensorFlow 中逐步应用这一技术。本文仅覆盖和评价模型中最重要的部分。

整个模型的输入渠道和预处理可以在相应的 GitHub 中查看:https://github.com/artem-oppermann/Deep-Autoencoders-For-Collaborative-Filtering

2. 深度自编码器

自编码器

讨论深度自编码器之前,我们先来介绍它稍微简单些的版本。自编码器(Autoencoder)是一种人工神经网络,用于学习一组输入数据的表示(编码),通常用于实现降维

在结构上,自编码器的形式是一个前馈神经网络,由输入层、一个隐藏层和一个输出层(图 1)构成。输出层与输入层的神经元数量相同,因此自编码器属于无监督学习,这意味着它不需要标记数据——只需要一组输入数据即可,而不是输入—输出对。

图 1. 典型的 AutoEncoder 架构。

自编码器的隐藏层比输入层小,这使得模型可以通过学习数据中的相关性在隐藏层中创建数据的压缩表示。

输入层到隐藏层的转换被称为编码步骤,从隐藏层到输出层的转换称为解码步骤。我们也可以在数学上将这些转换定义为映射

映射是通过将输入数据向量乘以权重矩阵,添加一个偏差项并将所得到的向量应用于非线性运算,如 sigmoid,tanh 或整流线性单元来实现的。

自编码器的训练

在训练期间,编码器接收输入数据样本 x 并将其映射到所谓的隐藏层或隐层表示 z 上。然后解码器将 z 映射到输出向量 x' 上,后者是(在最好的情况下)输入数据 x 的准确表示。需要注意的是,通常情况下准确地重建 x 是不可能的。

具有输出 x' 的训练包括应用随机梯度下降以最小化预定损失,例如均方误差:

深度自编码器

简单自动编码器的扩展版是 Deep Autoencoder(图 2)。从图 2 中可以看出,它与简单的计数器部分唯一的区别在于隐藏层的数量。

图 2. 深度自编码器的架构。

额外的隐藏层使自编码器可以从数学上学习数据中更复杂的底层模式。深度自编码器的第一层可以学习原始输入中的一阶特征(例如图像中的边缘)。第二层可以学习对应于一阶特征的外观中的图案的二阶特征(例如,根据哪些边缘倾向于一起发生——例如以形成轮廓或角检测器)。深度自编码器更深层的特性往往可以学习到更高阶的特性。

把所有东西放在一起:我们需要更多的层来处理更为复杂的数据——比如我们在协作过滤中使用的数据。

3. 实现

如前文所述,你将学会预测用户对电影的评级。就此而言,我们将使用著名的 MovieLens 数据集(https://grouplens.org/datasets/movielens/)。MovieLensis 是一个基于网络的推荐系统和推荐用户观看电影的在线社区。

更具体地说,我们将使用 ml_1m.zip 数据集,该数据集包含 6,040 个 MovieLens 用户制作的,约 3,900 部电影的 1,000,209 个匿名评级。我们需要的导入文件是 ratings.dat。该文件包含 1,000,209 行,全部格式如下:user_id :: movie_id :: rating:time_stamp。

例如 ratings.dat 中的第一行:

1::595::5::978824268  

这意味着用户 1 给了 595 号电影打了五星评分。评分时间可以被忽略,因为在这里我们不会使用它。

我们的深度学习模型需要一个特定的数据结构来进行训练和测试。这种数据结构是一个 UxM 矩阵,其中 U 是用户数量,M 是电影数量。每行 i∈U 是唯一的用户 ID,每列 j∈M 是唯一的电影 ID。这种矩阵的可视化效果如图 3 所示。

此矩阵中的每个条目都是用户给出特定电影的评分。输入 0 意味着用户没有给这部电影任何评价。例如。上图中,1 号用户给电影 3 的评级为四星,而电影第 1 则根本没有评级。

由于本教程将重点介绍深度学习模型的实现,因此不会在这里介绍使用 User-Movie-Matrix 超出 ratings.dat 文件的步骤。对于关于这个主题的进一步问题,你可以去我的 GitHub 页面(https://github.com/artem-oppermann/Deep-Autoencoders-For-Collaborative-Filtering/blob/master/data/preprocess_data.py), 查看相应的 python 脚本。

训练和测试数据集

在模型实现和训练之前,我们需要对数据进行其他重新处理步骤,将数据划分为训练和测试数据集。这一步骤简单明了。到目前为止,我们有一个 User-Movie Matrix,其中每一行都是评级列表。要从列表中获得训练和测试集,我们需要从每一行中取一部分评级,并将它们用于训练,其余子集则用于测试。

作为描述过程的一个例子,我们考虑一个仅包含 15 部电影的小得多的数据集。一个特定的用户可能出给这样的电影评级:

Movie Nr. : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Rating:     5 0 2 4 0 0 2 1 5  1  0  4  5  1  3

请记住,0 表示该电影未被评级。现在我们将前 10 部电影中的一部分作为训练集并假设其余的还没有被评分:

Movie Nr. : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Rating:     5 0 2 4 0 0 2 1 5  0  0  0  0  0  0

因此,原始数据的最后 5 个电影等级被用作测试数据,而电影 1-10 被掩盖为未被评级:

Movie Nr. : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Rating:     0 0 0 0 0 0 0 0 0  1  0  4  5  1  3

此处仅仅简单演示了如何获得不同的组合。在原始的 MovieLens 数据集中,我仅使用每个用户的 10 个电影评级进行测试,其余(绝大多数)用于模型的训练。

TensorFlow 实现

1.模型架构

深度自编码器在这里作为一个类来实现,其中包含所有必需的操作,如类内的推理、优化、损失、准确性等。

在构造器中,内核初始化器设置了权重和偏差。下一步,网络中的所有权重和偏差都会被初始化。权重是遵从正态分布的,平均值为 0.0,方差为 0.02,而偏差在开始时都设置为 0.0。

在这个特定的例子中,网络有三个隐藏层,每层包含 128 个神经元。输入层(和输出层)的大小对应于数据集中所有当前影片的数量。

class DAE:
    ''' Implementation of Deep Autoencoder class'''

    def __init__(self, FLAGS):    
        self.FLAGS=FLAGS
        self.weight_initializer=model_helper._get_weight_initializer()
        self.bias_initializer=model_helper._get_bias_initializer()
        self.init_parameters()


    def init_parameters(self):
        ''' Initializing the weights and biasis of the neural network.'''

        with tf.name_scope('weights'):
            self.W_1=tf.get_variable(name='weight_1', shape=(self.FLAGS.num_v,self.FLAGS.num_h), 
                                     initializer=self.weight_initializer)
            self.W_2=tf.get_variable(name='weight_2', shape=(self.FLAGS.num_h,self.FLAGS.num_h), 
                                     initializer=self.weight_initializer)
            self.W_3=tf.get_variable(name='weight_3', shape=(self.FLAGS.num_h,self.FLAGS.num_h), 
                                     initializer=self.weight_initializer)
            self.W_4=tf.get_variable(name='weight_5', shape=(self.FLAGS.num_h,self.FLAGS.num_v), 
                                     initializer=self.weight_initializer)

        with tf.name_scope('biases'):
            self.b1=tf.get_variable(name='bias_1', shape=(self.FLAGS.num_h), 
                                    initializer=self.bias_initializer)
            self.b2=tf.get_variable(name='bias_2', shape=(self.FLAGS.num_h), 
                                    initializer=self.bias_initializer)
            self.b3=tf.get_variable(name='bias_3', shape=(self.FLAGS.num_h), 
                                    initializer=self.bias_initializer)

2.训练

给定一个输入数据样本 x(用户—电影矩阵的一行),正向传递并计算网络输出。隐藏层使用 sigmoid 作为激活函数。请注意,最后一层没有非线性或偏置项。

def _inference(self, x):
    '''Making one forward pass. Predicting the outputs, given the inputs.'''

    with tf.name_scope('inference'):
         a1=tf.nn.sigmoid(tf.nn.bias_add(tf.matmul(x, self.W_1),self.b1))
         a2=tf.nn.sigmoid(tf.nn.bias_add(tf.matmul(a1, self.W_2),self.b2))
         a3=tf.nn.sigmoid(tf.nn.bias_add(tf.matmul(a2, self.W_3),self.b3))   
         a4=tf.matmul(a3, self.W_4) 
    return a4

通过网络预测,我们可以计算这些预测与相应标签(网络输入 x)之间的损失。为了计算损失的平均值,我们还需要知道非零标签的数量——也就是训练集中用户的总评分数。

def _compute_loss(self, predictions, labels,num_labels):
   ''' Computing the Mean Squared Error loss between the input and output of the network.

    @param predictions: predictions of the stacked autoencoder
    @param labels: input values of the stacked autoencoder which serve as labels at the same time
    @param num_labels: number of labels !=0 in the data set to compute the mean

    @return mean squared error loss tf-operation
    '''
         with tf.name_scope('loss'):
         loss_op=tf.div(tf.reduce_sum(tf.square(tf.subtract(predictions,labels))),num_labels)
         return loss_op

网络的优化/训练步骤似乎有点棘手,让我们一步一步讨论。给定输入 x,计算相应的输出。你可能已经注意到,输入 x 中的大部分值都是零值,因为用户肯定没有观看和评估数据集中的所有 5953 部电影。因此,建议不要直接使用网络的原始预测。相反,我们必须确定数据输入 x 中零值的索引,并将与这些索引相对应的预测向量中的值也设置为零。这种预测操纵极大地减少了网络的训练时间,使网络有机会将训练努力集中在用户实际给出的评分上。

在此步骤之后,可以计算损失以及正则化损失(可选)。AdamOptimizer 会将损失函数最小化。请注意,该方法会返回一个均方根误差(RMSE)而不是均方误差(MSE),以测得更好的精度。

def _optimizer(self, x):
        '''Optimization of the network parameter through stochastic gradient descent.

            @param x: input values for the stacked autoencoder.

            @return: tensorflow training operation
            @return: ROOT!! mean squared error
        '''

        outputs=self._inference(x)
        mask=tf.where(tf.equal(x,0.0), tf.zeros_like(x), x) # indices of zero values in the training set (no ratings)
        num_train_labels=tf.cast(tf.count_nonzero(mask),dtype=tf.float32) # number of non zero values in the training set
        bool_mask=tf.cast(mask,dtype=tf.bool) # boolean mask
        outputs=tf.where(bool_mask, outputs, tf.zeros_like(outputs)) # set the output values to zero if corresponding input values are zero

        MSE_loss=self._compute_loss(outputs,x,num_train_labels)

        if self.FLAGS.l2_reg==True:
            l2_loss = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables()])
            MSE_loss = MSE_loss +  self.FLAGS.lambda_ * l2_loss

        train_op=tf.train.AdamOptimizer(self.FLAGS.learning_rate).minimize(MSE_loss)
        RMSE_loss=tf.sqrt(MSE_loss)

        return train_op, RMSE_loss

3.测试

训练几个 epoch 之后,神经网络已经在训练集中看到每个用户的所有评分以及时间了。此时该模型应该已经了解数据中潜在的隐藏模式以及用户对应的电影评级规律。给定用户评分训练样本 x,该模型预测输出 x'。该向量由输入值 x 的重构(如预期)组成,但现在还包含输入 x 中先前为零的值。这意味着该模型在给未评分的电影打分。这个评级对应于用户的偏好——模型从数据中已识别和学习到的偏好。

为了能够测量模型的准确性,我们需要训练和测试数据集。根据训练集进行预测。类似于训练阶段,我们只考虑对应于测试集中非零值的索引的输出值。

现在我们可以计算预测值与实际评分之间的均方根误差损失(RMSE)。RMSE 表示预测值与观测值之间差异的样本标准偏差。例如,RMSE 为 0.5 意味着平均预测评分与实际评分相差 0.5 星。

def _validation_loss(self, x_train, x_test):
        ''' Computing the loss during the validation time.
        @param x_train: training data samples
        @param x_test: test data samples
        @return networks predictions
        @return root mean squared error loss between the predicted and actual ratings
        '''
        outputs=self._inference(x_train) # use training sample to make prediction
        mask=tf.where(tf.equal(x_test,0.0), tf.zeros_like(x_test), x_test) # identify the zero values in the test ste
        num_test_labels=tf.cast(tf.count_nonzero(mask),dtype=tf.float32) # count the number of non zero values
        bool_mask=tf.cast(mask,dtype=tf.bool) 
        outputs=tf.where(bool_mask, outputs, tf.zeros_like(outputs))

        MSE_loss=self._compute_loss(outputs, x_test, num_test_labels)
        RMSE_loss=tf.sqrt(MSE_loss)

        return outputs, RMSE_loss

4.训练结果

最后一步包括执行训练过程并检查模型性能。在这一点上,我不会详细讨论构建数据输入管道、图表、会话等细节。因为这些步骤通常是已知的。对此主题感兴趣的读者可以在我的 GitHub 中查看这些步骤:https://github.com/artem-oppermann/Deep-Autoencoders-For-Collaborative-Filtering/blob/master/train.py

在这里,你可以看到前 50 个迭代次数的训练和测试表现。50 次后,测试集的预测和实际评分间的偏差是 0.929 星。

epoch_nr: 0, train_loss: 1.169, test_loss: 1.020

epoch_nr: 10, train_loss: 0.936, test_loss: 0.959

epoch_nr: 20, train_loss: 0.889, test_loss: 0.931

epoch_nr: 30, train_loss: 0.873, test_loss: 0.923

epoch_nr: 40, train_loss: 0.859, test_loss: 0.925

epoch_nr: 50, train_loss: 0.844, test_loss: 0.929

原文地址:https://towardsdatascience.com/deep-autoencoders-for-collaborative-filtering-6cf8d25bbf1d

工程协同过滤自编码器自然语言处理
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

均方根误差技术

平方平均数(Quadratic mean),简称方均根(Root Mean Square,缩写为 RMS),是2次方的广义平均数的表达式,也可叫做2次幂平均数。常用于计算误差

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

推荐文章