Nurhachu Null 张倩参与

DeepMind提出对比预测编码,通过预测未来学习高级表征

本文提出了一种通用的无监督学习方法——对比预测编码,从高维数据中提取有用的表征。该方法的核心是通过使用强大的自回归模型预测潜在空间的未来,以学习高级表征。论文证明,该方法能够学习有用的表征,在 3D 环境中的语音、图像、文本和强化学习四个不同的领域表现出优异的性能。

1. 引言

在端到端的潮流下使用分层可微分模型从有标签的数据中学习高级表征是人工智能目前最大的成功之一。这些技术使得人工设计的特征很大程度上都显得多余了,并且也提升了好几个实际应用中的当前最佳技术水平 [1,2,3]。但是,该领域仍存在很多挑战,例如数据的有效性、鲁棒性以及泛化能力。

提升表征学习不太需要专门用于解决单个监督任务的特征。例如,在预训练一个模型用于图像分类时,所产生的特征能够很好地迁移到其他图像分类域中,但是缺少与颜色或者计数能力相关的信息,这些信息与分类无关,但是与图像描述等任务相关 [4]。类似地,对转录人类语音有用的特征可能不太适用于说话人身份验证或者音乐流派预测。所以,无监督学习是实现鲁棒和通用表征学习的重要跳板。

尽管无监督学习非常重要,但是它还没有取得与有监督学习类似的重大突破:从原始数据中对高级表征进行建模还是很难得一见。此外,理想的表征是什么,以及在没有额外的监督或者没有某个特定的数据模态下的监督时,是否有可能学到这种表征,这些并不总是非常清晰。

监督学习中的一个常见策略就是预测未来的、缺失的或者上下文中的信息。这种预测编码 [5,6] 的思想是用于数据压缩的最古老的信号处理技术之一。在神经科学中,预测编码理论认为大脑在不同的抽象水平预测观察 [7,8]。无监督学习领域的最新研究已经成功地利用这种思想通过预测临近词来学习词表征 [9]。对图像而言,从灰度值或者图像块的相对位置来预测颜色也被证明是有用的 [10,11]。我们假设这些方法是有效果的,部分原因是我们从中预测相关值的上下文经常是有条件地依赖于相同的高级别潜在信息。通过将此作为一种预测问题,我们自动地推理这些表征学习感兴趣的特征。

在这篇论文中,我们提出了以下内容:首先,我们将高维数据压缩到更加紧密的潜在嵌入空间,这个空间中条件预测更容易建模。接下来,我们在这个潜在空间中使用强大的自回归模型来做多步未来预测。最后,对损失函数,我们依靠噪声对比估计 [12],这是与自然语言模型中用于学习词嵌入类似的方式,需要整个模型以端到端的形式进行训练。我们将最终的模型(对比预测编码,CPC)用在了很多不同的数据模态中,包括图像、语音、自然语言和强化学习,结果表明同样的机制在每一个领域中都学到了有趣的高级表征,而且优于其他方法。

图 1: 论文提出的表征学习方法——对比预测编码(CPC)概览。尽管此图仅仅展示了使用音频作为输入的情况,但是我们对图像、文本以及强化学习都做了相同的实验设置。

3. 实验

3.1 音频

表 1: LibriSpeech 数据集上的音素分类和说话人分类结果。音素分类共有 41 个可能的类别,说话人分类共有 251 个可能的类别。所有的模型都使用相同的结构和相同的音频输入大小。

表 2: LibriSpeech 数据集中音素分类的 ablation 实验。论文的 3.1 部分会有更多细节。

图 4:图像对比预测编码的可视化(这是图 1 的二维适应)

3.2 视觉

表 3: ImageNet 无监督分类的 top-1 结果。由于架构差异,Jigsaw 无法与其他 AlexNet 结果直接比较。

表 4: ImageNet 无监督分类的 top-5 结果。之前使用 MS、Ex、RP、Col 得到的结果来源于 [35],是这项任务上的最佳报告结果。

3.3 自然语言

表 5: 5 个常见 NLP 测试基准上的分类准确率。我们遵循与 skip-thought vector 一样的迁移学习设置 [25],使用 BookCorpus 数据集作为迁移源。[39] 是学习句子级别表征的一种无监督方法。[25] 是一种可选择的无监督学习方法。[40] 是使用层正则化迭代一百万次训练得到的 skip-thought 模型。

3.4 强化学习

图 6: [49] 中使用的 DeepMind 实验室中 5 个任务上的强化学习结果。黑色:分批 A2C 基准,红色:辅助对比损失

论文:Representation Learning with Contrastive Predictive Coding

论文链接:https://arxiv.org/pdf/1807.03748.pdf

摘要:虽然监督学习在许多应用中都取得了很大进展,但无监督学习并没有得到如此广泛的应用,它仍然是人工智能的一项重要而富有挑战性的工作。本文提出了一种通用的无监督学习方法,从高维数据中提取有用的表征,我们称之为对比预测编码。论文所述模型的关键思想是通过使用强大的自回归模型预测潜在空间的未来,以学习这些表征。我们使用一种概率对比损失,这种概率对比损失诱导潜在空间捕获最有助于预测未来样本的信息。采用负采样也使模型易于处理。虽然之前的大多数研究都集中在评估特定模态的表征上,但是我们证明,我们的方法能够学习有用的表征,在 3D 环境中的语音、图像、文本和强化学习四个不同的领域表现出优异的性能。

理论Deepmind论文
1
相关数据
词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

Alex网络技术

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~