NeurlPS 2019丨微软亚洲研究院精选论文解读

编者按:NeurlPS 2019 正于12月8-14日在加拿大温哥华举行。微软亚洲研究院有11篇论文入选本届 NeurlPS,内容涵盖社交网络影响力最大化、奖励分解、语音合成、机器翻译等多个前沿主题。本文将为大家介绍其中的5篇论文。

近视反馈下的自适应影响力最大化

Adaptive Influence Maximization with Myopic Feedback

论文链接:https://papers.nips.cc/paper/8795-adaptive-influence-maximization-with-myopic-feedback.pdf

影响力最大化研究在社交网络中如何选取少量结点(称为种子结点)使得通过影响力传播产生的影响力最大。影响力最大化可以应用到口碑营销、留言监控等涉及网络传播的方面,在学术界有广泛研究。

本篇论文着重研究自适应最大化,即种子结点的选取不是一次完成,而是一次选一个或几个,再根据已选种子的传播结果决定后续选哪些种子。我们特别研究自适应影响力最大化中的近视反馈情形,即每选取一个种子结点后我们只能得到它对其网络中的直接邻居的激活情况作为反馈,而不能看到后续的传播情况。

在 Golovin 和 Krause(2011)的关于自适应优化的经典论文中,他们指出近视反馈下的自适应影响力最大化不满足自适应次模性,所以自适应贪心算法不能保证(1-1/e)的近似比,但他们猜想存在常数近似比的自适应算法。我们在这篇文章中对这个开放多年的猜想给出了肯定的回答。

我们从研究近视反馈下的自适应差距(adaptivity gap)—— 即自适应模型下的最优解和非自适应模型下的最优解之间的比值 —— 入手,证明了近视反馈下影响力最大化的自适应差距最大是4,最小是 e/(e-1)。从这个结论,我们进一步论证自适应贪心算法得到的解是自适应最优解的 1/4(1-1/e) 近似, 但存在实例近似比不会好于 (e^2+1)/(e+1)^2。我们的研究是极少数对于不满足自适应次模性的优化问题也能给出常数自适应差距论证的工作。所以它不仅扩展了自适应影响力最大化的研究,也对一般自适应优化给出了新的研究方向,而自适应优化在机器学习数据挖掘的很多方面都有应用。

基于分布强化学习的奖励分解

Distributional Reward Decomposition for Reinforcement Learning

论文链接:https://arxiv.org/abs/1911.02166

近年来,深度强化学习已经广泛地应用在游戏、围棋、机器人等领域。但深度强化学习依然面临着样本效率低和可解释差等挑战。如何利用问题的特殊性质来设计更高效的算法便是其中一个重要的研究方向。奖励分解(reward decomposition)就是解决这个问题的一个重要分支。

现有的奖励分解算法是比较局限的。Van Seijen 等人提出,根据先验知识将状态空间切分,然后根据给定的奖励函数学习不同的价值函数,再相加构成最终的价值函数。然而,先验知识的引入限制了该方法的通用性。为了设计更具一般性的算法,Grimm 和 Singh 设计了一个新的损失函数,通过最大程度地消除子奖励之间的纠缠(disentanglement)来实现奖励分解。然而,该方法需要环境具有重置的特殊功能,同样限制了在通用环境上的应用。

受分布强化学习的启发,我们提出了一个新的奖励分解框架 DRDRL。该方法在不需要先验知识和特殊环境设置的前提下,能够在智能体学习过程中发现有意义的隐式奖励分解,并且提升了 RAINBOW 算法的性能。

在 DRDRL 中,我们将子奖励(sub reward, r_i)视为随机变量,将其对应的子奖励之和(sub return, Z_i)所对应的分类分布用 F_i 来描述。通过进行独立性假设,最终 Q 函数对应的分布 F 可以表示为不同子分布 F_i 之间的的一维卷积:

在这个新的表示形式下,我们可以推导出隐式的奖励分解表达式:

进一步,为了使得各个子分布 F_i 能得到不同的奖励分解,我们在优化过程中加入了如下的约束,即最大化下面的指标:

该约束会将不同分支所对应的动作之间的差别最大化,从而使得网络能学习到独立的子奖励。

此外,为了防止训练过程中不同的分支交换导致训练不稳定,我们借鉴了 UVFA 的思想,对不同的分支输入额外的表征分支的向量,从而得到多渠道的状态特征(multi-channel state feature),使得训练更加高效,最终的网络结构如图1所示。

图1:DRDRL 网络架构

我们将 DRDRL 在 Atari 游戏上进行了测试(图2),结果显示我们的方法能大幅度提高 RAINBOW 的性能。

图2:DRDRL 在 Atari 游戏上的测试结果

同时,我们的算法也能得到有意义的奖励分解(图3)。当画面中的潜艇上岸补充氧气时,第一个分支 r_1 能捕获更多的奖励信号;相反当潜艇射击小鱼时,第二个分支 r_2 能捕获更多的奖励信号。

图3:DRDRL 得到的有意义的奖励分解

我们用 saliency maps 对训练结果进行可视化,发现不同的分支能够 attend 到 state 当中不同的区域,这也使得我们的方法训练出来的智能体具有较强的可解释性。

图4:训练结果的可视化

更快、更鲁棒、更可控的语音合成系统 FastSpeech

FastSpeech: Fast, Robust and Controllable Text to Speech

论文链接:https://papers.nips.cc/paper/8580-fastspeech-fast-robust-and-controllable-text-to-speech.pdf

更多 Demo 声音请访问:https://speechresearch.github.io/fastspeech/

近年来,基于神经网络的端到端文本到语音合成(Text-to-Speech, TTS)技术取了快速发展。然而这种技术依然面临以下几个问题:(1)合成语音的速度较慢;(2)合成的语音稳定性较差;(3)缺乏可控性。

为了解决上述的一系列问题,本文提出了一种基于 Transformer 的新型前馈网络 FastSpeech,可以并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音。FastSpeech 模型结构如下图所示,主要构成为前馈神经网络(Feed-Forward Transformer),长度调节器(Length Regulator)以及音素持续时间预测器(Duration Predictor)。前馈神经网络能让模型并行的生成梅尔谱,同时抛弃了传统的编码器-注意力-解码器结构,提高合成语音的稳定性。长度调节器通过音素时间预测器来预测每个因素的持续时间,进而调整音素序列和梅尔谱序列的长度差异,同时还能调节生成语音的语速以及停顿等。详细模型结构可参见论文。

图5:FasSpeech 网络架构

FastSpeech 在训练过程中采用 teacher-student 模式,teacher 模型为自回归的 Transformer TTS,student 模型为 FastSpeech。在 LJSpeech 数据集上的实验表明,FastSpeech 具有以下几点优势:

(1)快速:如表1所示,与自回归的 Transformer TTS 相比,FastSpeech 将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了近38倍,单 GPU 上的语音合成速度是实时语音速度的30倍。

表1:测试集上不同模型的语音合成速度比较

(2)鲁棒:几乎完全消除了合成语音中重复吐词和漏词问题;

(3)可控:可以平滑地调整语音速度和控制停顿以部分提升韵律;

最后,FastSpeech 的语音质量可以与传统端到端自回归模型(如Tacotron 2和Transformer TTS)相媲美(如表2所示)。

表2:FastSpeech 的语音质量与传统端到端自回归模型的对比

基于 soft 原型的神经机器翻译

Neural Machine Translation with Soft Prototype

论文链接:http://papers.nips.cc/paper/8861-neural-machine-translation-with-soft-prototype.pdf

机器翻译模型在生成序列的时候,通常采用单阶段解码过程。这种生成模式存在的一个局限性,就是生成过程没有很好地应用好目标端的全局信息。之前的工作提出了许多不同的方法利用全局信息克服这种局限,包括引入额外的网络结构生成一个中间序列;或是从已有的语料集中检索出中间序列。这些不同方法都有着相同的基本思想,即是将一个原型序列(prototype sequence)引入到标准编码器-解码器框架中。

一个好的原型序列应该具有以下两条特性:一是高质量,原型序列应该是一个包含丰富的全局信息并且方差较低的高质量向量表示;二是高效率,原型序列应该容易生成,不会带来过多的时间和存储开销。先前工作中提出的原型序列都能比较好地表达全局信息,但是生成过程效率比较低。而且,由于生成开销较大,先前工作在实践中通常利用单一序列作为 hard 原型,这样会引入较大方差,对最终生成质量带来负面影响。

本研究中,我们提出了一个引入 soft 原型序列的框架来充分利用目标端的全局信息,引入原型序列后的通用框架可以表示为:

其中 Enc 和 Dec 分别是标准编码-解码器框架中的编码器和解码器网络,Net 是一个额外用于编码原型序列 R 的网络。定义 E_y 为目标域的词向量矩阵,维度为 |V_y| × d。用 1(y’) 表示目标域的序列 y’ 所对应的维度为 l_y'×|V_y| 的独热向量表达,其中的每一行对应一个单词的独热向量。序列 y’ 的 soft 原型序列 R 计算为:

在此框架的基础上,我们提出一种更高效的原型序列生成方法。我们利用一个概率生成器 g,将输入单词投影到一个目标域词表上的概率分布,即 g(v_x)=(p_1,p_2,…,p_|V_y| ),∑p_j=1。对于任意序列 x,第 i 个词 x_i 通过生成器映射为 ∑_j g_j (x_i ) e_j 的原型序列表示。这种生成方式有两个好处:和先前工作中解码或检索的原型序列生成方法相比,这里 G_y 采用非自回归的生成方式,显著提高了生成效率;同时,先前工作中通常采用单一原始序列,而 soft 原型序列包含多个候选翻译内容,为解码器提供更加丰富且方差更低的表达。

我们以机器翻译为例,在 Transformer 模型上介绍这种原型序列。如下图所示,对于给定输入序列,首先利用上述概率生成器 g 获得原型序列 R,并利用网络 Net 将其编码为上下文向量表示。原始输入序列和原型序列的上下文表示共同作用于解码器的编码-解码注意机制中,进行解码。

图6:soft 原型序列在 Transformer 中的应用

我们在有监督翻译、半监督翻译和无监督翻译上展开实验,均验证了我们算法的有效性。

用于细粒度图像表示的深度双线性变换学习

Learning Deep Bilinear Transformation for Fine-grained Image Representation

论文链接:https://papers.nips.cc/paper/8680-learning-deep-bilinear-transformation-for-fine-grained-image-representation.pdf

代码链接:https://github.com/researchmm/DBTNet

基于部位检测的表达学习需要显式地定位到各个部位,并对定位到的部位进行放大、对齐等,来进一步得到更好的表达。这类方法通常会伴随复杂的部位处理和较多的计算量,有很多方法还会因为将定位和分类分成两个子任务而无法得到全局最优解。基于双线性的特征学习通过对特征向量进行外积操作来实现通道信息之间的逐对交互,从而得到对细节信息更好的表达。但受到极高维的双线性特征的影响,这类方法会大大增加参数量,而且只能被应用在神经网络的最后一层,作为一种池化操作。

针对以上问题,我们提出了“利用基于部位的语义信息,得到一种低维而高效的双线性表达”的构想,让能够表达丰富细节的双线性特征能够很深地集成到卷积神经网络中,因此提出了深度双线性网络(Deep Bilinear Transformation Network, DBT-Net)网络结构。

我们通过设计一种语义分组的约束将卷积特征的各个通道进行分组,然后对同一组内的通道进行双线性操作,得到针对这个语义的丰富的细节表达,再将不同组之间的双线性表达求和得到低维特征。用于分组的约束要求同一个语义组内的卷积通道两两之间有尽可能大的空间交叠,而不同组件的通道尽可能没有交叠。这种逐对的分组约束可以使后续的分组双线性操作更好地捕捉针对每个语义块的细节特征。

我们设计的深度双线性转换模块可以很容易地集成到深度卷积神经网络的结构中。比如可以将其插入到传统残差块(ResNet Bottleneck Block)的第一个卷积层和第二个卷积层之间来得到能够融合双线性特征的残差块。 

为了验证我们提出的深度双线性转换的有效性,我们在三个常用的细粒度分类数据集上进行了实验,均取得了明显的提高。

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论论文NeurlPS 2019
2
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

贪心算法技术

贪心法,又称贪心算法、贪婪算法、或称贪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

暂无评论
暂无评论~