IJCAI 2020 | 微软亚洲研究院精选论文摘录

编者按:受疫情影响,2020国际人工智能联合会议 IJCAI 将延期至2021年举办。本届 IJCAI 的审稿堪称史上最严,接收率仅为12.6%,是 IJCAI 史上最低的接收率。微软亚洲研究院今年共入选了18篇论文,本文精选了其中的5篇进行介绍,涵盖强化学习、机器翻译、虚拟机配置、个性化推荐、语音增强等领域的最新成果。

深度强化学习模型表达力的指标研究

I4R: Promoting Deep Reinforcement Learning by the Indicator for Expressive Representations

论文链接:

https://www.researchgate.net/publication/342796344_I4R_Promoting_Deep_Reinforcement_Learning_by_the_Indicator_for_Expressive_Representations

深度强化学习算法中,深度神经网络作为特征提取器(如图1),其表达能力对算法的表现是很重要的。不同于监督学习强化学习(RL)任务中的输入通常相似度比较高,细粒度的输入差异对应着不同的动作(Action)(如图2)。因此,强化学习需要表达能力更强的特征提取器。这促使我们研究深度强化学习模型表达力的指标,以及其与强化学习算法的表现之间的关系。

图1:特征提取器及特征矩阵

图2:在 Atari 游戏中的原始帧,细粒度的局部差异用红色圆圈标记

首先,我们选择了3个 RL 模型玩 Gravitar 游戏,其中模型1分数最高,模型3分数最低。通过可视化三个模型的特征,如图3所示,分数越高的模型提取的特征越分散。我们进一步观察特征矩阵的特征值分布,如图4所示,分数越高的模型奇异值分布越均匀,而不是集中在少数奇异值上。由此,我们提出强化学习模型表达的指标,称为 NSSV,定义如下:

其中 σ_j (H) 代表特征矩阵 H 的第 j 大奇异值。观察了 NSSV 与 Reward 之间的关系后,发现 NSSV 的值与 Reward 的趋势一致(如图5)。

图3:特征的二维可视化

图4:特征矩阵的奇异值分布函数

图5:NSSV 和 Reward 曲线

我们进而提出了增强模型表达力的深度强化学习算法(Exp-DRL),即优化以下带正则的损失函数:L=loss-α⋅NSSV(H),其中正则项 NSSV(H) 约束优化过程中的 NSSV 值变大可以增强模型的表达能力。由于 NSSV(H) 无法直接被优化,因此约束 σ_max (H)-σ_min (H) 以及 σ_max (H)/σ_min (H) 来达到约束 NSSV 变大的效果。

我们在 Atari game 上验证了所提出算法的有效性。表1给出了算法 Exp-DQN 和 Exp-A3C 在 Atari game 上的表现。平均来看,它们可以取得更高的分数,并且 Exp-DQN 在20个(共30)游戏中打败了 DQN,Exp-A3C 在48个(共55)游戏中打败了 A3C。图6给出了训练过程中 A3C 和 Exp-A3C 算法的 NSSV 和 Reward 曲线。可以看出 Exp-A3C 有效地增大了 NSSV,并且提升了算法在 Atari game 上的表现。以上实验结果验证了 Exp-DRL 这类算法的有效性。

表1:Atari games 上的分数

图6:A3C 和 Exp-A3C 算法的 NSSV 和 Reward 曲线

云计算场景中的智能虚拟机配置

Intelligent Virtual Machine Provisioning in Cloud Computing

论文链接:

https://www.microsoft.com/en-us/research/uploads/prod/2020/04/UAHS_IJCAI_2020_updated.pdf

近年来,云计算(Cloud Computing)已经成为一种新的计算范式,并且可以高效地为用户提供多种在线服务。虚拟机配置(Virtual Machine Provisioning)是云计算场景中最为常见且关键的操作。实际上,工业云平台每天都会配置数量众多的虚拟机,但是云平台无法通过简单的配置方案(Provisioning Plan)来高效地利用计算资源。所以,如何设计高效的虚拟机配置方案是云计算场景中至关重要的问题。此外,在实践中从零开始配置虚拟机需要相对较长的时间,而漫长的配置时间会降低用户体验。因此提前配置虚拟机是一个行之有效的解决方案。

本篇论文将以上的应用场景形式化定义为预备虚拟机配置(Predictive Virtual Machine Provisioning, PreVMP)问题。在 PreVMP 问题中,虚拟机的未来配置需求是未知的,因此需要提前预测即将到来的虚拟机配置需求,然后依据预测的结果进行虚拟机配置方案的优化。

PreVMP 问题是典型的预测+优化(Prediction+Optimization)问题。针对预测+优化问题,直观的解决方法是两阶段方法(Two-Stage Method),首先利用历史数据预测未来需求,然后再基于预测的结果优化配置方案。两阶段方法的不足之处在于其假设预测的结果是准确的,然而在实践中预测误差是无法避免的。

为了有效地求解 PreVMP 问题,我们提出了 UAHS 求解方法(Uncertainty-Aware Heuristic Search)。UAHS 包括3个组件:1)参数选择组件,2)预测组件,3)优化组件。

UAHS 方法的架构如下图所示:1)UAHS 在预测阶段不仅会预测需求,并且会对预测不确定性进行建模;2)UAHS 在优化阶段采用了一种创新的优化算法,该优化算法利用预测不确定性来指导优化的方向;3)UAHS 利用贝叶斯优化方法将预测组件和优化组件进行有效的结合,这样可以有效地提升 UAHS 的实际性能。

图7:UAHS 方法的架构

我们将 UAHS 方法与多种先进的求解方法进行了实验对比(相关的实验结果可见下表)。实验结果表明,相比较于已有的求解方法,UAHS 展现出了更好的求解性能。

表2:不同方法在求解 PreVMP 上的实际性能对比

UAHS 方法已经被成功应用于微软云平台Azure的预配置服务(Pre-Provisioning Service,PPS)中。Azure 可以通过复用预先配置的虚拟机来极大程度地降低虚拟机配置的时间。在 UAHS 方法部署之后,大约93%符合预配置条件的用户虚拟机配置请求可以复用预先配置的虚拟机,同时虚拟机配置的时间降低了42%。这些结果充分地表明了 UAHS 可以在实际应用中带来性能的提升。

面向非自回归机器翻译的任务级课程学习

Task-Level Curriculum Learning for Non-Autoregressive Neural Machine Translation 

论文链接:https://www.ijcai.org/Proceedings/2020/0534.pdf   

非自回归翻译(Non-Autoregressive Translation, NAT)通过并行的生成目标语言的句子,能达到非常快的推理速度,但与自回归翻译( Autoregressive Translation, AT)相比,其准确性较差。由于 AT 和 NAT 可以共享模型结构,而 AT 是比 NAT 更容易的任务,因此我们认为可以逐渐将模型训练从较简单的 AT 任务切换到较难的 NAT 任务。

为了平滑地将训练过程从 AT 到 NAT 过渡,在论文中,我们引入了半自回归翻译(Semi-Autoregressive Translation, SAT)作为中间任务。SAT 包含一个参数 k,每个 k 值定义了具有不同并行度的 SAT 任务。SAT 的极端情况涵盖了 AT 和 NAT:当 k = 1时,它归为 AT;当 k = N 时,它归为 NAT(N 是目标句子的长度)。以 SAT 为中间任务,我们提出了面向 NAT 的任务级课程学习(Task-Level Curriculum Learning)方法(TCL-NAT),它将 k 从1逐渐切换至 N 来逐渐增加模型训练的任务难度,以提升 NAT 的翻译精度。 

具体而言,可将训练过程分为三个阶段:AT 训练(k = 1),SAT 训练(1<k<N)和 NAT 训练(k = N)。SAT 训练又包含多个阶段,其中以 k = 2、4、8 ... 的方式逐步地、以指数方式地移动 k。为了更好地切换任务,我们设计了用来控制各个 k 训练步数的规划函数,包括线性,对数和指数函数。另一方面,为了使切换过程平稳并减小不同阶段之间的差距,我们进一步引入了任务窗口 w,该参数表示每个阶段中同时训练的任务数。例如,当 w = 2时,第一阶段 k = 1,2的任务同时训练,第二阶段 k = 2,4的任务同时训练,依此类推。 

实验表明,与以前的 NAT 基线相比,TCL-NAT 显着提高了翻译精度,并将 NAT 和 AT 模型之间的性能差距降低到1-2 BLEU,这说明了我们提出的方法的有效性。 

表3:TCL-NAT 同基线模型的 BLEU 分数比较。标注 NPD 9 表示采用有9个候选者的 Noisy Parallel Decoding(NPD),未标注的表示只有一个候选者。

联合训练时频域和时域的语音增强

Time-Frequency and Time Domain Learning for Speech Enhancement

论文链接:https://www.ijcai.org/Proceedings/2020/0528.pdf

单通道语音增强技术的目的是将含有噪声的语音恢复成不包含噪声的语音。主流方法可以分成两类:时频域和时域。时频域方法的优点是可以利用语音和噪声在语谱图中的结构信息,缺点则是预测出的最优语音语谱图并不一定是最优的时域语音。而时域方法无法利用语音和噪声在语谱图中的结构信息,但却没有时频域方法的缺点。

本篇论文提出了一种跨域的方法来充分利用这两类方法的优点。它的特点是从输入的含噪声的时频域信号,端到端可学的预测出不含噪声的时域信号。如图8所示,系统的前半部分与标准的时频域方法一样,对时频域信号进行处理,因而可以利用语音和噪声在语谱图中的结构信息。系统的后半部分类似于时域的方法,首先用一个可学的解码器将时频域信号转换成时域信号,然后与监督信号计算损失函数。这样一个端到端可学的系统就避免了时频域方法的缺点。

图8:跨域处理方法

此外,论文中还提出了一种注意力机制框架,目的是同时利用语音在频率方向的谐波特性,以及语音在时间上的关联特性。根据不同样本的注意力机制图具有相似性的特点,我们在该注意力机制框架下扩展出一个与样本无关的注意力机制模块,可以进一步降低计算复杂度。具体如下图所示:

图9:注意力机制框架

实验结果如下,以客观指标作为优化目标,本文的方法在两个数据集上的 SDR 和 SSNR 都高于现有方法。

表4:实验结果

可解释对话推荐

Towards Explainable Conversational Recommendation

论文链接:https://www.microsoft.com/en-us/research/uploads/prod/2020/05/ijcai20_camera_ready_conversion.out_.pdf

个性化推荐系统日益成为用户处理线上信息的最有效手段。近年来研究表明,个性化推荐系统的准确性(accuracy)和可解释性(explainability)都是不可或缺的,若系统能在给出切中用户兴趣的商品同时解释其推荐的原因,将会显著提升用户的满意度与信任度。

解释如同用户与推荐系统之间的桥梁,好的解释不但能帮助用户更好的理解推荐系统模型的机理与逻辑,还能够潜在地引导用户向系统反馈自己的意见(例如启发用户在推荐系统给出欠佳的结果或解释时对其进行指正),帮助系统进一步提升准确性。现有的可解释推荐系统往往忽视了后者,只给出一次推荐结果及解释,无法对用户可能的反馈加以吸纳。

因此我们提出了可解释对话推荐(explainable conversational recommendation)任务,系统籍由解释引导用户反馈,并进行整合、吸收,产生新的结果,以系统-用户对话的形式迭代地提升推荐和解释效果(如图10、11所示)。相比于现有的对话推荐模型设计问题收集用户答案的方式,可解释对话推荐用户自主反馈的方式不仅能保证模型的可解释性,也为用户减轻负担,更加友好。

图10:可解释对话推荐示例

图11:可解释对话推荐流程

可解释对话推荐的目标不只是随用户反馈的增加高效稳定地提升推荐的准确性及可解释性(泛化能力,generalization),更要尽可能充分、及时地满足用户的反馈意见(满意度, satisfaction)。因此我们提出了基于增量多任务学习架构的可解释对话推荐(ECR)模型(如图12所示)。该模型通过对概念词(concept)的表示来学习关于建模推荐与解释任务的交叉知识,将推荐预测、解释生成以及用户反馈整合模块紧密结合,从而共同学习,逐步提升模型效果,达到各个设计目标。

图12:ECR 模型的增量多任务学习架构

在整合用户反馈时,我们提出了一种多视角的方法使模型的增量更新过程更加有效。其中第一个视角从泛化能力出发,通过更新模型的全局(global)参数吸收用户反馈,降低误差;第二个视角从用户满意度出发,以局部传播(local propagation)的方式更直接地满足用户的反馈意见。

我们在 Amazon Electronics、Movies&TV、Yelp 三个数据集上模拟用户反馈进行了充分实验。实验结果显示提出的可解释对话推荐模型在推荐准确性、可解释性以及用户反馈满足比例上均明显优于基准算法,达到了系统设计的各个目标。

表5:模型在不同数据集上的实验结果

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论论文微软亚洲研究院IJCAI 2020
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

多任务学习技术

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~