腾讯AI Lab入选20篇论文,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

腾讯AI Lab第三次参加NIPS,共有20篇论文入选,其中2篇被选为亮点论文(Spotlight),涵盖迁移学习模仿学习半监督学习等多个研究主题,去年我们入选论文8篇,含1篇口头报告(Oral)。

此外,在今年的多个顶级学术会议中,腾讯AI Lab也入选多篇论文,位居国内企业前列,包括计算机视觉领域顶会CVPR(21篇)ECCV(19篇)机器学习领域顶会ICML(16篇)、NLP领域顶会EMNLP(16篇),以及语音领域顶会Interspeech(8篇)等。

我们将在下文一一解析本次腾讯AI Lab入选论文,也邀请大家在NIPS的现场跟我们进一步交流与讨论。

1.一种自适应于不同环境、不同任务的强化学习方法

Synthesize Policies for Transfer and Adaptation across Environments and Tasks

这项研究由腾讯 AI Lab 和南加州大学合作主导完成,是本届 NIPS 的 Spotlight 论文之一,研究了同时在不同环境(Env)和不同任务(Task)之间迁移的问题,目的是利用稀疏的(Env, Task)组合就能学到在所有可能组合中迁移的能力。文中提出了一种新颖的部件神经网络,它描述了如何从环境和任务来组成强化学习策略的元规则。值得注意的是,这里的主要挑战之一是环境和任务的特征描述必须与元规则一起学习。为此,研究者又进一步提出了新的训练方法来解锁这两种学习任务,使得最终的特征描述不仅成为环境和任务的独特签名,更成为组建策略的有效模块。研究者在GRIDWORLD和AI2-THOR上进行了大量实验,结果表明新提出的模型可以有效地在 400 个(Env, Task)组合之间成功迁移,而模型的训练只需要这些组合的大概40%。

2. SPIDER:一种基于随机路径积分的差分估计子的邻近最优的非凸优化方法SPIDER

Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

这项研究由北京大学与腾讯 AI Lab 合作完成,探索了一种用于快速随机求解非凸优化问题的方法,同时也是本届 NIPS 的 Spotlight 论文之一。论文中提出了一种名为“随机路径积分的差分估计子(SPIDER)”的新技术,能以更低的计算复杂度追踪许多我们感兴趣的量。研究者还进一步将 SPIDER 与归一化的梯度下降方法结合到了一起,提出了用于求解非凸随机优化问题(仅需使用随机梯度)的两个算法:SPIDER-SFO和SPIDER-SSO。这两个算法具有很快的收敛速度。特别值得一提的是,SPIDER-SFO 和 SPIDER-SSO 能够以的随机梯度复杂度分别解出一个满足 ε 误差的一阶稳定点和满足误差的二阶稳定点。除此之外,对于有限和并满足梯度利普希茨连续的函数族,SPIDER-SFO 在获取一阶稳定点时几乎达到了算法下界。

SPIDER-SFO

SPIDER-SSO


3.  基于分批历史数据的指数加权模仿学习方法

Exponentially Weighted Imitation Learning for Batched Historical Data

这项研究由腾讯 AI Lab 独立完成,主要研究了仅使用成批量的历史数据的深度策略学习。这篇文章中我们主要考虑的是只使用历史数据的深度策略学习。这个问题的主要挑战在于,与大部分强化学习问题不同,我们不再有一个环境的模拟器来进行学习。为了解决这个问题,研究者提出一个单调优势加权的模仿学习算法来从历史数据中学习,并且可以应用到复杂非线性函数近似以及混合动作空间的问题中。这个方法并不依赖用来生成数据的行为策略的知识,所以可以被用来从一个未知的策略生成的数据中进行学习。在一些条件下,该算法(尽管非常简单)可以证明策略提升的下界,并且在实验中的效果超过了其它方法,并有望为复杂游戏 AI 提供更好的模仿学习。论文中也提供了详尽的数值实验来展示所提出的算法的有效性。

4. 基于适应性采样的快速图表示学习

Adaptive Sampling Towards Fast Graph Representation Learning

论文地址:https://arxiv.org/abs/1809.05343

这项研究由腾讯 AI Lab 独立完成,提出了一种适用于大规模社交网络的节点分类方法。社交网络可表示成图(graph)的形式,而图卷积网络已经成为了图节点表示学习的一种重要工具。在大规模图上使用图卷积网络会产生巨大的时间和空间开销,这主要是由无限制的邻居扩张引起的。在这篇论文中,研究者设计了一种适应性的逐层采样方法,可加速图卷积网络的训练。通过自上而下地构建神经网络的每一层,基于顶层的节点采样出下层的节点,可使得采样出的邻居节点被不同的父节点所共享并且便于限制每层的节点个数来避免过扩张。更重要的是,新提出的采样方法能显式地减少采样方差,因此能强化该方法的训练。研究者还进一步提出了一种新颖且经济的跳(skip)连接方法,可用于加强相隔比较远的节点之间的信息传播。研究者在几个公开的数据集上进行了大量实验,结果表明我们方法是有效的而且能很快收敛

5. 具有非对称损益重尾特性的金融收益序列低维简约分位数回归

Parsimonious Quantile Regression of Financial Asset Tail Dynamics via Sequential Learning

这项研究由腾讯 AI Lab 主导,与香港城市大学、香港中文大学合作完成。文中提出了一种低维简约分位数回归框架来学习金融资产收益的动态尾部行为。该方法由数据驱动, 即能广泛的表征金融时间序列的在损益两端的重尾不对称性,又能很好地抓住条件分位数函数的时变特性。该方法将序列神经网络模型 LSTM 的优势与一种新构建的用来表示资产价格条件收益的参数化分位数函数结合到了一起。研究者在长达68年(1950-2018)的历史数据中, 对股票,债券,外汇三大类14种资产的研究表明,该方法的重要特点是能半参数的提取可能存在于数据中的条件分位函数的非线性演化过程。该机制对于抓住那些能驱动高阶矩时变演化而又独立于波动率的因子非常关键。对比表明新提出的模型的外样本预测表现优于 GARCH 模型族。与此同时该方法既不会导致分位数交叉,也没有参数化概率密度函数方法的不适定性问题。应用方面,该方法可用于对金融二级市场(包括股票、外汇、债券、大宗商品等)的波动率预测和尾部风险预测,能在金融机构的风险管理中发挥重要价值。

6.非局部神经网络、非局部扩散与非局部建模

Nonlocal Neural Networks, Nonlocal Diffusion and Nonlocal Modeling

论文地址:https://arxiv.org/abs/1806.00681

这项研究由腾讯 AI Lab主导,与美国哥伦比亚大学合作完成。在这篇论文中,研究者对经过良好训练的网络的权重矩阵进行了谱分析,从而探索理解了非局部网络的扩散和抑制效应的本质,并基于此提出了一种新的非局部模块的构建方法。这种新模块不仅能学习非局部的交互,而且还有稳定的动态特性,因此支持更深度的非局部结构——从而可以堆叠更多非局部模块以充分利用其优势。此外,研究者还从通用型非局部建模的角度对这种构建方法进行了分析,将新提出的非局部网络与非局部扩散过程与非局部马尔可夫跳变过程等其它非局部模型联系到了一起。非局部运算与卷积和循环模块不同,可以通过直接计算特征空间中每对位置之间的交互来实现长程依赖。这项研究对图像或视频分类、文本摘要和金融市场分析等诸多实际机器学习问题有重要的指导意义。

7.弱监督下对视频进行稠密事件标注

Weakly Supervised Dense Event Captioning in Videos

这项研究由腾讯 AI Lab 与清华大学、麻省理工学院(MIT)和微软亚洲研究院(MSRA)

合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法,从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练,而是基于一一对应假设,即每个时间区间只有一个语言描述,而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中都成立。基于此,研究者将原问题分解为了一对对偶问题:事件描述和语句定位,并提出了一个用于训练模型的循环系统。研究者进行了大量实验,结果表明该方法能同时解决视频中的稠密事件标注和语句定位这两个任务。

新提出的模型结构及其训练连接如上图所示。该模型由一个语句定位器和一个描述生成器组成。在训练过程中,模型可使用视频及其所有的事件描述。首先语句定位器会使用视频和其中一个事件描述来获得一个时间片段预测,然后描述生成器会使用这个时间片段来生成一个描述语句。

8. 基于可配置熵约束的半监督学习

Semi-Supervised Learning with Declaratively Specified Entropy Constraints

论文地址:https://arxiv.org/abs/1804.09238

这项研究由卡耐基梅隆大学(CMU)与腾讯 AI Lab 合作完成,提出了一种新的声明式列举规则的半监督学习的方法,可用于定制化半监督学习。这种方法可以组合多个半监督学习策略,同时可以结合多个协议(agreement)约束和熵正则化(entropic regularization)约束。此外,这种方法还可以用于模拟其它常见的模型,比如联合训练和针对全新域的启发式方法。除了表征单个的半监督学习启发式方法,研究者还表明可以使用贝叶斯优化将多种启发式方法组合到一起。在多个数据集上的实验结果表明这种方法能稳定地优于其它方法,并在一个较困难的关系抽取任务上得到了当前最佳的结果。

声明式地描述半监督学习规则

9. 基于广义低秩近似的深度非盲反卷积

Deep Non-Blind Deconvolution via Generalized Low-Rank Approximation

这项研究由腾讯 AI Lab、中科院信工所、南京理工大学和美国加州大学默塞德分校等合作完成。本文提出了一种基于伪逆模糊核低秩特征的深度非盲反卷积方法,可以处理不同模糊核造成的模糊图片,尤其是对具有饱和像素的模糊图片有更好的效果。研究者首先对大量模糊核进行广义低秩分解,利用分解得到的左右特征值向量对网络参数进行初始化,从而使网络更好的模拟伪逆模糊核。另外,基于广义低秩近似的分解矩阵可以有效区分不同伪逆模糊核的变化特征,因此可以帮助网络更好的进行图像恢复。研究者在大量具有饱和像素的模糊图片上进行了实验,结果证明该方法可以得到较好的图像反卷积效果。据介绍,该方法可以应用于相机、车载记录仪、监控等设备在已知运动轨迹情况下的图像复原

新提出的去卷积网络的架构,其中通过广义低秩近(GLRA)使用大量模糊核(blur kernel)的可分离过滤器来初始化第 1 层和第 3 层的参数,并使用为每个模糊核估计的 M 来固定第 2 个卷积核中的参数。另外还堆叠了额外的 3 个卷积层来去除伪影。

10. 超越二次指派模型:图匹配形式化的一个推广

Generalizing Graph Matching beyond Quadratic Assignment Model

这项研究由腾讯 AI Lab、上海交通大学、美国亚利桑那州立大学等合作完成。图匹配在过去几十年间一直受到持续观注,该问题往往可以被形式化成一个二阶指派问题。研究者在本文中展示:通过引入一系列在本文中被称为可分离的函数,并调整近似控制参数,可以在连续域中对离散的图匹配问题进行渐进的近似。研究者对该近似模型的全局最优解性质进行了研究,并进一步设计了凸/凹性质保持下的扩展算法,而该类似策略在传统Lawler二次指派模型上亦被广泛采用。从理论上,研究者进一步论证了所提出的框架在为图匹配新算法与技术设计带来的巨大潜力。最后,通过两个具体的可分离函数形式,研究者设计了相关求解算法,并在公开数据集上进行了验证。

11. 基于蒸馏 Wasserstein 学习的单词嵌入与主题建模

Distilled Wasserstein Learning for Word Embedding and Topic Modeling

论文地址:https://arxiv.org/abs/1809.04705

这项研究由InfiniaML, Inc.和美国杜克大学主导,与腾讯AI Lab合作完成。本文提出了一种具有蒸馏机制的Wasserstein学习方法,实现了单词嵌入与文本主题的联合学习。该方法的依据在于不同主题单词分布的Wasserstein距离往往是建立在单词嵌入的欧式距离的基础之上的。因此,该方法采用了一个统一的框架用以学习主题模型对应的单词分布,单词分布之间的最优传输,以及相应的单词嵌入模型。在学习主题模型时,研究者利用模型蒸馏的方法平滑距离矩阵,用以更新主题模型和计算主题之间的最优传输。这种蒸馏机制为下一步单词嵌入的更新提供了具有鲁棒性的指导,改进了学习过程的收敛性。针对采用疾病和手术ICD编码的病人入院记录,研究者的方法在构建疾病相关性网络,死亡率预测,和治疗方案推荐等应用上取得了比现有方法更好的结果。

用于单词嵌入和主题建模的联合学习的蒸馏 Wasserstein 学习(DWL)方法


12.基于往复式学习的深度显著性跟踪

Deep Attentive Tracking via Reciprocative Learning

论文地址:https://arxiv.org/abs/1810.03851

这项研究由腾讯 AI Lab、北京邮电大学、澳洲阿德莱德大学和美国加州大学默塞德分校合作完成。由感知神经科学衍生出来的视觉关注度促使人类对日常信息中最敏感的部分进行仔细关注。近年来,大量的研究工作致力于在计算机视觉系统中挖掘显著性的信息。在视觉跟踪这个任务中,跟踪不断变化的目标物体是非常具有挑战性的。显著性响应图能够使得跟踪器关注于目标物体在时间域中稳定的特征,从而能够减轻视觉跟踪的困难。在现有的基于检测的跟踪框架中,分类器并没有进行显著性的设计,使得其主要利用额外的模块来生成特征权重。本文中,研究者提出一种往复式学习的算法在训练分类器的过程中挖掘显著性,该算法通过前向和后向两部分操作来生成显著性响应图。在训练过程中,响应图作为正则项结合传统的分类损失函数进行网络的训练。以此方式训练的分类器能够关注于目标物体中克服外表变化的特征。在大规模数据集上大量的实验表明,研究者提出的基于显著性的跟踪方法在目前主流的跟踪算法中性能优异。

上图展示了新提出的往复式学习算法总览。该算法会首先在前向过程中计算给定训练样本的分类分数,然后在后向过程中通过取该分类分数相对该样本的偏导数来得到显著性响应图。之后再将这个响应图作为正则化项与分类损失结合起来用于训练分类器。测试阶段不会生成响应图,而是由分类器直接预测目标位置。


13. 基于学习的多任务学习框架L2MT

Learning to Multitask

论文地址:https://arxiv.org/abs/1805.07541

这项研究由香港科技大学与腾讯 AI Lab 合作完成,提出了学会多任务学习(L2MT)的框架,能够自动发掘对于一个多任务问题最优的多任务学习模型。为了实现这个目标,L2MT 充分利用了历史的多任务学习经验。每个多任务学习经验是一个三元组,包括一个由多个任务组成的多任务问题、一个多任务学习模型以及该模型在该多任务问题上的相对测试错误率。以历史的多任务学习经验作为训练集,L2MT 首先使用层式图神经网络 (layerwise graph neural network)学习每个多任务问题里所有任务的特征表示。其次,L2MT 会学习一个估计函数来预测相对测试错误率,该估计函数基于多任务问题的特征表示以及多任务学习模型。如此一来,给定一个新的多任务问题,通过最小化该估计函数(等价于最小化相对测试错误率)可以确定一个合适的多任务模型。在标准数据集上的实验证明了 L2MT 的有效性。

上图展示了 L2MT 的框架,该框架包含 2 个阶段。训练阶段是学习一个估计函数 f(·,·) ,以基于训练数据集和特定的多任务模型来近似相对测试误差;测试阶段则是通过最小化该相对测试误差(接近随 Ω 变化的 γ1f(E˜ , Ω))来学习任务协方差矩阵

14.可判别式深度神经网络通道剪枝

Discrimination-aware Channel Pruning for Deep Neural Networks

这项研究由腾讯 AI Lab、华南理工大学和阿德莱德大学合作完成,对通道剪枝方法进行了改进。通道剪枝是深度模型压缩的一个主要方法。现有的剪枝方法要么通过对通道强加稀疏约束从头训练,要么极小化预训练特征和压缩后特征之间的重构误差。这两个策略都存在不足:前者计算量大并且难以收敛,后者只关注重构误差而忽略了通道的判别能力。为了克服这些不足,研究者设计了一种简单而有效的方法——可判别式通道剪枝——来选择那些真正具有判别能力的通道。为此,研究者引入了额外的损失来增加神经网络中间层的判别能力。之后再从每一层中选择判别能力最强的通道,同时还会考虑这个新的额外损失和重构误差。最后,研究者还提出了一个贪心算法,可用于迭代地进行通道选择和参数优化。研究者进行了大量实验,结果表明该方法是有效的。例如,在 ILSVRC-12 数据集上,在对 ResNet-50 压缩 30% 的通道量后还取得了比原方法高 0.39% 的识别准确度。


可判别式通道剪枝(DCP)示意图


15. M-Walk: 图游走的蒙特卡洛树状搜索学习方法 

M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

论文地址:https://arxiv.org/abs/1802.04394

这项研究由微软研究院与腾讯 AI Lab 合作完成,提出了一种可用于知识图谱推理的蒙特卡洛树状搜索学习方法 M-Walk。在知识库完成等应用中,给定一个输入查询和一个源节点,学习在图中到达目标节点是一个很重要的研究问题。这个问题可通过一个已知的状态转移模型而形式化为一个强化学习问题。为了克服奖励稀疏的难题,研究者开发出了一种能在图中游走的智能体 M-Walk——由一个深度循环神经网络(RNN)和蒙特卡洛树搜索(MCTS)构成。RNN 会对状态(即游走过的路径的历史)进行编码,并将其分别映射成一个策略、一个状态值和状态-动作 Q 值。为了能使用稀疏奖励有效地训练该智能体,研究者将 MCTS 与这个神经网络策略结合到了一起,可以生成能产生更多积极奖励的轨迹。通过 Q 学习方法(其会通过参数共享来修改 RNN 策略),神经网络能使用这些轨迹以一种离策略的方式得到改进。研究者提出的强化学习算法可以反复应用这一策略改进步骤,从而学习得到整个模型。在测试时间,MCTS 仍然会与神经策略结合起来预测目标节点。研究者在多个图游走基准上进行了实验,结果表明 M-Walk 能够学会比其它基于强化学习的方法(主要基于策略梯度)更好的策略。M-Walk 的表现也优于传统的知识库完成基准

M-Walk 的神经架构


16.基于优化嵌入的耦合变分贝叶斯方法  

Coupled Variational Bayes via Optimization Embedding

这项研究由乔治亚理工学院、伊利诺伊大学厄巴纳-香槟分校、腾讯 AI Lab 和微软研究院合作完成,文中构建了一种名为优化嵌入(optimization embedding)的分布类,能辅助实现优良的近似能力和计算效率,进而让变分推理在学习图模型方面的表现更好(尤其是在大规模数据集上)。优化嵌入这个灵活的函数类能将变分分布和图模型中的原始参数耦合到一起,能够通过反向传播使用变分分布来实现端到端的图模型学习。研究者还在理论上将其与梯度流(gradient flow)联系到了一起,并在极限意义上表明了这种隐式分布族极其灵活。在实践中,这种技术能大幅缩小搜索空间,从而显著加速学习过程,即文中提出的耦合变分贝叶斯(CVB)。实验表明,新提出的方法在多种图模型(具有连续或离散的隐变量)上都优于之前最佳的方法。研究者相信优化嵌入是一种重要的通用型技术,未来也有望在生成对抗模型和对抗训练等其它模型中得到应用。

耦合变分贝叶斯算法


17. 常数迭代复杂度的随机经验误差最小化方法 

Stochastic Primal-Dual Method for Empirical Risk Minimization with O(1) Per-Iteration Complexity

这项研究由香港中文大学、腾讯 AI Lab、加州大学戴维斯分校与罗切斯特大学合作完成,提出了一种可用于快速求解基于广义线性模型的经验误差最小化问题的方法。该方法的特点是每轮迭代只需要 O(1) 的常数计算量,与问题的维度以及数据的大小无关。研究者还发展了该方法的一种方差减小的变种,在强凸条件下可以证明它具有线性收敛性。研究者使用 logistic 损失函数进行了求解分类问题的数值实验,结果表明新方法在高维问题上的收敛速度优于 SGD、SVRG、SAGA 等经典算法。

每次迭代成本为 O(1) 的随机原始-对偶方法(SPD1)

使用了方差缩减的 SPD1


18. 方差缩减的随机期望最大化算法

Stochastic Expectation Maximization with Variance Reduction

论文地址:https://ml.cs.tsinghua.edu.cn/~jianfei/semvr-nips2018.pdf

这项研究由清华大学主导完成,腾讯 AI Lab 和牛津大学也有参与。论文提出了一个受方差缩减的随机梯度下降算法启发的基于方差缩减的随机 EM(sEM-vr)算法。研究表明 sEM-vr 具备和批 EM 相同的指数收敛速率,且sEM-vr 只需要常数步长,从而能降低调参的负担。研究者在高斯混合模型和 PLSA 上比较了 sEM-vr 和批处理 EM、随机 EM 及其它算法,结果表明 sEM-vr 比其它算法收敛明显更快。该方法在对训练精度要求较高时能显著提升随机 EM 算法的收敛速度

19. 通信有效分布式优化的稀疏梯度方法

Gradient Sparsification for Communication-Efficient Distributed Optimization

论文地址:https://arxiv.org/abs/1710.09854

这项研究由宾夕法尼亚大学、腾讯 AI Lab、芝加哥大学与罗切斯特大学合作完成,提出了一种可用于提高大规模分布式机器学习模型训练的通信速度的方法。现代大规模机器学习一般使用分布式环境下的随机优化算法,传播梯度的通信成本是其中一大重要瓶颈。为了降低通信成本,研究者提出了一种基于凸优化的方法来减小编码长度,并使用了一些简单快速的近似算法来有效求解最优的稀疏化方法,该方法能提供基于稀疏程度的理论保证。另外,研究者也在 L2 正则化 logistic 回归、支持向量机和卷积神经网络等凸模型和非凸模型上验证对新提出的算法进行了验证。

20. 去中心化的压缩算法

Decentralization Meets Quantization

论文地址:https://arxiv.org/abs/1803.06443

这项研究由罗彻斯特大学、苏黎世联邦理工学院与腾讯 AI Lab 合作完成,提出了两种适用于去中心化网络的压缩方法(外推压缩和差异压缩)。对于大规模并行计算,去中心化的网络设计和传输信息的压缩对于解决网络延时十分有效。然而,与中心化的并行计算不同,理论分析表明,直接将去中心化网络与压缩算法结合将会造成训练结果不收敛。研究者为解决该问题而提出的两种压缩方法能达到与中心化压缩算法相同的运算效率。研究者也实验了这两种算法,结果表明它们大幅优于只用去中心化网络或只用压缩的算法。

ECD-PSGD:外推压缩去中心化并行随机梯度下降算法

DCD-PSGD:差异压缩去中心化并行随机梯度下降算法


一分钟了解NIPS

NIPS全称为Annual Conference and Workshop on Neural Information Processing Systems,于1986 年在由加州理工学院和贝尔实验室组织的Snowbird 神经网络计算年度闭门论坛上首次提出。会议固定在每年12月举行。今年是第32届,将于 12 月 3 日到 8 日在加拿大蒙特利尔举办。

计算机学科由于成果更新迅速,更愿意通过会议优先发表成果,因此该类顶级会议大多比期刊更具权威性与影响力。NIPS和ICML是机器学习领域最受认可的两大顶会,是中国计算机学会CCF推荐的A类会议及Google学术指标前五名。(见如下)

腾讯AI实验室
腾讯AI实验室

理论腾讯AI LabSpotlightNIPS2018
3
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

蒙特卡罗树搜索技术

蒙特卡洛树搜索(英语:Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

变分贝叶斯方法技术

选择合适的分布函数来逼近真实的后验概率分布

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图像复原技术

图像复原技术主要是针对成像过程中的“退化”而提出来的,而成像过程中的“退化”现象主要指成像系统受到各种因素的影响,诸如成像系统的散焦、设备与物体间存在相对运动或者是器材的固有缺陷等,导致图像的质量不能够达到理想要求。图像的复原和图像的增强存在类似的地方,都是为了提高图像的整体质量。但是与图像复原技术相比,图像增强技术重在对比度的拉伸,其主要的目的在于根据观看者得喜好来对图像进行处理,提供给观看者乐于接受的图像,而图像复原技术则是通过去模糊函数去除图像中的模糊部分,还原图像的本真。其主要采用的方式是采用退化图像的某种所谓的先验知识来对已退化图像进行修复或者是重建,就复原过程来看可以将之视为图像退化的一个逆向过程。图像的复原,首先要对图像退化的整个过程加以适当的估计,在此基础上建立近似的退化数学模型,之后还需要对模型进行适当的修正,以对退化过程出现的失真进行补偿,以保证复原之后所得到的图像趋近于原始图像,实现图像的最优化。但是在图像退化模糊的过程中,噪声与干扰同时存在,这给图像的复原带来了诸多的不确定性。

协方差矩阵技术

在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

贪心算法技术

贪心法,又称贪心算法、贪婪算法、或称贪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。

多任务学习技术

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~