编辑部整理

7 Papers & Radios | 华为开源自研算法Disout;中科院计算所GCN中文综述

本周的重要论文包括华为开源的自研Disout算法,以及中科院计算所的GCN中文综述。

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周的重要论文包括华为开源的自研Disout算法,以及中科院计算所的GCN中文综述。

目录:

  1. A Survey on Graph Conventional Neural Network

  2. Reinforcement Learning Based Mapless Robot Navigation

  3. Beyond Dropout: Feature Map Distortion to Regularize Deep Neural Networks

  4. Review of Sign Language Recognition Based on Deep Learning

  5. Example-driven Virtual Cinematography by Learning Camera Behaviors

  6. Graph Structure Learning for Robust Graph Neural Networks

  7. M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

  8. ArXiv Weekly Radiostation:NLP、CV、ML更多精选论文(附音频)


论文 1:A Survey on Graph Conventional Neural Network

  • 作者:徐冰冰、岑科廷、黄俊杰、沈华伟、程学旗

  • 论文链接:http://cjc.ict.ac.cn/online/onlinepaper/xbb-2020514175943.pdf


摘要:过去几年, 卷积神经网络因其强大的建模能力引起广泛关注,在自然语言处理、图像识别等领域成功应用。然而传统的卷积神经网络只能处理欧氏空间数据,而现实生活中的许多场景,如交通网络、社交网络、引用网络等,都是以图数据的形式存在。将卷积神经网络迁移到图数据分析处理中的核心在于图卷积算子的构建和图池化算子的构建。

在本文中,来自中科院计算所的研究者对图卷积神经网络进行综述:首先介绍了图卷积神经网络的背景并梳理了两类经典方法——谱方法和空间方法,图数据上平移不变性的缺失给图卷积算子的定义带来困难,谱方法借助卷积定理在谱域定义图卷积,而空间方法通过在节点域定义节点相关性来实现图卷积。进而介绍了图卷积神经网络的最新进展,这其中包括如何利用图卷积神经网络建模图上的复杂信息,如异质连接、高阶连接等,以及如何在大规模图上实现图卷积神经网络;

此外,本文介绍了图卷积神经网络的相关应用,包括推荐系统领域、交通预测领域等;最后本文对图卷积神经网络的发展趋势进行了总结和展望。

基于个性化 PageRank 的图卷积神经网络结构。

基于置信度的图卷积网络。

符号图卷积神经网络操作示意图。

边约束图卷积神经网络结构。

推荐:本课题得到国家自然科学基金项目、北京智源人工智能研究院和王宽诚教育基金的资助,并发表在了《计算机学报》上。一作徐冰冰和共同一作岑科廷为博士研究生以及 CCF 学生会员,另一共同一作黄俊杰为硕士研究生。

论文 2:Reinforcement Learning Based Mapless Robot Navigation

  • 作者:Linhai Xie

  • 论文链接:https://ora.ox.ac.uk/objects/uuid:c466b944-2243-4017-aa7c-46419ddf6c94/download_file?file_format=pdf&safe_filename=PhD_Thesis.pdf&type_of_work=Thesis


摘要:导航是移动机器人所需要的最基本功能之一,可以使它们从一个源点穿越到目的地。传统方法严重依赖预定义地图,导致时间和人力支出高昂。此外,地图只在绘制的时候是准确的,由于环境的变化,准确性会随时间推移而降低。在这篇博士论文中,作者认为获取高质量地图的严格要求从根本上限制动态环境中机器人系统的可实现性。因此,得益于无地图导航范式和深度强化学习(DRL)新进展的激励和启发,作者研究了如何开发实用的机器人导航。

深度强化学习的主要问题之一是其需要进行大量重复实验的多样化实验设置。通过反复试验从真实机器人身上获得这些设置明显行不通,因此作者选择从模拟环境中学习。这就引出了第一个基本问题,即如何缩小模拟和真实环境的差距,这也是第三章着重解决的问题。他把重点放在了单目视觉障碍躲避的特定挑战上,将它视为一个低级导航原语。作者创建了一种在模拟环境中接受训练的 DRL 方法,但该方法依然可以很好地泛化至真实环境中。

限制 DRL 方法在现实世界中应用于移动机器人的另一个问题是训练策略的变动很大。由于复杂和高维搜索空间,前述情况导致收敛性较差且整体奖励较低。在第 4 章节,作者利用简单的经典控制器(classical controller)为利用 DRL 的局部导航任务提供指导,从而避免纯随机的初始探索(initial exploration)。作者证明了这种新型加速方法极大地减少样本方差,并显著地增加可实现平均奖励。

作者认为最后一个挑战是对于无地图导航的稀疏视觉引导(sparse visual guidance)。在第 5 章节,作者提出了一种基于少量图表图像的创新型导航方法,与基于视频的传统教学与重复方法不同。作者证明了模拟环境中学到的策略可以直接迁移至真实世界中,并能够很好地泛化至环境描述极少的未见过环境中。作者针对障碍躲避、局部引导和全局导航以及赋能实用机器人导航愿景等主要问题开发和测试了新的方法。最后作者展示了 DRL 如何作为强大的无模型方法来解决这些问题。

在强化学习(RL)问题中,学习智能体(learning agent)观察环境状态,并采取行动在每一个时间步影响环境。根据不同的行动,环境返回一个数值奖励作为对智能体的反馈,以评估是否为期望的行为。

三种不同的无模型 RL 方法:基于策略、基于值和行动器-评价器方法(actor-critic)。

基于地图和无地图导航系统的结构。

推荐:这篇 139 页的博士论文的作者是牛津大学凯洛格学院的博士生 Linhai Xie,主题是基于强化学习的无地图机器人导航。

论文 3:Beyond Dropout: Feature Map Distortion to Regularize Deep Neural Networks

  • 作者:Yehui Tang、Yunhe Wang、Yixing Xu 等

  • 论文链接:https://www.aaai.org/Papers/AAAI/2020GB/AAAI-TangY.402.pdf

  • 项目地址:https://github.com/huawei-noah/Disout


摘要:深度神经网络通常包含大量的可训练参数,用于从给定数据集中提取强有力的特征。一方面,大量的可训练参数极大地提升了这些深度网络的性能;另一方面,它们又会带来过拟合的问题。基于此,在减少神经元互适应的训练阶段,基于 dropout 的方法在输出特征图中禁用一些元素。尽管这些方法可以提升生成模型的泛化能力,但是传统二进制 dropout 并非最优解决方案。

因此,来自京大学、华为诺亚方舟实验室等机构的研究者对深度神经网络中间层的实证拉德马赫(Rademacher)复杂度进行了研究,并提出了解决上述基于 dropout 方法的特征失真方法(feature distortion)。在训练阶段,特征图中随机选择的元素将通过泛化误差界限(generalization error bound)被特定值替换掉。研究者在几个基准图像数据集上分析和验证了,提出的特征图失真方法在生成更高测试性能的深度神经网络方面展现出了优越性。

算法 1:用于训练深度神经网络的特征图失真。

传统卷积神经网络(CNN)在 CIFAR-10 和 CIFAR-100 数据集上的准确度。

ResNet-56 在 CIFAR-10 和 CIFAR-100 数据集上的准确度。

ResNet-50 在 ImageNet 数据集上的准确度。

推荐:该算法在 ImageNet 数据集上训练的 ResNet-50 可以达到 78.76% 的准确度,这超过了谷歌 Dropout 算法的 76.51%。

论文 4:Review of Sign Language Recognition Based on Deep Learning

  • 作者:张淑军、 张群、李辉

  • 论文链接:http://jeit.ie.ac.cn/article/app/doi/10.11999/JEIT190416


摘要:手语识别涉及计算机视觉、模式识别、人机交互等领域,具有重要的研究意义与应用价值。深度学习技术的蓬勃发展为更加精准、实时的手语识别带来了新的机遇。在本文中,来自青岛科技大学信息科学技术学院的研究者综述了近年来基于深度学习的手语识别技术,从孤立词与连续语句两个分支展开详细的算法阐述与分析。

孤立词识别技术划分为基于卷积神经网络 (CNN)、3 维卷积神经网络 (3D-CNN) 和循环神经网络 (RNN) 3 种架构的方法;连续语句识别所用模型复杂度更高,通常需要辅助某种长时时序建模算法,按其主体结构分为双向长短时记忆网络模型、3 维卷积网络模型和混合模型。归纳总结了目前国内外常用手语数据集,探讨了手语识别技术的研究挑战与发展趋势,高精度前提下的鲁棒性和实用化仍有待于推进。

总体分类图。

基于深度学习的孤立词手语识别技术及代表性工作。

基于深度学习的连续语句的手语识别技术及代表性工作。

CSL 中国手语数据样例。

推荐:这篇综述论文发表在了《电子与信息学报》上。

论文 5:Example-driven Virtual Cinematography by Learning Camera Behaviors

  • 作者:Hongda Jiang、Bin Wang、Xi Wang、Marc Christie、Baoquan Chen

  • 论文链接:https://jianghd1996.github.io/publication/sig_2020/


摘要:设计一个相机移动控制器(camera motion controller)且能够以电影摄影和条理化的方式自动移动与 3D 动画内容相呼应的虚拟摄像头,这是一项复杂且具有挑战性的任务。虽然有很多电影摄影规则,但实践表明如何应用这些规则存在着明显的风格差异。

在本文中,来自北京大学前沿计算研究中心视觉计算与学习实验室、北京电影学院未来影像高精尖创新中心等机构的研究者提出了一种样例驱动的相机控制器,它能够从样例影片中提取相机行为,并通过从一系列相机移动的学习将提取到的相机行为重新应用到 3D 动画中。

本研究提出的学习相机行为的框架包含三部分:从影片中提取高级特征的拍摄特征估计器(Cinematic Feature Estimator)、估计高级特征中相机行为类型的门控网络(Gating network)和在 3D 动画中应用估计相机行为的预测网络(Prediction network)。

为了从影片中估计出拍摄特征,每一帧都应该遍历以下步骤:(i)利用 LCR-Net 提取 2D 骨架;(ii)姿势关联,填充缺失的关节并平滑化;(iii)通过神经网络估计特征。

本研究中 MoE(Mixture of Experts)训练网络的结构图。该网络以应用在样例影片和 3D 动画中的拍摄特征估计结果为输入,并为每一帧动画输出一系列实现自身渲染的相机参数。具体来说,Gating+Prediction 网络两部分,Gating 输入一长段拍摄序列,输出一组 Expert 值;Prediction 采用自回归的方式,从过去 1s 的拍摄和 Expert 推理出下一帧相机的 toric 坐标。

样例影片与 3D 模拟动画的效果对比。

推荐:本研究的亮点在于利用样例影片对期望的拍摄方法进行控制。

论文 6:Graph Structure Learning for Robust Graph Neural Networks

  • 作者:Wei Jin、Yao Ma、Xiaorui Liu、Xianfeng Tang、Suhang Wang、Jiliang Tang

  • 论文链接:https://arxiv.org/pdf/2005.10203.pdf


摘要:图神经网络(GNN)在图表征学习中是性能强大的工具,但近来的研究表明 GNN 容易受到精心设计的干扰,即所谓的对抗性攻击。在为下游任务做预测时,对抗性攻击可以轻易地愚弄 GNN。因此,GNN 面对对抗性攻击表现出的脆弱性使得研究人员越来越担忧其在安全关键 APP 的运用。所以,开发能够防御对抗性攻击的鲁棒算法具有重大意义。防御对抗性攻击的通常方式对受扰动的图进行清洗。显然易见的一点是,真实世界的图具备一些相同的内在属性,比如真实世界的很多图呈现低秩和稀疏性,两个相邻节点的特征也趋于相似。

在本文中,来自密歇根州立大学(MSU)的研究者发现对抗性攻击往往会破坏这些图属性,并探究这些属性如何防御图的对抗性攻击。具体来说,他们提出一种通用框架 Pro-GNN,它能够从基于这些属性的扰动图中同时学到一个结构图和一个鲁棒的图神经网络。在真实世界图上的大量实验表明,本研究提出的 Pro-GNN 能够实现比当前 SOTA 防御方法强得多的效果,即使图受到很严重的扰动。

本研究提出 Pro-GNN 框架示意图。虚线表示更小的权重。

Pro-GNN 算法。

非目标性攻击下,GCN、GAT、RGCN、GCN-Jaccard、GCN-SVD 以及本研究 Pro-GNN 在 Cora、Citeseer、Polblogs 和 Pubmed 数据集上的节点分类性能对比(以准确率+Std 计)。

推荐:本研究提出的 Pro-GNN 框架始终优于当前 SOTA 基线方法,并能够提升各种对抗性攻击下的整体鲁棒性。

论文 7:M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

  • 作者:Menghan Wang、Yujie Lin、Guli Lin、Keping Yang、Xiao-ming Wu

  • 论文链接:https://arxiv.org/pdf/2005.10110.pdf


摘要:在本文中,来自阿里巴巴和香港理工大学的研究者提出用一种多任务多视角图表示学习框架(M2GRL)来学习网页规模推荐系统的多视图图的节点表示

具体来说,M2GRL 为每个单视角图构建相应的图,学习多个图的单独表示,并对跨视图关系进行对齐。此外,M2GRL 利用同方差不确定性来自适应调整训练阶段任务的损失权重。研究者将 M2GRL 在淘宝上部署并在 570 亿个示例中训练它。根据离线指标和在线 A/B 测试,M2GRL 的性能显著优于当前 SOTA 算法。淘宝多样性推荐的进一步探索验证了使用 M2GRL 产生的多种表示的有效性,并且对于不同侧重点的各种行业推荐任务来说,这会是一个很有前景的发展方向。

具有 3 个视图内和 2 个视图间任务的 M2GRL 框架示意图。

M2GRL 框架部署在淘宝推荐平台上的整体架构图。

不同模型在 Taobao 和 Movielens 离线数据集上的对比。

推荐:研究者认为,M2GRL 生成的有用表示将来可以进一步用来处理标签推荐和可解释性推荐问题。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


10 NLP Papers.mp300:0019:46

1. An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named Entity Recognition. (from AGizem Aras, Didem Makaroglu, Seniz Demir, Altan Cakir)
2. Pretraining with Contrastive Sentence Objectives Improves Discourse Performance of Language Models. (from Dan Iter, Kelvin Guu, Larry Lansing, Dan Jurafsky)
3. Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation. (from Ryuichi Takanobu, Qi Zhu, Jinchao Li, Baolin Peng, Jianfeng Gao, Minlie Huang)
4. GPT-too: A language-model-first approach for AMR-to-text generation. (from Manuel Mager, Ramon Fernandez Astudillo, Tahira Naseem, Md Arafat Sultan, Young-Suk Lee, Radu Florian, Salim Roukos)
5. Iterative Pseudo-Labeling for Speech Recognition. (from Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert)
6. Spelling Error Correction with Soft-Masked BERT. (from Shaohua Zhang, Haoran Huang, Jicong Liu, Hang Li)
7. MultiMWE: Building a Multi-lingual Multi-Word Expression (MWE) Parallel Corpora. (from Lifeng Han, Gareth J.F. Jones, Alan F. Smeaton)
8. Are All Languages Created Equal in Multilingual BERT?. (from Shijie Wu, Mark Dredze)
9. Contextual Embeddings: When Are They Worth It?. (from Simran Arora, Avner May, Jian Zhang, Christopher Ré)

10. ScriptWriter: Narrative-Guided Script Generation. (fromYutao Zhu, Ruihua Song, Zhicheng Dou, Jian-Yun Nie, Jin Zhou)


10 CV Papers.mp300:0024:51


本周 10 篇 CV 精选论文是:


1. TAO: A Large-Scale Benchmark for Tracking Any Object.  (from Achal Dave, Tarasha Khurana, Pavel Tokmakov, Cordelia Schmid, Deva Ramanan)
2. Self-supervised Transfer Learning for Instance Segmentation through Physical Interaction.  (from Andreas Eitel, Nico Hauff, Wolfram Burgard)
3. InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs.  (from Yujun Shen, Ceyuan Yang, Xiaoou Tang, Bolei Zhou)
4. Ventral-Dorsal Neural Networks: Object Detection via Selective Attention.  (from Mohammad K. Ebrahimpour, Jiayun Li, Yen-Yun Yu, Jackson L. Reese, Azadeh Moghtaderi, Ming-Hsuan Yang, David C. Noelle)
5. Deep Learning Guided Building Reconstruction from Satellite Imagery-derived Point Clouds.  (from Bo Xu, Xu Zhang, Zhixin Li, Matt Leotta, Shih-Fu Chang, Jie Shan)
6. Domain Adaptive Relational Reasoning for 3D Multi-Organ Segmentation.  (from Shuhao Fu, Yongyi Lu, Yan Wang, Yuyin Zhou, Wei Shen, Elliot Fishman, Alan Yuille)
7. VideoForensicsHQ: Detecting High-quality Manipulated Face Videos.  (from Gereon Fox, Wentao Liu, Hyeongwoo Kim, Hans-Peter Seidel, Mohamed Elgharib, Christian Theobalt)
8. Adversarial Attacks for Embodied Agents.  (from Aishan Liu, Tairan Huang, Xianglong Liu, Yitao Xu, Yuqing Ma, Xinyun Chen, Stephen J. Maybank, Dacheng Tao)
9. Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation.  (from Liang-Chieh Chen, Raphael Gontijo Lopes, Bowen Cheng, Maxwell D. Collins, Ekin D. Cubuk, Barret Zoph, Hartwig Adam, Jonathon Shlenso)
10. An Auto-Context Deformable Registration Network for Infant Brain MRI.  (from Dongming Wei, Sahar Ahmad, Yunzhi Huang, Lei Ma, Qian Wang, Pew-Thian Yap, Dinggang Shen)

10 ML Papers.mp300:0020:50

本周 10 篇 ML 精选论文是:


1. An analysis on the use of autoencoders for representation learning: fundamentals, learning task case studies, explainability and challenges. (from David Charte, Francisco Charte, María J. del Jesus, Francisco Herrera)
2. Adaptive XGBoost for Evolving Data Streams. (from Jacob Montiel, Rory Mitchell, Eibe Frank, Bernhard Pfahringer, Talel Abdessalem, Albert Bifet)
3. Provably Efficient Reinforcement Learning with General Value Function Approximation. (from Ruosong Wang, Ruslan Salakhutdinov, Lin F. Yang)
4. Model-Based Robust Deep Learning. (from Alexander Robey, Hamed Hassani, George J. Pappas)
5. Fair Inputs and Fair Outputs: The Incompatibility of Fairness in Privacy and Accuracy. (from Bashir Rastegarpanah, Mark Crovella, Krishna P. Gummadi,  (2) MPI-SWS)
6. Normalized Attention Without Probability Cage. (from Oliver Richter, Roger Wattenhofer)
7. A Distributional View on Multi-Objective Policy Optimization. (from Abbas Abdolmaleki, Sandy H. Huang, Leonard Hasenclever, Michael Neunert, H. Francis Song, Martina Zambelli, Murilo F. Martins, Nicolas Heess, Raia Hadsell, Martin Riedmiller)
8. Simple Sensor Intentions for Exploration. (from Tim Hertweck, Martin Riedmiller, Michael Bloesch, Jost Tobias Springenberg, Noah Siegel, Markus Wulfmeier, Roland Hafner, Nicolas Heess)
9. Anomaly Detection in Video Games. (from Benedict Wilkins, Chris Watkins, Kostas Stathis)
10. Accelerated Convergence for Counterfactual Learning to Rank. (from Rolf Jagerman, Maarten de Rijke)

理论GCN华为7 Papers
暂无评论
暂无评论~