牛土豆作者

ICLR 2020 | 神经网络架构搜索(NAS)论文推荐

ICLR 2020 线上会议已经圆满结束。此次会议关于 NAS 的研究主题包括对 benchmark 的探讨、对于流行的 NAS 方法的理解和分析,以及如何提高 NAS 方法的精度和效率等。值得一提的是,此届会议举办了 ICLR 历史上的第一个神经网络架构搜索(NAS)的Workshop(https://sites.google.com/view/nas2020/home),充分体现出 NAS 正成为越来越热门的神经网络研究方向。

此文列出以下十篇 ICLR 2020 上关于 NAS 的经典文章供大家学习参考!

1. NAS-Bench-201: Extending the Scope of Reproducible Neural Architecture Search

作者:Xuanyi Dong, Yi Yang

本文是 University of Technology Sydney 和百度研究团队的合作研究成果。近年来伴随着 NAS 的大火,NAS 的研究方法也层出不穷,但是对于各种方法的比较没有严格的基准。此篇文章致力于设立统一的基准(benchmark)用于不同 NAS 方法的比较。另外,虽然 NAS 可以自动搜索表现较好的模型,但是搜索的成本较高,尤其是是评估不同网络结构训练的成本。因此,此篇论文提供了 15625 个不同网络结构在三个数据集上的的训练的信息,有利于研究工作者避免繁琐重复的训练。

2. NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search 

作者:Arber Zela, Julien Siems, Frank Hutter

作者来自 University of Freiburg 和 Bosch AI. 此篇论文与上篇论文在研究目的上具有较大的相似,上篇论文 spotlight,这篇论文被选为 poster. 因此在此对于这篇文章不做过多的总结。

3. NAS evaluation is frustratingly hard

作者:Antoine Yang, Pedro M. Esperança, Fabio M. Carlucci

后两位作者来自 Huawei Noah’s Ark Lab 该篇论文提供了 8 种 NAS 方法在 5 个数据集上的评估基准(benchmark),研究发现现有的NAS方法并没有比随机生成的网络结构具有显著的优势。

4. Understanding Architectures Learnt by Cell-based Neural Architecture Search

作者:Yao Shu, Wei Wang, Shaofeng Cai

作者来自新加坡国立大学。研究发现现有的一些流行的 NAS 方法的 cell structure 大多呈现如下结构:

原因在于此种结构具有平稳的 loss landscape 以及快速的收敛性,如下图所示:

5. Understanding and Robustifying Differentiable Architecture Search

作者:Arber Zela, Thomas Elsken, Tonmoy Saikia, Yassine Marrakchi, Thomas Brox, Frank Hutter

此篇论文认为 DARTS 可微网络结构搜索对于一些新的数据集没有表现出稳健的结果。原因在于 DARTS 对于 valid dateset 过度拟合。因此,研究提供了一些解决方案。

6. Evaluating the Search Phase of Neural Architecture Search

作者:Christian Sciuto, Kaicheng Yu, Martin Jaggi, Claudiu Musat, Mathieu Salzmann

研究发现流行的 NAS 方法比如 DARTS, ENAS 和随机的网络结构具有相似的 performance。研究发现 weight sharing 是减弱这些流行方法的 performance 的一个原因。

7. PC-DARTS: Partial Channel Connections for Memory-Efficient Architecture Search

作者:Yuhui Xu, Lingxi Xie, Xiaopeng Zhang, Xin Chen, Guo-Jun Qi, Qi Tian, Hongkai Xiong

作者来自上海交通大学和华为诺亚方舟实验室,同济大学和 Futurewei Technologies。本篇论文为 spotlight。研究目的在于提高 DARTS 的训练和内存的有效性(efficiency)。

8. AtomNAS: Fine-Grained End-to-End Neural Architecture Search

作者:Jieru Mei, Yingwei Li, Xiaochen Lian, Xiaojie Jin, Linjie Yang, Alan Yuille, Jianchao Yang

作者来自约翰霍普金斯大学和字节跳动公司。此项研究的贡献在于增大了 NAS 的搜索空间(search space),以取得更高的精度。不同于 DARTS 有搜索和评估两个阶段,这篇文章 NAS 方法只有 end-to-end 这一个阶段。

9. Once for All: Train One Network and Specialize it for Efficient Deployment

作者:Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han

作者来自 MIT 韩松团队。这篇论文主要内容是通过训练和搜索一种 once for all 的超级网络,以支持不同的硬件平台设施。

(关于本篇论文更多的信息参见“MIT 韩松专访:Once for All 神经网络高效适配不同硬件平台”)

10. FasterSeg: Searching for Faster Real-time Semantic Segmentation

作者:Wuyang Chen, Xinyu Gong, Xianming Liu, Qian Zhang, Yuan Li, Zhangyang Wang

本篇论文将 DARTS 用于 real-time 的图像分割上。发现网络结构 collapse 的问题。解决方法为加入一些正则项(regularization term)。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
入门神经网络NAS论文神经网络架构搜索ICLR 2020
1
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。 公司独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式。

https://bytedance.com/en
韩松人物

2017 年斯坦福大学电子工程系博士毕业,师从 NVIDIA 首席科学家 Bill Dally 教授。他的研究也广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文,ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文,对业界影响深远。他的研究成果在 NVIDIA、Google、Facebook 得到广泛应用,博士期间创立了深鉴科技,现为麻省理工学院电气工程和计算机科学系的助理教授。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
结构搜索技术

深度学习提供了这样一种承诺:它可以绕过手动特征工程的流程,通过端对端的方式联合学习中间表征与统计模型。 然而,神经网络架构本身通常由专家以艰苦的、一事一议的方式临时设计出来。 神经网络架构搜索(NAS)被誉为一条减轻痛苦之路,它可以自动识别哪些网络优于手工设计的网络。

同济大学机构
推荐文章
暂无评论
暂无评论~