Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

不容错过的7篇paper

Guided Perturbations: Self Corrective Behavior in Convolutional Neural Networks


本文来自 UMCP 和 GE Global Research Center,文章提出一种通用的提高 CNN 性能的方法,无需学习和调整模型参数,为输入加上有引导性的结构扰动(guided structural perturbation)使预训练好的模型性能提高。2013 年 Goodfellow 和 Szegedy 发现模型对添加特定噪声的对抗样本误分类的情况,说明了 DNN 泛化能力存在问题,本文使用与其相反的思路来改善模型泛化能力。将网络输出结果转换为 1-hot encoded vector(最大的置信类别设为 1,其他的都为 0),将其作为 groundtruth 求 loss 函数的值然后回传计算对输入层的梯度,将这个梯度乘一个非负的 scaling factor,然后加到原本的输入上即为扰动后的输入数据。文中有比对过不同数值的 scaling factor,大概 0.5 到 2 之间有比较好的效果。这种扰动的影响可以看做一种残留信息,在网络中传递时使得各个像素的上下文内容变得平滑了。(附一句原文:perturbations of the input image could be viewed as a form of structured distortion that is added to the input such that the context gets amplified in each pixel’s neighborhood which enables the network to correct its own mistakes)。文章最后还指出对网络中其他层做类似调整能进一步提高效果,也分析了对耗时的影响(速度和性能的权衡)。

论文链接:https://arxiv.org/abs/1703.07928

推荐人:刘桐,天津大学(PaperWeekly arXiv 组志愿者)

#GAN#

Generalization and Equilibrium in Generative Adversarial Nets (GANs)


文章出自普林斯顿大牛 Sanjeev Arora。本文的贡献主要有三点:

1. 泛化能力是衡量生成模型好坏的一个重要标准,本文指出 JS 散度、Wasserstein 距离都不能很好地衡量模型的泛化能力,为此,文中提出了一种基于 discriminator 的 neural network divergence/distance,用于衡量模型的泛化能力。

2. 作者还证明了 WGAN 的纯策略纳什均衡解的存在性。

3. 作者提出了 MIX+GAN(混合策略 GAN)的训练模式,该模式在实际训练中更稳定,并且证明了混合策略纳什均衡解的存在性。

论文链接:https://arxiv.org/abs/1703.00573

推荐人:洪佳鹏,北京大学(PaperWeekly arXiv 组志愿者)


Very Deep Convolutional Networks for Text Classification


作者来自 Facebook AI Research 和法国勒芒大学,该文章首先使用深层的神经网络来处理 NLP 任务,提出一种字符级深层卷积神经网络(VDCNN)用于文本处理,最多使用了 29 层卷积神经网络,更新了部分文本分类任务的 state-of-the-art。该文章延续了(Zhang)等人 15 年的文章用于文本分类的字符级卷积神经网络,包括测试数据和字符级信息拥吻文本分类任务,并给出深度分别为 9,17,29 的测试结果,证明深度确实能提高性能(精度)。该文章是首篇将用于 NLP 的神经网络向深度发展的文章。

论文链接:https://arxiv.org/abs/1606.01781

相关论文:https://arxiv.org/abs/1509.01626

相关源码:https://github.com/geduo15/Very-Deep-Convolutional-Networks-for-Natural-Language-Processing-in-tensorflow

推荐人:庄航,中科大(PaperWeekly arXiv 组志愿者)

Predicting Deeper into the Future of Semantic Segmentation


本文来自 Facebook AI Research,给定一个语义分割过的视频序列,预测尚未观看到的帧的分割结果,可以预测短时(2 秒内较准确)、中时和长时的分割结果,总体上比 baseline 准确度提高 25%。使用 state-of-the-art 的 semantic segmentation 模型(multi-scale dilated-10 semantic image segmentation network)来提供 label,不需大量的人工标注来分析。使用 CNN 隐式的分析 semantic segmentation map 中的信息,不需显式的为目标和场景建模。模型使用了 Adversarial 训练方式,可以批量(batch)的预测,即一次性预测未来的很多帧,也可以 autoregressive 的预测,即迭代式的使用一帧预测下一帧。

论文链接:https://arxiv.org/abs/1703.07684

推荐人:刘桐,天津大学(PaperWeekly arXiv 组志愿者)

#GAN in NLP# 

Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets


GAN 理论的热度仍在持续,但 GAN 在 NLP 任务中的应用并不那么理想,本文尝试在经典的机器任务中应用了 GAN 理论,并给出了定量地分析,是一次积极的尝试。

论文链接:https://arxiv.org/abs/1703.04887


#NMT#

Massive Exploration of Neural Machine Translation Architectures


本文的实验只有 Google 这种级别的大厂才能做的出,本文对大型 NMT 模型训练过程中各个超参数对结果的影响进行了实验分析,得出了许多有意义的结论:(1)embedding 用 2048 维结果最好,但没好到哪里去,128 维就基本上结果不错了;(2)LSTM 比 GRU 效果好;(3)2-4 层的双向 encoder 效果最佳等一些比较有指导意义的结论。

论文链接:https://arxiv.org/abs/1703.03906

相关代码:https://github.com/google/seq2seq/

感觉没几家有能力复现出来 ,因为 Google 花了 250,000 GPU hours 来训练。不过结论却是很有意义,毕竟调参是个技巧活。

#NMT#


最后推荐一个基于 dl4mt 框架的 NMT 框架 Nematus,功能更多,感兴趣的同学可以看过来。

框架介绍 paper 地址:

https://arxiv.org/pdf/1703.04357.pdf

相关代码:https://github.com/rsennrich/nematus


PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论理论论文GAN高效卷积神经网络语义分割
2
暂无评论
暂无评论~