Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

缺少灵感?你一定需要这8篇论文

#ICML#


On orthogonality and learning recurrent networks with long term dependencies


RNN 中存在不可避免的梯度消失和爆炸的问题,用正交矩阵能够保证这个问题,但是是否严格正交一定是最好的。本文探究 RNN 中的 weight matrix 的正交约束对于 training 的收敛速度和模型表现的影响。用一种 SVD 以及参数化的方式来 constraint training 过程中每一步的 W 所对应的 norm 的变化,以此来观察模型的能力。实验在人工的数据集以及 MNIST 和 PTB 都验证了。得到结论:对于不同 task 表现不同;但是在 sequence training 中,正交约束不应该太严格;而对于 training 的 sequence 非常长的情况,则应该对正交约束比较强才合适。

论文链接:https://arxiv.org/pdf/1702.00071.pdf

推荐人:吴郦军,中山大学(PaperWeekly arXiv 打卡小组)

#GAN#


DeLiGAN : Generative Adversarial Networks for Diverse and Limited Data

GAN 一般要基于大量数据训练才能抓取到数据多样性,而本文提一种基于少量数据就能训练出能产生多样性数据的 GAN 模型,并提出了一种衡量多样性 modified-inception-score。当数据量有限时,通过加大模型的深度提升效果基本不可行,因此增强先验分布多样性来增加多样性是一个可选的方法。DeLiGAN 主要通过 reparameterise(One-liners method)隐变量空间(Mixture-of-Gaussians, supposed uniform distribute)形成一种混合模型,而本方法可以做为一个“插件”结合到很多 GAN 模型中,模型在 MNIST、CIFAR 10、Freehand Sketches 三个数据集中试验取得了比较好的结果。

论文链接:https://arxiv.org/abs/1706.02071

相关代码:

https://github.com/tonybeltramelli/pix2code

推荐人:罗玄,北京邮电大学(PaperWeekly arXiv 打卡小组)

#深度神经网络#


The Landscape of Deep Learning Algorithms


本文研究了深度线性和 sigmoid 非线性神经网络的收敛性,指出在某些常见假设(样本 iid &一致有界,梯度有界等)下,这两种网络的经验风险(emprical risk)、稳定性(stability)、泛化能力(generalization)、梯度(gradient)、驻点(stationary points)均一致收敛。这应该是第一个给出深度神经网络一致收敛性的工作,文章指出,该结论还能推广到 ReLU 神经网络上。关于深度神经网络的理论分析很难,也不多,本文得到了一个较好的结果。

论文链接:https://arxiv.org/abs/1705.07038

推荐人:洪佳鹏,北京大学(PaperWeekly arXiv 打卡小组)

#相似句生成#


Learning Paraphrastic Sentence Embeddings from Back-Translated Bitext


一个非常有趣的想法,通过先将 A 语言翻译成 B 语言,再将 B 语言翻译回 A 语言来生成 paraphrase pairs 作为其他任务的训练集,取得了不错的效果。这个想法可能并不难,文章中有一些技巧可能会非常关键。现在语义理解中,相似句的判别,相似句训练集的准备都是不小的难题,本文的思路也许会有帮助。实际应用中,翻译工具的使用应该会是一个比较好玩的东西。


论文链接http://cn.arxiv.org/abs/1706.01847

推荐人:大俊,PaperWeekly 首席客服


#CVPR2017#


Loss Max-Pooling for Semantic Image Segmentation

本文主要解决的是 semantic segmentation 中 imbalanced training data distributions 问题。在 semantic segmentation 数据集包括现实世界中存在明显的长尾分布的问题,即大多数的数据组成了小部分的类别,因此会导致学习器更偏向于这些类别。 

主要思想是通过 pixel weighting functions 自适应地对每个像素的 contribution(即实际展现的 loss)进行 re-weighting,使引起更高 loss 的像素的权重更大,这直接对潜在的类内和类间不平衡进行了补偿;然后通过普通的max-pooling在pixel-loss level上对pixel weighting function取最大。而这个最大值是传统loss(即每个像素损失的权重是相等的)的上界,也就是说这种方法包括了传统loss的情况。 

文中主要关注 p 范数和无穷范数下的 weighting functions,同时对对应的 p 范数和无穷范数也做了界定,使得通过调节 p 可以对像素进行一定程度的选择,即对部分像素进行赋予权重。 文章使用偏数学证明的方法进行论证,详细证明过程请查看论文。

论文链接:https://arxiv.org/abs/1704.02966

详细解读:

https://zhuanlan.zhihu.com/p/27394105

推荐人:余昌黔,华中科技大学(PaperWeekly arXiv 打卡小组)

#对话系统#


Assigning personality/identity to a chatting machine for coherent conversation generation

本文的亮点在于生成对话时考虑了 personality 或者 identity,使得整个聊天过程更加连贯和自然。该文章的作者之前有一篇工作研究了在生成不同情绪的对话,非常有意思。

论文链接:http://cn.arxiv.org/abs/1706.02861

推荐人:大俊,PaperWeekly 首席客服

#图像分割# 


Recurrent Scene Parsing with Perspective Understanding in the Loop

这篇文章中提出了 depth-aware gating module 和 recurrent refinement module 来改善图像分割的效果,在多个数据集和 benchmark 上都得到了较好效果。 

景深的信息通过训练一个 regressor 得到,并且对 depth map 使用高斯平滑处理,将 depth map 与图像结合成 RGB-D 的 4 通道数据。景深信息的门结构(depth-aware gating module)在网络中评估景深信息得出目标尺度,然后在 atrous convolution 中自适应的使用不同 dilate rates 来产生需要的 pooling field size。这样可以做到对远处物体保留更多细节,并且对近处物体有较大的感受野。在分割的过程中反复改进(recurrent refinement module)输出结果,即优化一个关于 semantic segmentation,depth regression 和 quantized depth classification 的目标函数。

论文链接:https://arxiv.org/abs/1705.07238

相关代码:

https://github.com/aimerykong/Recurrent-Scene-Parsing-with-Perspective-Understanding-in-the-loop

推荐人:刘桐,天津大学(PaperWeekly arXiv 打卡小组)

#机器阅读理解# 


S-Net: From Answer Extraction to Answer Generation for Machine Reading Comprehension


一类机器阅读理解问题需要从 passage 中抽取出问题的答案,本文提出了一个新的思路,在抽取的基础上,设计了一个生成模型,依靠抽取出的比较重要的 sub-spans、passage 和 question 一起来生成最终的答案。实验在 MS-MARCO 数据集上进行,相比于单纯地答案抽取,有更好的效果。

论文链接:http://cn.arxiv.org/abs/1706.04815

数据集地址:http://www.msmarco.org/

推荐人:大俊,PaperWeekly 首席客服


PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论计算机视觉理论论文盘点NLPGAN循环神经网络DNN机器阅读理解
1
暂无评论
暂无评论~