➊
Coupled Deep Learning for Heterogeneous Face Recognition
不同模态(例如近红外 NIR 和可见光 VIS)采集的人脸照片的匹配问题被称为异构人脸匹配(Heterogeneous face matching,HFM)问题。不同模态的数据之间具有互补性,例如 NIR 数据受光照影响小,网络上有大量的 VIS 数据等。不同模态的数据之间差异较大,并且缺失足够的训练样本对。本文提出了一种新的方法(coupled deep learning, CDL)来解决 HFM 问题。其主要的想法是对 NIR 的投影矩阵和 VIS 的投影矩阵引入组合迹范数(trace norm)来一方面使得两个投影矩阵之间具有相关性,另一方面作为正则项限制模型空间的复杂度;此外引入 Triplet ranking loss 来迫使类间的大间距,并给出了合理的 Triplet 选择方法。CDL 的性能在 CASIA NIR-VIS 2.0 数据集和 CUFS, CUFSF 上超过了目前最好的算法。不过本文仍然有一些地方没有很好研究:例如为什么组合 trace norm 可以迫使投影矩阵相关,没有做 ablation study,好的性能会不会是由于海量数据的预训练带来的,而不是 CDL 方法带来的?
论文链接:https://arxiv.org/abs/1704.02450
推荐人:吴沐,北京航空航天大学(PaperWeekly arXiv组志愿者)
➋
Exploring Question Understanding and Adaptation in Neural-Network-Based Question Answering
近年来, 随着斯坦福问答数据集(SQuAD)的推出, 机器理解有了长足的进展, 本文在前人工作的基础上, 对问题的表征做了深入的的研究, 获得更优的结果。首先, 本文在前人工作的基础上做了一些小的改动, 并以之做为实验的 baseline,具体来说, 在注意力的双向计算上, 本文使用 max pooling 和 mean pooling 两种机制来计算 question based filter passage embedding。使得最后的 passage 表示信息更为丰富。在 prediction layer 中, 本文使用前向与后向两个 pointer network, 预测出两个结果再进行平均。 使预测结果更稳定可靠。
在 baseline 的基础上, 本文重点研究了对于 question 的表征。首先文章将 question representation 喂给一个 TreeLSTM, 并以此 TreeLSTM 的根结点向量作为新的 question 的表示,从而在 question 的表示中加入了语法结构信息。另一方面, 由于问答数据集中的问题,可以分为了 why, what, how 等类别,如果能够捕获到问题所属的类别, 然后进行自适应训练(adaptation training), 这样不同的问题既共享同样的模型, 在需要的时候又能够进行区分, 就可以在更细的粒度上捕获到数据的更多特征。在这样的考虑下,文章引入一个 11 维的 one-hot 向量来标识问题所属的类别, 并用一个中心向量来代表这个问题类别, 在训练过程中更新这个中心向量, 从而自适应地将不同类的问题区别开。通过这一系列做法,在 SQuAD 数据集上,取得了 77% 的 EM-score 和 68% 的 F1-score。
论文链接:https://arxiv.org/abs/1703.04617
推荐人:于翮,北京航空航天大学(PaperWeekly arXiv组志愿者)
➌
Not All Pixels Are Equal: Difficulty-aware Semantic Segmentation via Deep Layer Cascade
本文认为针对语义分割任务,图像中的像素不应该平等对待,而是存在难易区别的。所以,经统计,本文将图片上的像素分成了简单,中等,困难三种集合。其中 70% 的困难像素分布在物体边界。据此,本文提出了一种新的模型 Deep Layer Cascade 来针对性地处理不同难易程度的像素从而提高语义分割的准确率和速度。Deep Layer Cascade (LC) 是在 Inception-Resnet-v2 的基础上改进的。它将模型分为了三个阶段,每个阶段都会额外添加两层卷积层和 softmax 损失函数。同时每个阶段引入了一个概率阈值 ρ,利用 ρ 来控制每个阶段处理哪些像素,预测概率大于 ρ 的就在本阶段处理,小于 ρ 的就传递至下一阶段,从而针对性处理像素并且提高计算速度。为了实现针对性处理像素,本文还提出了一种 Region Convolution 来只处理每个阶段感兴趣的区域,忽视其他区域。Region Convolution 通过二值 mask 来实现,感兴趣的区域置 1,其他区域置 0。经测试,LC 在 VOC12 test set 上 mIoU 达到 80.3,在 COCO 上预训练可达到 82.7;在 Cityscapes test set 上可得到 71.1 的 mIoU。
论文链接:https://arxiv.org/abs/1704.01344
深入解读:
https://zhuanlan.zhihu.com/p/26343033
推荐人:余昌黔,华中科技大学(PaperWeekly arXiv组志愿者)
➍
#增量式#
#word2vec#
Incremental Skip-gram Model with Negative Sampling
本文的最大亮点在于提出了一种增量式的词向量学习模型,并且通过数学和实验证明验证了算法的有效性。
论文链接:https://arxiv.org/abs/1703.10960
推荐人:大俊,PaperWeekly 首席客服
➎
#Goal-Oriented Dialog#
Learning End-to-end Goal-Oriented Dialog
端到端(end-to-end)的对话系统目前只能进行一些闲聊(chit-chat)式对话。而为了完成特定领域任务,对话系统采用槽填充,意图识别和手工编码特征等多个模型的 pipeline。考虑到端到端对话系统的普适性,作者研究端到端系统在目标导向的对话应用中的优缺点,提出一个训练端到端目标导向对话系统的数据集,同时把对话任务分解成几个子任务分别进行分析。领域对话数据集和统一评价标准的缺乏制约端到端模型在目标导向对话任务上的发展,像 DSTC2 等还是主要用于状态跟踪(state: a user intent + slots),数据规模偏小。为此,作者首先在餐厅预定这个任务上,通过查询知识库(KB),填充语言模板模拟(simulate)出部分对话语料,加上通过 DSTC2 转换来的真实人机对话语料,构成餐厅预定服务数据集。为了验证模型迁移到其他真实场景的能力,作者收集礼宾服务语料。在餐厅预定模拟的语料上,为了验证处理 Out-of-Vocabulary 等能力, 作者进一步把菜系和地点实体词分成两份,然后根据两份实体词把 KB 分成两个,一个 KB 用于产生训练集,测试集和验证集,另一个 KB 只产生测试集(OOV test sets)。然后把对话任务分解成 5 个子任务,在这个模拟语料上训练,用 per-response accuracy and per-dialog accuracy 作为评价标准。模型方面,作者对比四种方法作为数据集的 baseline。其中 Memory Network 为了处理新出现的餐厅名等实体词(OOV)缺失 word embbeding 或者不同电话号码的 embeddings 不可区分问题, 作者对实体词添加 7 种预定义的类型词(type word),取得不错效果。作者也提出 baseline 模型在解释从知识库中返回的实体知识并展现给用户上有改进空间,这篇论文更多是领路式(大牛挖坑)。
论文链接:
https://openreview.net/forum?id=S1Bb3D5gg¬eId=S1Bb3D5gg
扩展阅读:
https://arxiv.org/abs/1701.04024
(Seq-to-seq model on Task-oriented Dialogue)
推荐人:刘瑾莱,北京邮电大学(PaperWeekly arXiv组志愿者)