Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

越丰、箫疯、裕宏、华棠作者

原来,阿里工程师才是隐藏的“修图高手”!

阿里妹导读:在现实世界中,信息通常以不同的模态同时出现。这里提到的模态主要指信息的来源或者形式。例如在淘宝场景中,每个商品通常包含标题、商品短视频、主图、附图、各种商品属性(类目,价格,销量,评价信息等)、详情描述等,这里的每一个维度的信息就代表了一个模态。如何将所有模态的信息进行融合,进而获得一个综合的特征表示,这就是多模态表征要解决的问题。今天,我们就来探索多模态表征感知网络,了解这项拿过冠军的技术。


摘要

近些年,深度学习飞速发展,在很多领域(图像、语音、自然语言处理、推荐搜素等)展现出了巨大的优势。多模态表征研究也进行入深度学习时代,各种模态融合策略层出不穷。

在这里,我们主要对图像和文本这两个最常见的模型融合进行探索,并在2个多模态融合场景中取得了目前最好的效果。

  1.  在文本编辑图像场景中,我们提出了双线性残差层 ( Bilinear Residual Layer ),对图像和文本两个模态的特征进行双线性表示 ( Bilinear Representation),用来自动学习图像特征和文本特征间更优的融合方式。

  2. 在时尚图像生成场景中(给定文本直接生成对应的图像),我们采用了跨模态注意力机制(Cross Attention)对生成的图像和文本特征进行融合,再生成高清晰度且符合文本描述的时尚图像。最后,在客观评分和主观评分上取得了最好的成绩。

文本编辑图像

图像编辑是指对模拟图像内容的改动或者修饰,使之满足我们的需要,常见的图像处理软件有Photoshop、ImageReady等。随着人们对于图像编辑需求的日益提升,越来越多的图像要经过类似的后处理。但是图像处理软件使用复杂且需要经过专业的培训,这导致图像编辑流程消耗了大量人力以及时间成本,为解决该问题,一种基于文本的图像编辑手段被提出。基于文本的图像编辑方法通过一段文本描述,自动地编辑源图像使其符合给出的文本描述,从而简化图像编辑流程。例如图1所示,通过基于文本的图像编辑技术可以通过文字命令改变模特衣服的颜色,纹理甚至款式。

图1 基于文本的图像编辑技术示例

然而,基于文本的图像编辑技术目前仍然难以实现,原因是文本和图像是跨模态的,要实现一个智能的图像编辑系统则需要同时提取文本和源图像中的关键语义。这使得我们的模型需要很强的表示学习能力。

现有方法

目前已有一些针对基于文本的图像编辑所提出的方法。他们都采用了强大的图像生成模型GAN(Generative adversarial network)作为基本框架。Hao[1]训练了一个conditional GAN,它将提取出来的text embeddings作为conditional vector和图像特征连接在一起,作为两个模态信息的混合表示,然后通过反卷积操作生成目标图像 (如图2)。

图2 使用传统conditional GAN实现的基于文本的图像编辑方案

Mehmet[2]对以上方法做了改进,他认为特征连接并不是一种好的模态信息融合方式,并用一种可学习参数的特征线性调制方法[3](Feature-wiseLinear Modulation, FiLM)去学习图像和文本的联合特征。FiLM减少了模型的参数,同时使得联合特征是可学习的,提高了模型的表示学习能力 (如图3)。

图3 使用FiLM+conditional GAN实现的基于文本的图像编辑方案

我们的工作

我们的工作从理论角度分析了连接操作和特征线性调制操作间特征表示能力的优劣,并将这两种方法推广到更一般的形式:双线性 (Bilinear representation)。据此,我们提出表示学习能力更加优越的双线性残差层 (Bilinear Residual Layer),用来自动学习图像特征和文本特征间更优的融合方式。

★  Conditioning的原始形式

首先,本文将介绍conditional GAN中的连接操作和它的形式化表达,假设分别为前一层的输出和conditional vector,其中D和为特征维度,连接的表示为,后一层的权重,其中分别为对应的权重,O为输出维度,我们可得到如下变换:

其中为输出张量

★  FiLM形式

FiLM源自于将特征乘以0-1之间的向量来模拟注意力机制的想法,FiLM进行特征维度上的仿射变换,即:

其中,是缩放系数权重。显而易见,当为全1矩阵时,FiLM退化成Conditioning的原始形式,由此,可以得出FiLM是连接操作的更一般情况。

★  Bilinear形式

以上的方法都只是线性变换,我们的工作在此基础上,提出了双线性的形式,即输出张量第i维的值由权重矩阵控制:

经过证明,Bilinear形式可以看做FiLM的进一步推广,它具有更加强大的表示学习能力。证明如下:

为了证明FiLM可以由Bilinear的形式表示,首先要将FiLM变换写成单个特征值的情况,假设分别对应中第个i输出值对应的权值,FiLM可以写成:

以上形式等同于:

其中,而可以通过随机选择中的一个非零元素来构造,从而构造如下:

中除了第k行其他位置的元素全为0。显而易见的秩均为1,由此可得出,也就是说,当Bilinear变换矩阵是稀疏的并且有不大于2的秩时,Bilinear形式等同于FiLM。这间接说明Bilinear形式是FiLM的推广。

★  Bilinear的Low-rank简化形式

虽然Bilinear有更强的表示能力,但它的参数实在是太多了,为了降低模型复杂度,实际中常常采用一种低秩的方法[4]简化计算,通过将分解为两个低秩阵,其中d为指定的秩。由此,Bilinear的Low-rank简化形式可写为:

然后通过矩阵将输出张量投影到输出维度上:

我们将和P作为网络内部可学习的层,并结合短路结构,提出双线性残差层 (Bilinear Residual Layer, BRL),具体可见图4。

算法的整体框架如图4,网络由生成器和判别器构成,生成器有三个模块:编码模块,融合模块,解码模块。编码模块由预训练好的文本编码器和图像特征提取器构成,图像特征提取器直接使用VGG16模型conv1-4层权值。融合模块由4个双线性残差层 (Bilinear Residual Layer, BRL)构成,解码模块则是将处理好的特征上采样成图像。

图4 方法的整体框架

训练时,模型得到图像-文本对的输入,t为匹配图像x的对应描述,假设用于编辑图像的文本为,生成器接收和x作为输入得到:

其中,F表示融合模块。对抗训练过程中,判别器被训练以区分语义不相关的图像文本对,因此我们需要从文本库中选择不匹配的文本作为负样本,判别器的损失函数如下:

其中前两项为了区分正负样本对,第三项为了尽可能识别生成图像和文本的不匹配。同时生成器G被训练以生成和文本匹配的图像:

整体目标函数即由所构成。 

实验结果

我们的方法在Caltech-200 bird[5]、Oxford-102 flower[6]以及Fashion Synthesis[7]三个数据集上进行了验证。定性结果如图5所示,第一列为原图,第二列表示Conditional GAN原始形式的方法,第三列表示基于FiLM的方法,最后一列是论文提出的方法。很明显前两者对于复杂图像的编辑会失败,而论文提出的方法得到的图像质量都较高。

图5 生成样本定性结果

除此之外,实验还进行了定量分析,尽管对于图像生成任务还很难定量评估,但是本工作采用了近期提出的近似评价指标Inception Score (IS)[8]作为度量标准。由表6可见,我们的方法获得了更高的IS得分,同时在矩阵秩设定为256时,IS得分最高。

表6 生成样本定量结果

时尚图像生成

在调研多模态融合技术的时候,有一个难点就是文本的描述其实对应到图像上局部区域的特性。例如图7,Long sleeve对应了图像中衣服袖子的区域,并且是长袖。另外,整个文本描述的特性对应的是整个图像的区域。基于这个考虑,我们认为图像和文本需要全局和局部特征描述,图像全局特征描述对应到整个图像的特征,局部特征对应图像每个区域的特征。文本的全局特征对应整个句子的特征,文本的局部特征对应每个单词的特征。然后文本和图像的全局和局部区域进行特征融合。

针对这种融合策略,我们在时尚图像生成任务上进行了实验。时尚图像生成(FashionGEN)是第一届Workshop On Computer VisionFor Fashion, Art And Design中一个比赛,这个比赛的任务是通过文本的描述生成高清晰度且符合文本描述的商品图像。我们在这个比赛中客观评分和人工评分上均获得的第一,并取得了这个比赛的冠军。

我们的方法

我们方法基于细粒度的跨模态注意力,主要思路是将不同模态的数据(文本、图像)映射到同一特征空间中计算相似度,从而学习文本中每个单词语义和图像局部区域特征的对应关系,辅助生成符合文本描述的细粒度时尚图像,如图7所示。

图7 不同单词描述图像不同区域示例

传统的基于文本的图像生成方法通常只学习句子和图像整体的语义关联,缺乏对服装细节纹理或设计的建模。为了改进这一问题,我们引入了跨模态注意力机制。如图8左边区域,已知图像的局部特征,可以计算句子中不同单词对区域特征的重要性,而句子语义可以视为基于重要性权重的动态表示。跨模态注意力可以将图片与文字的语义关联在更加精细的局部特征层级上建模,有益于细粒度时尚图像的生成。

图8 跨模态注意力机制,左图表示通过图像局部特征计算不同单词的重要性,右图表示通过词向量计算不同图像局部特征的重要性

我们用bi-LSTM作为文本编码器,GAN作为对抗生成模型,并将生成过程分为由粗到精,逐步增加分辨率的两个阶段:

  • 第一阶段利用句子的整体语义和随机输入学习图像在大尺度上的整体结构。

  • 第二阶段利用单词层级的语义在第一阶段低分辨率输出上做局部细节的修正和渲染,得到细粒度的高分辨率时尚图像输出。

图9 整体框架概览,顶部分支利用文本整体语义学习低分辨率的图像大致结构,底部分支在上一阶段的输出上做图像细节的修正,生成更加细粒度的时尚设计或纹理。

对抗生成网络

传统的生成式对抗网络由判别器和生成器两部分组成,判别器的目标是判别生成图像是否在真实数据集的分布中,而生成器的目标是尽可能的骗过判别器生成逼近真实数据集的图像,通过两者的迭代更新,最终达到理论上的纳什均衡点。这个过程被称为对抗训练对抗训练的提出为建立图像等复杂数据分布建立了可能性。

对于文本生成图像的任务,需要更改生成器的输入以及目标函数,我们将两个阶段的生成器分别设为,整个流程可被形式化为:

其中是句子向量,D为双向LSTM两个方向上输出的维度和,是词向量矩阵,T指代单词的个数,表示第一阶段激活值输出,表示生成的图像。我们需要优化的目标函数定义为:

其中是对抗损失,是生成图像和对应描述的相似性损失,由两部分组成:

其中第一项非条件损失表示图像本身的真伪,第二项条件损失表示图像和句子语义是否匹配。对也同理。

判别器,同时也被训练以最小化交叉熵损失:

该项对也同理。

基于跨模态注意力的相似性

本节将详细介绍在我们的方法中用到的跨模态注意力机制,给出图像-文本对,我们取Inceptionv3中mixed-6e层的输出768×17×17作为图像区域特征,我们将空间维度展平得到768×289,averagepooling层的输出2048作为图像全局特征,对这些特征使用投影矩阵 变换到。由此,可以得到相似度矩阵:

其中元素代表了第i个单词和第j个子区域的点积相似性。

★ 图像-文本相似性

对于第i个单词,我们最终可以建立不同区域特征的加权和(越相似赋予越大的权重):

其中是对应于第i个单词,图像特征的动态表述。

对第i个单词,求得的余弦相似度:,综合可得图片对的相似度为:

其中超参数表示最相关的单词-图像区域对对最终相似度得分的影响程度。在一个batch的图像-文本对中,我们最大化正确对的相似度,最小化错误对的相似度:

其中,

M为batchsize的大小。

★  文本-图像相似性

同理的,文本-图像的相似性可以形式化为:

★  全局相似性

以上我们计算了局部特征上的相似性得分,在全局区域,我们可以利用的余弦距离作为全局相似度:

综上,有:

通过优化以上损失函数,我们最终得到的生成的服装图片的效果图如下所示:

附上算法效果图:

总结

我们主要对图像和文本这两个最常见的模型融合进行探索,在文本编辑图像任务上,我们提出基于双线性残差层 (Bilinear Residual Layer)的图文融合策略,并取得了最好的效果,相关工作已经发表在ICASSP 2019上。在时尚图像生成任务上,我们使用了细粒度的跨模态融合策略,并在FashionGen竞赛中取得第一。

关于我们

阿里安全图灵实验室专注于AI在安全和平台治理领域的应用,涵盖风控、知识产权、智能云服务和新零售等商业场景,以及医疗、教育、出行等数亿用户相关的生活场景,已申请专利上百项。2018年12月,阿里安全图灵实验室正式对外推出“安全AI”,并总结其在知识产权保护、新零售、内容安全等领域进行深度应用的成果:2018年全年,内容安全AI调用量达到1.5万亿次;知识产权AI正在为上千个原创商家的3000多个原创商品提供电子“出生证”——线上与全平台商品图片对比,智能化完成原创性校验,作为原创商家电子备案及后续维权的重要依据;新零售场景的防盗损对小偷等识别精准度达到100%。

欢迎志同道合的朋友加入我们,共建"安全AI",可以直接发简历至yuefeng.chenyf@alibaba-inc.com

参考文献:

[1] Hao Dong, Simiao Yu, Chao Wu, and YikeGuo, “Semanticimage synthesis via adversarial learning,” inProceedings of the IEEE International Conference on Computer Vision, 2017, pp.5706–5714.

[2] Mehmet G¨unel, Erkut Erdem, and Aykut Erdem,“Language guided fashion image manipulation with feature-wisetransformations,” arXiv preprint arXiv:1808.04000,2018.

[3] Ethan Perez, Florian Strub, Harm DeVries, Vincent Dumoulin, and Aaron Courville, “Film: Visual reasoning with a generalconditioning layer,”in http://www. aaai.org/Conferences/AAAI/aaai. php, 2018.

[4] Jin-Hwa Kim, Kyoung-Woon On, WoosangLim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang, “Hadamard product forlow-rank bilinear pooling,” arXiv preprintarXiv:1610.04325, 2016.

[5] C. Wah, S. Branson, P. Welinder, P.Perona, and S. Belongie, “The Caltech-UCSD Birds-200-2011 Dataset,”Tech.Rep., 2011.

[6] M-E. Nilsback and A. Zisserman, “Automated flowerclassification over a large number of classes,” inProceedings of the Indian Conference on Computer Vision, Graphics and ImageProcessing, Dec 2008.

[7] Shizhan Zhu, Sanja Fidler, RaquelUrtasun, Dahua Lin, and Chen Change Loy, “Be your own prada: Fashion synthesis withstructural coherence,” in Computer Vision (ICCV), 2017IEEE International Conference on. IEEE, 2017, pp. 1689–1697.

[8] Salimans, T., Goodfellow, I., Zaremba,W., Cheung, V., Rad-ford, A., and Chen, X. Improved techniques fortraininggans. InAdvances in Neural Information ProcessingSystems, pp. 2234–2242, 2016.

[9] Zhang H, Xu T, Li H. StackGAN: Text to Photo-Realistic ImageSynthesis with Stacked Generative Adversarial Networks[C]. //2017 IEEE International Conference on Computer Vision(ICCV). IEEE, 2017: 5908-5916.
[10] Zhang H, Xu T, Li H, et al. Stackgan++: Realistic image synthesis withstacked generative adversarial networks[J]. arXivpreprint arXiv:1710.10916, 2017.
[11] Xu T, Zhang P, Huang Q, et al. Attngan: Fine-grained text to imagegeneration with attentional generative adversarial networks[C]. arXivpreprint, 2017.
[12] Lee K H, Chen X, Hua G, et al. Stacked Cross Attention for Image-TextMatching[J]. arXivpreprint arXiv:1803.08024, 2018.

阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
工程阿里巴巴工程师
2
相关数据
纳什均衡技术

纳什平衡,又称为非合作赛局博弈,是在非合作博弈状况下的一个概念解,在博弈论中有重要地位,以约翰·纳什命名。 如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

仿射变换技术

仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。 一个对向量平移,与旋转放大缩小的仿射映射为 上式在齐次坐标上,等价于下面的式子 在分形的研究里,收缩平移仿射映射可以制造制具有自相似性的分形

推荐文章
暂无评论
暂无评论~