Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

今天起,种草小红书的多模态AI技术

机器之心报道

编辑:思

人工智能领域,存在着这样一种技术,它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样,希望充分利用文本、图像、语音和视频等多种模态,这就是「多模态学习」。多模态学习的研究时间不算太长,但应用前景非常广泛,比如电商购物平台中的以图搜图的检索技术、智能家居以及车载智能助手的语音交互等。

不过要说多模态技术真正实现了落地似乎还太早,从多模态数据标注到跨模态转化,该领域都面临着众多挑战。这就需要研究社区和业界持续探索新的发展方向和技术范式。

作为国内独特的以图文和短视频内容为主的社区,小红书社区每天产生海量的UGC(用户原创内容)多模态数据,这为其在产品开发和落地中采用多模态技术提供了丰富的「土壤」。4月20日,在小红书「REDtech 来了」第一期线上直播节目中,小红书技术团队联合学界几位学者大咖围绕多模态话题展开了精彩分享。

  • 北京航空航天大学教授、博导刘偲,《语言指导的视觉定位》
  • 上海科技大学信息学院副教授、博导高盛华,《跨模态图像内容理解和视频生成
  • 上海交通大学电子信息与电气工程学院副教授、博导谢伟迪,《监督学习在多模态内容理解中的技术与应用》
  • 小红书多模算法组负责人汤神,《多模态技术在图文与视频内容分发的内容与挑战》

为此,机器之心简单整理了各位学者、算法工程师在REDtech中的演讲,并期待能向读者介绍什么是多模态学习多模态学习难在哪里,以及多模态任务在学术研究、工业应用上都是什么样的。

如果存在「智能」,那一定绕不开多模态

什么样的模型才算得上是「智能」?可能很多读者会认为如果模型能逻辑推理,能联想,而不只 Copy 之前类似的数据,那也许能称得上智能。这岂不是像人一样需要大量信息,综合各种知识?对,这就是多模态学习未来的样子,统合语音、语言、视觉等,做出更「智能」的判断。

容易想到,既然需要综合各方面,那多模态很核心的内容即将不同类型的数据「表示」出来,并在这一基础上融合、理解、对齐不同类型的数据。

今天起,种草小红书的多模态AI技术

文字显然能强化模型对图片内容的理解,如上体现为斑马与碎石路的位置关系。选自 arXiv: 1907.09358。

研究多模态,到底在研究什么?

多模态学习总给人一种它还有很长路要走的感觉:多种模态数据之间语义鸿沟该如何填补?多模态之间的精细对齐又该怎么做?很多研究者都在探索多模态学习中的重要问题:

  • 如何表征:我们分别用卷积表征图像, LSTM、 Transformer 表征语言,还是说用统一的模型结构表征多种数据?
  • 如何融合:语言如何影响视觉,视觉如何影响语言,多种类型数据之间的交互关系是什么样的,又该设置怎样的损失函数
  • 如何对齐:「枣红」就是这张图片杯子中的颜色吗,不同类型数据中的相同概念该怎样对齐?
  • 如何预训练:我们能将语言、图像等各种模态的数据扔给一个模型,期待它能学会广义的「背景知识」吗?

当然,这些都只是多模态学习的一角,怎样获得更多的多模态数据,怎样通过监督学习降低对复杂数据的依赖,怎样结合知识图谱等结构化信息等等,都是多模态学习正在积极尝试处理的问题。

日常的生活,智能的多模态

尽管有那么多令人头疼的问题,多模态学习在我们的日常生活中却也越来越亮眼。用图片搜索关注的话题,用手势给智能家居下达指令,用文字描述场景以搜索视频片段,这类应用从多个粒度理解内容,融合多个模态的特征信息,给我们提供更便捷的应用。

今天起,种草小红书的多模态AI技术

单纯根据小红书的一篇图片笔记,提取各种标签信息,下次搜索文字「中央公园」就能连接到这张图片。

正因为多媒体信息愈加丰富,图文内容、短视频等等数据都在累积,单一的文字或图像,已经不能完整地描述图文、视频信息。语言融合视觉,多模态学习更「智能」地认识事物,以前很多不敢想的场景都能得到应用,也许以后贴几张图,模型就能帮我写篇游记,也许我写条笔记,模型就能帮我生成张应景配图吧。

内容理解:跨越语言与视觉的艺术

现在的多媒体内容,俨然需要多模态学习更精准地描述,有鉴于此,小红书技术团队邀请了多模态学习领域的研究者,共同探讨多模态学习到底在做什么,都是怎么做的。因为四位演讲者的分享内容特别丰富,没办法在一篇文章中全部展现出来,为此机器之心希望从横跨语言与视觉两种模态为视角,介绍内容理解怎样做才好。

更加完整的演讲内容,读者可回看小红书视频号视频:小红书「REDtech来了」第一期 回看 · 上

可能读者在观看视频中会有一种感觉,确实如高盛华老师在视觉定位任务所展示的,图像与文字的融合能更完整地描述事物;但它们之间却又有巨大的语义鸿沟,这一点在刘偲老师介绍的远程视觉指代定位就有体现。此外,实际生活中图像与文字的数据肯定不是一一对应的,那怎样用尽可能少的人工标注成本更好地训练多模态模型?这也是谢伟迪老师一直在关注的问题。

视觉文字,本相辅相成

视觉与文字,到底哪些是相辅相成的?上海科技大学高盛华表示,对于多模态内容理解,重要的就是发现跨模态数据之间的一致性(Consistency)。但是,由于多模态数据刻画的是数据的不同,它们之间存在着奇异性(Singularities)。

文本生成图像为例,给定文本「一只红色的鸟」,一致性体现在,文字「红色」与「鸟」这两个概念和在图像中是有对应实体的;但「一只红色的鸟」可以是站在树上,也可以是躲在叶子中,还能是掠在水面上,这又体现了多模态数据之间的奇异性。

因此,高盛华表示,对于图像或视频理解任务,通常要对模态进行融合,并在融合的时候保证模态间的一致性,去除它们的奇异性。

举个例子,在常规目标检测,模型能做的就是框出需要的物体,至于这个物体的位置关系、状态等等都是难以理解的。但是在视觉定位任务中,文本与图像需要相互融合,以令模型更深地理解数据。如下图给定图像和一段文本描述「在树荫下仰头站着的长颈鹿」,我们希望模型能准确找到绿框所指的长颈鹿。

今天起,种草小红书的多模态AI技术

对于这类视觉定位任务,传统做法采用先检测再匹配的两阶段式思路,即先把每一个目标检测出来再判断它们跟文本特征描述是否匹配。而在高盛华团队的方案中,不仅要找出对应的目标,也希望刻画目标与目标之间的关系,比如「斑马前面的长颈鹿」。通过增加物体与物体之间空间关系的语言描述,比如「谁在谁的上面 / 下面/左边/右边」,我们可以用空间相对位置关系提取特征。

具体而言,为了融合自然语言与图像,如下图所示除了Backbone 抽取视觉信息,LSTM抽取语言信息,我们还需要为图像加上坐标(Coordinate)信息,以便于刻画物体与物体之间显式的位置关系。可以认为,下图中上下左右这四种池化操作可以作为一种桥梁,沟通了文本中关于位置的描述,以及图像中物体位置关系。即强化了文本与图像关于空间位置的「一致性」,降低了空间位置描述的「奇异性」。

今天起,种草小红书的多模态AI技术

高盛华表示,这种利用物体与物体之间的关系来做视觉定位的方案,在所有数据集上都比其他方法效果更好,速度也更快。我们可以认为,这项工作表明了,当我们为视觉、图像搭建有效的沟通方法,对齐两种模态数据中相同的概念,它们必然相辅相成提供更好的内容理解效果。

无独有偶,北京航空航天大学刘偲在演讲中也分享了一种渐进式融合图像与语言的方法,逐步在图像中找到语言描述的实体,强化模型对两种模态更精细的理解。

今天起,种草小红书的多模态AI技术

「跨模态渐进式理解模型」,先找到人,再找到白色飞盘,然后定位「holding」这个动作,最后找到了「拿着白色飞盘的人」。该方法同样通过匹配语言与视觉中的相同概念,而令模型更好地理解数据。

语义鸿沟,融合视觉文字仍然很难

前面很多研究表明融合视觉与文字能促进模型更好地理解内容,但与此同时,它们之间的鸿沟又不可忽视。正如刘偲所介绍的远程视觉指代定位任务,给 AI 一个指令:「找到办公室桌子上的鼠标」,短短的一行文字,模型却要处理大量的视觉信息,并拥有一些先验的知识,才有可能完成这个任务。

今天起,种草小红书的多模态AI技术


模型需要从视觉上判断哪里是客厅,哪里是办公室,并想到办公室才有鼠标。然后从视觉上判断会议桌、电脑桌,并「知道」鼠标经常和电脑放在了一起,所以优先看看电脑桌上面有没有鼠标。

这种对跨模态内容的理解显然很难,语音与视觉间的语义鸿沟,已经不止是内容本身的差异,同时还延伸到了隐藏在文字与图像的背后的背景知识。

刘偲等研究者探索的这个任务在语义层次上已经很深了,因此语义鸿沟也非常大。但另一方面,在我们日常产生的多模态数据,它可不像学术界使用的数据比较干净,语义对齐的状态也不是那么好,这同样会带来很大的语义差异。

数据鸿沟,难道只能「人工」智能?

在实际的场景中,小红书面临着许多巨大的挑战。过去存量的图文数据,以及每天用户新发布的笔记,其数据集总量是非常巨大的;然后数据噪音也很严重,站内存在着部分图文不相关的笔记。似乎在实际应用中,不止语义上,「数据鸿沟」也不可忽视:如何在大体量、大噪音的数据场景中有效训练模型?

降低数据的人工标注,提高模型的监督学习似乎是多模态学习必不可少的方向。上海交通大学谢伟迪在演讲中,就着重介绍监督学习在多模态内容理解中的应用。说到监督学习,那必不可少的就是对比学习了(Contrastive Loss),谢伟迪表示对比学习的思想很简单有效,拉近同类图片的距离,拉远不同类图片的距离。

今天起,种草小红书的多模态AI技术

对视频片段做随机数据增强以得到 z_i 与 z_j,拉近它们的距离(pull)。同时对于不同视频片段 z_j 与 z_p,拉远它们的距离(repel)。

这就是监督学习中最朴素的一种想法,同理也能扩展到多模态数据,比如图片与文字出现在一起,那就拉近它们间的距离,而不相关的图片与文字,那就拉远它们的距离。小红书多模算法组负责人汤神也表示,「互联网上存在大量天然的,对齐的多模态数据,例如小红书的笔记中,就存在天然的文本到文本,文本到图片,文本到视频的天然对齐关系。如何利用它们,就需要对比损失等监督学习方法,在海量的天然数据中训练模型。」

尽管监督学习降低了人工成本,但相比有监督学习,多模态监督学习受益于海量的天然训练数据,其在零样本分类, 以及作为预训练模型给下游任务使用等方面,已经能够超越基于监督数据训练的模型。

实践:小红书中的多模态

学界重点关注多模态间的融合与表征,但业界总归要把它应用到实践中。我们可能想不到小红书多模态背后数亿、甚至数十亿量级的训练数据,想不到巨大模型参数量背后分布式训练的困难,想不到多模态模型部署所需要的计算资源与延迟控制。这些学界可能不需要太过关心,但对于真正应用来说都是最困难的地方。

今天起,种草小红书的多模态AI技术

以图搜笔记,应用看起来简单,实际会遇到很多困难。工业界大部分应用场景,多模态模型无法真正广泛应用与落地。

尽管多模态投入应用很难,但得益于小红书图文、短视频这样的多模态数据场景,多模态算法团队还是开发了很多应用。「除了搜索、推荐,还有电商内容理解、社区生态、广告系统等,都需要多模态技术的支持」,小红书算法团队表示,「对图文、视频内容的理解,横跨了小红书众多技术与应用」。

小红书多模算法组负责人汤神总结了如下多模态技术框架,在业务层面划分为内容质量评价体系、多模态搜索和交易(电商)内容理解,它们是多模态技术在内容分发场景当中最核心的三个技术栈。

今天起,种草小红书的多模态AI技术


内容质量评价体系

小红书建立了一套完整的内容质量评价架构,如下图左所示,这套完整的架构既具备了基础原子能力,又能快速组装满足不同业务的定制化需求。下图右展示了内容质量和画风调性模型的拆解,其中内容质量维度拆分成信息量、内容价值等,画风调性维度则拆分成画质、美学、BGM分类等模型。

今天起,种草小红书的多模态AI技术


以图片维度的画质与美学分类为例,如何利用单模型评估画质美学是业界和学界公认的难题。人们对美的理解主观且多元素,因此它也是一个多模态问题,其数据标注和模型拟合都比较难。小红书通过batch-wise ranking的多元素标注,提高整体标签的质量,然后采用画质和美学的多任务学习方式提高模型的精度。

多模态搜索之图搜

与其他电商平台一样,图搜也是小红书提供的重要功能之一,但最大的区别在于其更加注重用户的意图,换言之搜索的不光是产品本身,更是搭配和氛围感。以搜索鞋子为例,小红书会关注用户的延展搜索需求,比如鞋子的不同买家秀、鞋子与不同衣服的搭配等。这样一来,图搜不再只是展示商品,更为年轻人提供了一种新的生活方式&种草平台和消费决策入口。

小红书以生活分享类内容为重心的图搜,因为用户上传的数据多种多样,质量也得不到保证,所以图搜对复杂环境下检测和识别物体提出了很多新的技术挑战。

为了解决这些问题,小红书对于特征的大规模分类问题就做了大量的探索,在数据标注、网络结构设计、损失函数和训练方式四个方面进行技术上的改进,比如网络设计中加入图像的全局和局部信息以进行端到端搜索;应用无监督领域自适应(UDA)技术,利用有限标注数据和海量无标注数据提高整个模型在真实场景的泛化能力;通过多任务学习解决召回结果类目不一致的问题等等。

今天起,种草小红书的多模态AI技术

小红书图搜技术的简单框架。

汤神表示,多模态搜索不仅在图搜能发挥出巨大的价值,其在确保图文一致、自动为图片打标签等搜索、推荐的诸多应用中也发挥了很大的作用。

电商内容理解

小红书对电商内容理解有着得天独厚的条件,但要利用多模态技术解决两个重要问题。其一是供货,通过用户的诉求指导整个商品消费的供给;其二是盘货,通过多模态技术在平台的视角盘点到底在卖什么以及平台当前货的调性如何。如下图所示,当在小红书 APP看到用户发了推荐某款墨镜的笔记之后,可以利用图搜进行这款墨镜的种草、消费。

今天起,种草小红书的多模态AI技术

对于电商内容理解,小红书采用的一项核心技术是「主体识别」。主体识别是在图片中找到相关关注的目标,并对这些目标的主体显著性进行排序分析。因此,小红书设计了一个同时进行检测和主体排序的端到端模型,提供了基于位置敏感的记忆力模块,达到整体SOTA的效果。

总之,通过以上展示的多模态技术和产品应用,我们可以看到,小红书作为行业领先的UGC生活方式分享平台,对于实现多模态的前沿研究具有以下两方面的优势。

一,小红书具有海量、优质和多元化的多模态笔记数据,并配套有丰富的用户反馈数据,已然成为实践多模态内容理解算法的最佳落地场。

二,小红书拥有大量来自各种领域的视频创作内容,创作质量高,来源可靠,为多模态特征学习提供优良的数据基础,赋能高质量智能生成与创作。小红书用户内容覆盖的领域非常丰富,可以辅助多任务自适应学习、跨任务相关性建模以及高阶社交活动理解等。

未来,小红书还将在多模态智能创作领域发力。所谓多模态智能创作,即在多模态内容理解的基础上,帮助人们进行多种形式的创作,如创意生成、素材匹配、智能配乐、特效玩法、形象驱动、一键成片等。作为一个非常特殊的UGC视频创作生态,小红书希望更多普通人记录和分析自己的生活,共创多元、真实、美好、有用的社区生态。多媒体技术和智能创作可以帮助更高效地进行内容创作,记录生活,表达态度。这也与小红书「标记我的生活」的口号完美契合。

最后,4 月 27 日 19:00-21:00,小红书将迎来「REDtech 来了」第二场线上直播节目。届时悉尼科技大学讲师&助理教授朱霖潮、浙江大学博导 & 国家级青年人才项目入选者周晓巍、中科院自动化所研究员 & 博导赫然以及小红书社区智能算法负责人张德兵将继续为读者带来多模态理解与创作为主题的分享,敬请期待。

产业
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及,通常来自文本或XML文档。该任务与信息提取(IE)的任务非常相似,但是IE另外需要去除重复关系(消歧),并且通常指的是提取许多不同的关系。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

自适应学习技术

自适应学习也称为适应性教学(Adaptive Learning),是一种以计算机作为交互式教学手段的教学方法,根据每个学习者的特别需求,以协调人力资源和调解资源的分配。计算机根据学生的学习需求(如根据学生对问题、任务和经验的反馈)调整教育材料的表达方式。自适应学习技术已经涵盖了来自各个研究领域,包括计算机科学,教育,心理学和脑科学等等。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

多任务学习技术

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

暂无评论
暂无评论~