Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

火了一整年的多模态学习,在工业界的落地和实践进展到底怎么样了?

在小红书,看见多模态学习的无限可能。

随着 NLP 和 CV 的日益融合,多模态学习越来越受到学界和业界的重视。在 DALL-E、Stable Diffusion 等文本生成图像跨模态应用成熟之后,围绕多模态学习、AIGC 等议题的讨论热度持续攀升。

当然,还有很多问题需要进一步探索:比如,多模态学习在哪些任务上还有极具前景的应用潜力?多模态技术在真实场景中的泛化受到哪些限制?

11 月 19 日,小红书 REDtech 青年技术沙龙 - 北京站圆满收官。在这场活动上,数位顶尖学者、小红书技术团队大神和青年学子们齐聚一堂,对多模态技术、AIGC、青年人才职业发展等热门议题进行了深入讨论。

出席本次沙龙的嘉宾包括小红书社区部多媒体智能算法负责人张德兵、中国科学院自动化研究所研究员、博士生导师张兆翔,北京智源人工智能研究院研究员曹越,此外,本场沙龙还为即将投身业界的高校学子特别设置了嘉宾对谈、自由交流等环节。北京师范大学人工智能学院黄华教授与小红书技术副总裁风笛。为青年人才们提供了很多有益的学术研究指导与建议。


多模态衍进之路

多模态学习的本质,可以理解为从包括文本、图像、视频、音频等不同模态的信息中学习并且提升自身算法。此前,对于不同模态的数据,大家使用的是不同的网络架构,比如 CV 领域使用 Convolution,NLP 领域使用 Transformer,图领域使用图网络。

多模态学习的发展是如何打破「分界线」,促使人工智能走向统一的?作为本场沙龙的学界代表之一,北京智源人工智能研究院研究员曹越从理论研究的角度切入,回溯了多模态的衍进之路。


曹越的研究领域包括基础模型、自监督学习多模态学习。在清华大学取得博士学位之后,曹越加入了微软亚洲研究院视觉计算组。期间参与了多项重要研究,包括 Swin Transformer、GCNet、SimMIM 与 VL-BERT 等。2021 年,Swin Transformer 获得了 ICCV 最佳论文奖—马尔奖。

他认为,从建模的角度看,当前的人工智能领域在逐渐走向统一。

机器学习时代,这种统一表现在范式上。很久之前,对于不同任务,研究者需要实现手动设计规则来完成任务。后来,模型可以从历史数据中进行学习,并且进行预测。在这个过程中,研究者需要做的是针对不同的任务设计相应的模型、损失和算法。到了深度学习时代,这种统一更多体现在架构上。不同任务都开始使用深度神经网络,包括 CNN、RNN、LSTM 等。

曹越表示,在一系列变革之后,架构和预训练过程还有待统一。对于不同模态的数据而言,大家会使用不同基础架构单元,比如对于图片会使用卷积神经网络,对于文本则使用 Transformer,二者的表征学习过程是不同的。这种规则也在发生变化。

在视觉领域,卷积神经网络在很长一段时间都占据主导地位。2017 年后,Transformer 大放异彩,一些研究人员致力于将其应用到计算机视觉中。学术界发现 Transformer 的网络结构设计可以几乎不经过任何改变直接应用到视觉信号。于是不管是自然语言处理还是视觉类任务,都开始使用 Transformer 作为基础架构单元。这方面也有很多代表作,比如 ViT、DeiT、Swin Transformer 等。

同时,模型的预训练方法逐渐统一。视觉领域的训练往往需要大量人类标注的语言,而语言学习过程中的自监督预训练不需要额外进行标注。借助这种方式,视觉模型也可以利用几乎无限的数据进行预训练模型之后,并在一系列下游任务中取得非常瞩目的性能提升。这方面的代表作有BEiT、SimMIM、MAE等。

下一步会走向何方?曹越认为,通用模型时代或将到来,预训练模型无需微调就可以处理不同模态的输入,包括语言、视频和图像等,并且能够完成不同的任务。

小红书的多模态实践

在学术界不断取得前沿突破的同时,多模态技术也走进了工业界,逐渐落地生根。作为近年来国内发展最迅速的移动互联网平台之一,数亿量级的搜推流量、跨越多个模态的海量数据集、AI 智能化辅助 UGC 创作、基于多云的高可用基础架构、融合用户 - 商品 - 内容的深度理解及表征学习…… 这样的生态带来了很多前沿的技术挑战,小红书已经成为了多模态相关技术的绝佳落地场和领先实践场,为小红书的技术人提供了广阔的成长空间。

本场沙龙上,小红书社区部多模态智能算法负责人张德兵分享了《小红书多模态智能创作技术与应用》相关主题内容。张德兵本科毕业于浙大丘成桐数学英才班,长期关注 CV / NLP / 音频 / 多模态 / 智能创作等相关技术,并推动 CV、多模态等技术在安防、零售、体育等 TO B 场景和短视频、广告等 C 端场景的多项业务落地。

他在分享中提到,每天都有很多普通创作者在小红书上真诚分享和记录自己的生活,但是「创作」并不是一件特别容易的事。尤其是对于小红书社区的 UGC 属性而言,普通用户在如何进行视频表达的时候,会遇到拍摄的视频缺乏亮点、学不会复杂的剪辑过程等等阻碍。

如何以技术手段克服这些挑战,帮助用户更好地记录生活、表达生活,也是小红书技术团队认真考虑的问题。

目前,在小红书,多模态智能创作已经在助力更多普通人进行高效的内容创作,比如

智能模板、一键成片、一键添加闪光点等功能。

以上图的视频和图文模板为例,在制作内容的时候,用户并不需要有特别专业的剪辑能力、创作能力,只要仿照类似的模板指引,就可以非常便捷地制作类似的内容。在多模态技术的加持下,小红书还提供了基于文案寻找相关素材的辅助功能,加上智能配乐即可得到想要的结果。

解决这些挑战并不容易。因此,小红书一直以来都在深耕相关底层技术,特别是多模态技术。在沙龙现场,张德兵深入介绍了小红书多模态智能创作技术的整体框架:


为了实现更好的辅助创作效果,小红书技术团队打造了一条比较复杂的技术链路,从基础架构、基础 AI 能力到端云协同的操作。此外,为了跟设计师有很好的协同,团队还做了大量提效工具,让设计师和 AI 的合作更加密切,更好地还原亮点效果,支撑各种各样的上游应用场景。

小红书技术团队的布局分三部分:视觉维度;音频维度;多模态维度。视觉技术层面,包括目标精细分割、智能补全、稳定光流、深度估计;音频技术层面,包括 ASR、TTS、音乐生成。此外,特别值得关注的是多模态技术的应用。

鉴于小红书站内有非常多优质图文数据、笔记评论以及外部开源语料,团队基于大规模中文语料库和高质量的图文数据,做了小红书版本的多元场景跨模态预训练模型。在基础的训练模型版本上,团队结合具体场景去进行进一步的优化。张德兵介绍说,除了文案推荐之外,视觉元素和音乐之间的关联、歌词之间的关联、内容和模板之间的关联都是各种各样多模态形式,其关联性都可以通过跨模态匹配来建模。而且用户使用过程中会留下越来越多的行为信号,这些信号也可以用来持续优化算法,提升用户体验。


还有一个方向是内容生成。对于最近热门的AIGC方向,小红书技术团队也在做一些尝试,一个很典型的方式是基于文本描述来搜索或者生成内容,另外如何基于用户提供的素材来进行更好的个性化创作也是个很有趣的方向。



当自动驾驶遇见「多模态」

正如上述内容所说,视频、图像、文字、语音这些我们日常接触到的信息形式都可以算作模态。而从理论上说,模态的范围要比我们的感知能力更广泛,比如利用传感器获得的雷达、红外线等感应数据也属于模态信息。

这类模态信息在自动驾驶场景中更为常见。在本场沙龙上,中国科学院自动化研究所研究员张兆翔教授分享了《面向自动驾驶场景的多源融合视觉感知》相关内容。


张兆翔教授现为中国科学院自动化研究所研究员、博士生导师。他的主要研究方向包括视觉场景理解、类脑认知与学习等,在 TPAMI、IJCV、JMLR、CVPR 等本领域顶刊顶会发表论文 100 余篇,担任过 CVPR、ICCV、AAAI、IJCAI、ACM MM 等知名国际会议的领域主席。

在当下炙手可热的自动驾驶行业,多源融合视觉感知是非常重要的技术路线。张兆翔表示,自动驾驶场景的感知本质上是多模态、多任务的。比如视觉感知存在不同场景,这些场景中的尺寸、视角可能又各不相同。一直以来,张兆翔致力于探索模型的自适应性,包括如何解决标注问题、如何适配场景等问题。

在分享中,他介绍了一项代表性研究:三叉戟网络 TriNet(Trident Network for Object Detection)。这项研究探索了让一个通用模型借助不同的分支类型去刻画尺度,分别适应解决小目标、中型目标、大目标的问题。

随后,张兆翔亦介绍了自己在图像分割领域的研究心得。相比于小红书技术实践中常见的人形分割,现实场景中的分割任务更加多样,比如帽子、水杯、路灯等物体。为了降低大量数据标注所带来的成本问题,他和团队将点级标注用于弱监督的全景分割。与完全监督方法所使用的密集的像素级标签不同,点级标注只为每个目标提供一个单点作为监督,大大减少了标注负担。

这项研究《Pointly-Supervised Panoptic Segmentation》亿发表在 ECCV 2022 上。

多源融合视觉感知的对象不仅包括图像,还包括点云,其场景不仅在车上,还包括各种各样智能设备,甚至是扫地机器人。面对大量非结构化的原始数据,张兆翔也尝试引入 Transformer 架构,实现方法上的创新。在一篇 CVPR 2022 论文中,他提出了空间稀疏的单步长 Transformer 结构,完成了主干网络的空间稀疏化,提升了物体检测性能。

「大咖面对面」:给青年人的研究建议

聆听完最前沿的技术分享之后,在本次沙龙的压轴环节,北京师范大学人工智能学院黄华教授、小红书技术副总裁风笛两位前辈分别从学界和业界角度出发,开展了一场关于「AI 技术提升与实力升级」的对谈。


多模态学习、AIGC 都属于当下比较火的方向,也引发了大量技术人才的关注。那么,作为一名青年研究者,如何看待瞬息万变的研究热点呢?

风笛表示,真正做出好的产品需要的是专注于用户价值和产品体验。对于新的技术、新的模型方法,保持关注、了解到有哪些新的东西即可,不一定非要追逐热点。

黄华教授表示,从研究者个人角度出发的话,追热点也不是必须的。因为热点是随时变化的,当热点出现的时候,你往往追不到它,同时也会有很多其他人在追。换个角度说,即使你现在做的工作不是热点,但两三年后也许会变成热点。况且从研究角度来讲,很多学术思想是相通的。

还有一些话题,也是在场青年学子非常关心的。比如,当前 AI 领域什么样的人才是最紧缺的?是技术研究型,还是落地应用型?基于这样的需求,学界和业界又该如何助力 AI 人才的培养呢?针对这些问题,两位嘉宾分别给出了自己的建议。

在黄华教授看来,人工智能的理论研究很重要,但是对企业来说,更重要的是落地,所以两种人才都是被需要的。对于 AI 相关专业的学生来说,如果说想去到工业界,就可以尽量多做点技术类的项目,如果想在学术界深造,就多做一些理论方面的工作。

高校的人才培养模式和企业界需求存在差异,学术界追求的是发表高水平论文,而企业要求的是能解决实际问题。现在教育界提倡的是「研究真问题、真研究问题」,想要解决好这个问题,就需要学界和业界合作。做理论研究或许可以不考虑实际需求,但也有一种说法,做理论的人如果不了解工程问题,理论也不会做得特别好,因为真正有价值的理论问题通常是要能够解决实际问题的。

风笛则更多根据小红书的经验,从企业界的角度出发介绍了青年技术人才成长与培养的路径。他提到,企业对具备技术落地能力的人才需求会更多一些,但是同时也会需要少量基础研究类人才。特别地,像小红书这样的企业会很关注对于数据和算力的挖掘,这个方向上还需要更多的优秀 AI 人才来共同突破。

小红书作为一家 UGC 视频分享平台,拥有非常特殊的海量的多模态数据集,在信息检索、信息推荐、信息理解,特别在智能创作相关技术,以及底层多模态学习、统一表征学习等方向上,都能提供非常重要的研究源头:数据。

这恰好弥补了学术界研究普遍缺少的要素——对于很多做人工智能方向研究的实验室来说,挑战基本不在于硬件设备的条件,缺少的是真正能够为数亿用户所使用的应用场景,以及这些场景产生的真实数据。很多工作难以与真实用户做交互,更多是基于可能存在偏差的历史数据进行研究。而数据集和真实场景,都是小红书本身具备的优势。此外,小红书还能提供比较强大的算力资源。

此外,对于优秀的应届毕业生,小红书从人才培养机制上进行了精心的设置,包括从融入职场到成长为行业技术人才全周期的的详细培养方案。


入职之后,小红书技术团队会通过薯光计划、Mentor 机制等方式,帮助应届生成为真正的技术人。小红书从内部精选了一批绩优资深工程师组成 Mentor 池,每位应届生都会有专属的 Mentor 手把手带教,帮助应届生在实践中找到擅长的技术方向。

在小红书技术团队中,很多成员都拥有谷歌、BAT 等海内外一线大厂的工作经历。他们也会将这些经验沉淀下来,传承给每一位入职小红书的应届生。

在专业能力培养上,小红书技术团队会设置各种技术交流形式,比如由公司内部技术领域专家授课答疑的「技术 101 课程」、定期内部技术分享、公司内部学术牛人组织的「论文领读会」以及定期的高校及重点实验室交流等,帮助他们尽早接触到更为前沿的工业级技术,实现更好的成长。

此外,小红书技术团队对于年轻人是非常友好的,随着小红书的不断发展,有非常多的技术场景给予了同学完整参与乃至扮演重要角色的机会,以往已经有多位技术应届生获得了连续晋升。

伴随着小红书社区的高速增长,小红书技术团队所能提供的人才成长空间,比以往任何时候都更加广阔,也正在等待更多优秀 AI 青年学子的加入。

小红书 2023 届校招仍有相关岗位开放内推,欢迎有志于此的你扫码参与~

入门小红书多模态学习
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

www.msra.cn
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~