一文详解多模态技术在 QQ 浏览器视频搜索上的实践经验。
多模态技术在视频搜索整个架构中的逻辑位置,以及其中的技术难点; 介绍多模态技术的整体框架,包括封面模态匹配技术,视频内容帧匹配技术,多模态融合等技术的演进和实践经验。
模态表征:对视频的文本 / 图像 / 帧序列进行更好的表征,是后续模态融合 / 匹配的基础。 模态融合:视频本身是多模态的信息载体(包括文本 / 图像 / 音频等),而多模态的表征和建模的核心在于如何对不同模态的表征进行有效的融合。 模态匹配:传统搜索引擎以 query 和 doc 文本匹配信息为主(即文本相关性),而视频搜索场景下如何进行更好的跨模态匹配则是关键。
表征模型:
CNN 时期(2020 年之前):以 VGG、ResNet 等为代表。我们在第一版本时就是使用了 ResNet 方案。
Transformer 时期(2020 年至今):以 Vision Transformer (简称 ViT) 和 Swin Transformer 等为代表。后来我们逐步将方案由卷积迁移到注意力方案上来。
以 CNN 为 backbone 的代表模型:I3D、X3D 等。
以 Transformer 为 backbone 的代表:ViViT、Video Swin Transformer 等。
简单融合的方法:如对多种模态特征进行拼接,加权求和等。 基于张量分解的方法:如 TFN、LMF 方法等;LMF 是 TFN 的改进方法,通过将张量和权重并行分解,利用模态特定的低阶因子来执行多模态融合,显著提升了训练效率。 基于注意力机制的方法:如 cross-attention、modal-attention 方法等;ALBEF 模型里图文模态的融合采用的就是 cross-attention 的方法。
单流结构模型:在模型输入层时对各个模态进行融合,后续输入到模型 encoder 中进行充分的交互学习。典型模型有 VL-BERT、ImageBERT、VisualBERT 等工作。
双流结构模型:对不同模态采用独立的 encoder 得到各自的单模态表征,然后进行浅层的交互计算。典型模型有 ViLBERT、MCAN、CLIP 等工作。
数据层:视频有丰富的模态数据,包括视频标题、封面、OCR、账号、内容帧和 ASR 等。 模态表征层:通过大模型预训练技术、引入业务数据 Post-Pretrain 多阶段训练和 LLM 技术能力,结合业务需求引入多任务学习和多模态蒸馏技术,提升模态表征和后续匹配的效果。 匹配层:直接进行在线部署计算,业界常见做法为 query 侧在线计算特征,doc 侧则离线刷特征入正排索引,双塔方式应用生效。为了进一步提升匹配的效果,我们引入了 Poly-like 的半交互匹配技术进行优化,同时也在积极探索在线单流匹配模型。 应用层:精排阶段通过构建 query 与封面模态、视频感知模态、内容帧模态和多模融合模态的匹配特征,提升视频搜索效果和用户体验。
CNN 网络结构更加注重局部表征,同时图像局部表征之间缺少交互学习。 有监督学习依赖数据标注。
一方面,ViT 提出的图片 patch 化操作和引入 transformer 结构能够增加图像局部表征之间的交互学习,最终得到全局表征能力更好的图像表征。同时,随着训练数据和模型参数规模的提升,ViT 模型的效果上限更高。 另一方面,我们引入 MAE 预训练技术对 ViT 进行大规模的业务数据预训练。
方案一(两阶段训练和蒸馏方案):首先训练大模型,效果收敛后 “冻住” 大模型参数,蒸馏小模型;蒸馏阶段的 Loss 包含与文本小模型和图片表征的对比学习损失和文本表征蒸馏损失。
方案二(蒸训一体的方案):训练大模型和蒸馏小模型的过程同时进行,这里的 Loss 为两个尺寸的文本模型表征和图片表征的对比学习损失和文本表征蒸馏损失。
视频感知域融合:目标是建模 query - 视频感知相关性,我们将视频感知定义为用户点击播放视频前能看到视频展现结果的所有信息,它是消费视频的前提,因此我们希望产生更多的用户点击分发。 视频内容域融合:目标是建模 query - 视频内容相关性,刻画满足用户 query 的真实相关性,视频内容域包括视频所有可获取到的模态信息域,即在视频感知信息域的基础上,还有内容 OCR,内容帧,音频 / ASR 等。视频内容相关性是视频排序的重要依据,也是影响用户体验 / 深度消费最重要的维度。
信息域:引入更多的内容域(如 ASR),实现信息域完备的内容相关性建模。 融合方式:升级多模态融合的方式,提升融合效果。
方案 1:基于 query emb 选取余弦相似度最大的 fusion emb; 方案 2:基于 query emb 选取余弦相似度最小的 fusion emb; 方案 3:多个 fusion emb 取平均。
效果层面,相比训练过程采用的融合向量选取方式,平均加权的融合方式在测试集 PNR 指标下降极低(-0.15%)。 性能层面:保留双塔的性能优势,同时将特征存储成本下降至原来的 1/5。
离线评估:
单特征排序指标:PNR 指标提升 57.5%; 多模态融合特征 PNR 指标远高于各个单模态(验证多模态融合的有效性):
小流量实验:视频消费时长 + 4.31%,视频长点率 + 2.18%。