Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


该文章的作者团队来自于哈工大社会计算与信息检索研究中心,作者团队构成:郑子豪、张梓涵、王泽鑫、付瑞吉、刘铭、王仲远、秦兵。

多模态表示

多模态命名实体识别,作为构建多模态知识图谱的一项基础而关键任务,要求研究者整合多种模态信息以精准地从文本中提取命名实体。尽管以往的研究已经在不同层次上探索了多模态表示的整合方法,但在将这些多模态表示融合以提供丰富上下文信息、进而提升多模态命名实体识别的性能方面,它们仍显不足。

本文,研究团队提出了DPE-MNER,一个创新的迭代推理框架,它遵循“分解、优先、消除”的策略,动态地整合了多样化的多模态表示。该框架巧妙地将多模态表示的融合分解为层次化且相互连接的融合层,极大地简化了处理过程。在整合多模态信息时,该团队特别强调了从“简单到复杂”和“宏观到微观”的渐进式过渡。此外,通过显式地建模跨模态的相关性,研究团队有效地排除了那些可能对MNER预测造成误导的不相关信息。通过在两个公共数据集上进行的广泛实验,研究团队的方法已被证实在提升多模态命名实体识别的准确性和效率方面具有显著效果。本文为LREC-COLING 2024 1558篇录用论文中的十篇最佳论文候选之一


动机


图片

多模态命名实体识别的一个实例。研究团队展示了对于命名实体识别决策可能有用的多种多模态表示。人类通常在心中以迭代的方式处理这些信息。

为解决这一问题,研究团队从复杂问题解决(Sternberg 和 Frensch,1992)这一领域中获得灵感。该领域专注于研究人类和计算机在解决包含多个变量、不确定性和高复杂性的问题时所采用的方法和策略。首先他们认为,当面对复杂问题时,人类一般会采用迭代的处理方式,如图所示,研究团队在处理MNER时其实也是个迭代的过程。其次,人类会运用特定策略来简化这些问题,比如分解、优先排序和排除不相关因素。

该研究团队认为,将多模态命名实体识别(MNER)视为一个整合多模态信息的迭代过程,并运用这些策略,非常适合于MNER任务。与单一步骤的方法相比,多步骤的方法能够在迭代优化命名实体识别(NER)结果的过程中,更全面地利用多样化的多模态表示。

此外,这三种策略非常适合于多模态NER中多种表示的整合:

  • 分解策略鼓励我们将多模态表示的融合拆分为更小、更易于处理的单元,这些单元能够在不同的粒度级别上探索多模态交互。
  • 优先排序策略建议根据“由易到难”和“由粗到细”的顺序来整合多模态信息;这种渐进式的整合有助于MNER预测的逐步优化。这使得模型能够逐步将注意力从简单但粗糙的信息转移到复杂但精确的细节上。
  • 不相关性消除策略启发我们显式地筛选并排除不同多模态表示中的无关信息;这可以消除那些可能影响MNER性能的无关信息。

方法

研究团队设计了一个迭代的动态融合多种多模态特征的多模态实体抽取框架,其包含一个迭代过程以及预测网络。 

图片

迭代建模MNER

研究团队沿用扩散模型将物体识别,视觉对齐以及文本实体抽取建模为迭代的去噪过程的方式,同样使用了扩散模型将多模态实体抽取建模为迭代过程。模型首先随机初始化一系列的实体区间图片,基于一个预测网络编码多模态特征来在去噪过程中迭代地去噪得到文本中的正确实体区间图片

预测网络

如图所示,研究团队共获取了文本中的三种粒度的表示图片,图片中的两种粒度两种难度(他们认为对齐的表示是简单的表示,不对齐的是困难的表示)的表示图片。该团队的预测网络AMRN包含一个编码网络(DMMF)以及解码网络(MER)。预测网络的设计是基于前面所提到的三种策略。

如图所示,编码网络是一个层次化的融合网络,将多种多模态特征融合分解为了一个层次化的过程。自底向上是首先将相同粒度不同难度的图片特征图片融合到每个粒度的文本特征中$x_i$, 将不同粒度的图片特征$Y$融合到每个粒度的文本特征图片,最后将不同粒度的图片特征Y和文本特征X融合,得到最终的多模态表示。输入到解码网络中进行解码,解码网络得到新的区间,以及每个区间的实体类型。

底层融合。这一层研究团队将某一个粒度的图片特征融合到某一个粒度的文本特征中。根据扩散过程,研究团队可以得到一个调度器,该调度器可以反映当前的迭代的状态,也是引入优先级的关键。研究团队基于该调度器将不同难度的图片特征融合在一起得到图片图片相关性rel,用于消除其中的无关信息。最后结合该相关性使用了一个bottleneck transformer来进行图片图片的融合,得到了某一粒度的多模态图像文本融合表示图片

中层融合。这一层研究团队将不同粒度的图片特征融合到某一个粒度的文本特征中,即融合图片。这一层我们使用了调度器来对不同粒度的图片特征进行动态融合,得到了某一粒度的多模态文本表示图片

顶层融合。这一层研究团队将不同粒度的多模态文本表示图片融合到区间的表示中,得到总的多模态的文本表示图片,输入到解码网络中进行预测。

实验结果

主实验

作者团队对比了MNER的一些典型的方法。实验结果表明该方法在两个常用的数据集上取得了最佳的性能。
图片
消融实验

研究者分别去除了我们论文中关于优先级、层次化、以及消除的设计,来观察模型性能,结果表明移除各个设计均带来了性能的下降。
图片
与静态特征融合方法的对比

他们对比了一些典型的静态多模态融合方法,例如最大池化,平均池化,基于MLP以及MoE的方法,结果表明他们所提出的动态融合框架能达到最好的性能。

图片

典型样例分析

研究团队选取了两个有代表性的样例来表明迭代过程。可以看到最开始的迭代步骤里,time square和cubs的类型被错误地预测了;然而根据图片中的重要特征线索,迭代地修正为了正确的实体类型。
图片
结论

本文旨在多模态命名实体识别(MNER)领域内,充分地发挥各种多模态表示的潜力,以期获得卓越的识别效果。为此,作者们设计并提出了一种创新的迭代推理框架——DPE-MNER。DPE-MNER通过将MNER任务分解为多个阶段,巧妙地简化了对这些丰富多样的多模态表示的整合过程。在这一迭代过程中,多模态表示依据“分解、优先排序和消除”的策略,实现了动态的融合与整合。通过一系列严谨的实验验证,研究团队充分展示了DPE-MNER框架的显著效果和优越性能。

参考文献:
[1] Knowledge Graphs Meet Multi-Modal Learning: Comprehensive Survey, arxiv
[2] Decompose, Prioritize, and Eliminate: Dynamically Integrating Diverse Representations for Multi-modal Named Entity Recognition,2024,Joint International Conference on Computational Linguistics, Language Resources and Evaluation
[3] Complex problem solving : Principles and mechanisms,1992, American Journal of Psycholog
[4] DiffusionNER: Boundary Diffusion for Named Entity Recognition, ACL23 
[5] DiffusionDet: Diffusion Model for Object Detection, ICCV23
[6] Language-Guided Diffusion Model for Visual Grounding, arxiv23
工程LREC-COLING 2024DPE-MNER
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

推荐文章
暂无评论
暂无评论~