Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

所见,所问,所答:上海交大&上海AI Lab发布最新医疗多模态问答框架PMC-VQA

PMC系列持续更新,大规模医学视觉问答数据集PMC-VQA强势来袭!

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering 是上海交通大学与上海人工智能实验室联合团队PMC系列的最新研究成果,该研究聚焦视觉指令微调,发表大规模医学视觉问答数据集PMC-VQA与首个医学视觉指令微调模型MedVInT。

论文链接:https://arxiv.org/pdf/2305.10415.pdf
代码链接:https://github.com/xiaoman-zhang/PMC-VQA
PMC-VQA Dataset: https://huggingface.co/datasets/xmcmic/PMC-VQA
Huggingface Model: https://huggingface.co/xmcmic/MedVInT-TE

研究背景

近期大语言模型在各种自然语言处理任务中都取得了显著进展,如问题解答、文本分类和交互对话。近期 Google & DeepMind 发表在 Nature 上的 Med-PaLM进一步展示了大语言模型在医疗领域的应用潜力,在医学理解、知识检索和推理方面等问题上取得了优异的性能。
然而,医学领域的问题显然是多模态的,当前对多模态的基础模型的研究,面临着数据,模型,训练与评测方方面面的挑战。我们首先从数据入手提出了PMC-OA,一个从科学文献中构建高质量医疗多模态数据集数据集,进一步的针对多模态基础模型的评测问题,我们关注于医学视觉问答任务(MedVQA),提出了PMC-VQA,包含227k的视觉问答对,是当前医疗领域模态最多,数据规模最大的多模态问答数据集(如图1所示)。

图1:现有医疗视觉问答数据集汇总,展示了PMC-VQA数据集的规模以及模态的丰富性

数据集介绍

PMC-VQA是在我们之前提出的PMC-OA数据集[1]的基础上构建的,所用到的是从2.5M的科学文献中收集了381K的医疗图文对,我们根据图像对应的标题,通过prompt ChatGPT构建对应的问答对(见图4b),再进行进一步的筛选以得到。

PMC-VQA数据集共包含227k视觉问答对,对应约149k的图像,其中图像可能为单图,也可能为多张图像的组合。图2为PMC-VQA数据集示例,与以往的医疗视觉问答数据集不同的是,PMC-VQA的答案不是一个固定的集合,我们每个问题都提供了正确答案和另外三个选项。这样基于PMC-VQA数据集,模型可以做生成式的视觉问答(Open-ended)以及选择题的视觉问答(Multiple Choice)

图2:MedVInT模型架构图以及PMC-VQA生成过程

图3进一步地展示了PMC-VQA数据集问题的多样性。图4展示了PMC-VQA数据的分布。

图3:PMC-VQA数据集的问题分布

图3:PMC-VQA数据集的问题和答案的长度分布

任务介绍

Multi-choice MedVQA

对于每个问题,提供四个候选答案作为提示,训练模型从中选出正确答案(A/B/C/D)。具体来说,模型的输入为 “Question: q, the options are: a1, a2, a3, a4, the answer is:”,ai为第i个选项。

Open-ended MedVQA

对于每个问题,不提供选项输入,训练模型根据图像和问题直接生成对应的答案。具体来说,模型的输入为 “Question: q, the answer is:”, 预期的输出出为ai,即正确答案。

模型介绍

现有的MedVQA的方法通常将该问题视为一个在有限答案集合上的检索任务,并以对比或分类为目标来训练模型,所以这些方法仅适用于事先提供答案集合的情况。PMC-VQA为领域探索开放式生成视觉问答提供了可能性,我们也基于PMC-VQA,提出了首个开放式的多模态问答模型MedVInT,该模型能够处理临床实践中出现的各种问题,以自由文本的形式生成答案。

模型结构

我们针对encoder-based和decoder-based的两种语言模型结构提出了两种变体,包括MedVInT-TE和MedVInT-TD。模型主要有三个部分组成,视觉编码器,文本编码器以及多模态解码器。
对于encoder-based的语言模型,直接对输入的文本进行编码得到文本特征,与视觉特征合并后作为多模态解码器的输出。
对于decoder-based的语言模型,文本编码器和多模态解码器则分别为语言模型的embedding layer和其他部分,对输入的问题进行编码后与视觉特征合并,输入多模态解码器。

图4:MedVInT模型架构图以及PMC-VQA生成过程

实验结果

MedVInT在PMC-VQA上训练的结果如表1所示,我们可以看到现有的自然图像上的多模态模型基本不具有医疗视觉问答能力,可见针对医疗领域构造医疗多模态基础模型的重要性。

图4:MedVInT模型架构图以及PMC-VQA生成过程

此外,我们将PMC-VQA训练后的MedVInT在已有的MedVQA数据集上进行训练,MedVInT在已有的MedVQA数据集上超过了现有SOTA的方法。

表2:MedVInT在VQA-RAD和SLAKE数据集上的测试结果

References

[1] Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, and Weidi
Xie. Pmc-clip: Contrastive language-image pre-training using biomedical documents. MICCAI, 2023.

FM4Medicine
FM4Medicine

近年来,基础模型(Foundation Model)的快速发展为医学领域带来了新的机遇,为人工智能在医疗领域的广泛应用开辟了新道路。本专栏将致力于分享医学多模态基础模型的最新前沿研究和技术,探索大模型在医学领域的创新应用,打造医疗通用模型研究新社区,开创医疗智能的新未来。无论您是医学专业人士、研究学者,还是对医学和人工智能感兴趣的读者,我们相信本专栏将为您提供丰富的知识和启发,帮助您深入了解医学多模态基础模型的应用前景和潜力。让我们一起迈向医疗领域的通用智能时代!

入门
暂无评论
暂无评论~