Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

针对医学文献的多模态基础模型 PMC-CLIP

上海交通大学与上海人工智能实验室联合团队聚焦医学人工智能,提出了迄今最大的医学图文基础模型。

上海交通大学与上海人工智能实验室联合团队的研究成果 ***PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents.*** 被国际医学顶级会议 **MICCAI**(International Conference on Medical Image Computing and Computer Assisted Intervention )接收,该研究聚焦医学人工智能,提出了迄今最大的医疗图文数据集,并训练了图文基础模型 PMC-CLIP。

文章作者为林玮雄(共一),赵子恒(共一),张小嫚,吴超逸,张娅教授,王延峰教授(通讯),谢伟迪教授(通讯)。

项目主页: https://weixionglin.github.io/PMC-CLIP/

论文链接:https://arxiv.org/pdf/2303.07240.pdf

代码链接:https://github.com/WeixiongLin/PMC-CLIP/

模型链接: https://huggingface.co/datasets/axiong/pmc_oa


研究背景

近年来,基于大数据预训练的多模态基础模型 (**Foundation Model**) 在自然语言理解和视觉感知方面展现出了前所未有的进展,在各领域中受到了广泛关注。基础模型往往需要大规模高质量的预训练数据集,而在医疗领域中,有两个关键的因素导致这样的多模态数据非常稀缺:

1. 医疗多模态数据标注需要很强的专业知识

2. 为保护病人隐私,大量医疗数据难以共享

因此,如何自动化地获取大规模高质量的医疗多模态数据,从而得到更普适的医疗多模态基础模型,是当前医学人工智能研究领域的难点和热点。

在此背景之下,我们探索了基于科学文献的医疗图文数据集构建,发布了包含1.6M图文对的生物医疗数据集,即 PMC-OA (源于 PubmedCentral OpenAccess Subset)。PMC-OA不仅在规模上达到了已有类似数据集的8倍,且涵盖了更加丰富的疾病、器官和影像模态。基于该数据,我们训练了类似 CLIP 的多模态医疗基础模型PMC-CLIP。该模型基于视觉-语言联合训练实现了涵盖多疾病、多器官、多影像模态的表征学习。在图文互搜,图像分类,视觉问答等下游任务上,PMC-CLIP预训练得到的视觉、语言编码器均能够显著提升性能。为开发人工智能辅助诊断的基础模型奠定了数据基础。

  • 提出了一个从科学文献中构建高质量医疗多模态数据集的方法,并公开了PMC-OA数据集
  • 基于对比学习的预训练多模态模型预训练,即PMC-CLIP,在众多下游任务上均有性能提升

数据集介绍

PMC-CLIP 的核心是我们从科学文献中提取的图文数据集 PMC-OA。我们从2.5M的科学文献中收集了381K的医疗图文对。复合图像在科学文献中出现频率很高(在收集的图像中占比约80%),针对这一问题,我们设计了专门的步骤提取子图和子标题,并对齐两者得到更细粒度的图文对,如图1所示。基于我们提出的数据处理流程,PMC-OA除了在规模上达到之前工作的8倍,涵盖数据的丰富程度也超过以往。我们分别从3个角度进行观察:

  • 诊断手段(Diagnostic Procedure):如图2.1 所示, 相比于之前的 ROCO, MedICaT 来说 PMC-OA 在样本丰富性和任一影像模态包含的样本数量上都有很大提升。
  • 疾病(Disease and Findings)经过统计, PMC-OA 总共涵盖了 3255 种疾病. 如图2.2 所示, PMC-OA 涵盖了之前数据集中的常见疾病种类。
  • 病人的年龄和性别(Patients' Age and Gender):如图2.3 所示, 数据集的样本涵盖了不同年龄段的病人,并且性别平衡

图1:PMC-CLIP 的 Data Pipeline 与预训练模式

图2.1:Diagnostic Procedure图2.2:Disease and Findings图2.3:Patients' Age & Gender

模型介绍

如图1(下) 所示,我们训练了一个 CLIP-style 的模型。分别用 视觉/文本编码器 对图文数据进行编码, 然后优化交叉熵损失从而使得两种模态的表征趋同。此外,将文本输入中的 Token 随机替换为掩码[MASK],并融合图文表征将掩码重建回本来的单词;从而 MLM(Masked Language Modeling)促进了图文模态之间的融合。模型初始化时,对视觉编码器进行随机初始化,而对于文本编码器用 PubmedBERT[5] 的权重进行初始化。

实验结果

我们将仅在 PMC-OA 上使用图像和文本预训练的 PMC-CLIP 模型,在多种下游任务、多个具有不同数据分布的公开数据集上进行了系统性评测,包括

- 图文检索: ROCO[1]

- 图像分类: MedMNIST[2]

- 视觉问答: VQA-RAD[3], SLAKE[4]

其中 ROCO 数据来自 PubMed;MedMNIST 数据包含不同器官、多种模态 (Colon Pathology, Chest X-ray, Abdominal CT, etc);VQA-RAD数据来源于 MedPix 中的教学示例。 SLAKE中的医学图像来自于公开数据集ChestX-8, CHAOS,并且由四川省人民医院的医师提供标注。

PMC-OA 数据集对于 Image-Text Retrieval 的提升显著

我们将用 PMC-OA 预训练的模型 PMC-CLIP 在 ROCO 上进行测试,并且在数据预处理中完全去除了 ROCO 与 PMC-OA 重合的部分。如表 1 所示,用PMC-OA进行预训练在 Image-to-Text 和 Text-to-Image 上均有显著提升。

特别地,PMC-OA Beta 表示使用未经过子图-子标题对齐的数据集,可以看出更细粒度的图文对齐可以有效提升表征学习的效果。

表 1:用PMC-OA预训练的结果与其他预训练数据的比较

如表 2 所示, PMC-CLIP 和其他方法对比可以看出,相比于之前的各种模型,PMC-CLIP 对图文检索任务的提升显著。

表 2:PMC-CLIP 与其他模型的比较Image Classification

如表 3,可以看出预训练之后模型在列举的3个子集的图像分类上均获得了显著提升。我们对于 MedMNIST 中的其他子集也进行了测试,证明 PMC-CLIP 对于不同疾病、模态都有增益。

表 3:PMC-CLIP 在 MedMNIST 上的结果

Visual Question Answering

如表 4,PMC-CLIP 在 medical VQA Benchmark 上达到了和 SOTA 相当的性能。

表 4:PMC-CLIP 的 VQA 结果

总结

在医疗领域中,出于对用户隐私的考虑,通用基础模型的发展往往受到数据集稀缺的限制。我们提出了基于公开科学文献进行数据提取的方法,并且发布了大规模医疗图文数据集 PMC-OA。通过在该数据集上进行预训练,PMC-CLIP 模型在多种下游任务上获得了超过以往最优模型的效果。值得注意的是,我们提出的基于公开科学文献的数据流程不局限于当前的数据规模,随着医学领域各方面研究的进步,PMC-OA 会得到不断扩充。在提供更多训练样本的同时,其对应的医学专业知识也在不断更新,促进医疗基础模型在临床的应用和落地。

References

[1] Obioma Pelka, Sven Koitka, Johannes R¨uckert, Felix Nensa, and Christoph M Friedrich. Radiology objects in context (roco): a multimodal image dataset. In Intravascular Imaging and Computer Assisted Stenting and Large-Scale Annotation of Biomedical Data and Expert Label Synthesis: 7th Joint International Workshop, CVII-STENT 2018 and Third International Workshop, LABELS 2018, Held in Conjunction with MICCAI 2018, Granada, Spain, September 16, 2018, Proceedings 3, pages 180–189. Springer, 2018. 2, 4, 7

[2] Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, and Bingbing Ni. Medmnist v2-a large-scale lightweight benchmark for 2d and 3d biomedical image classification. Scientific Data, 10(1):41, 2023. 7

[3] Jason J Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. A dataset of clinically generated visual questions and answers about radiology images. Scientific data, 5(1):1–10, 2018. 8

[4] Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. Slake: A semantically-labeled knowledge-enhanced dataset for medical visual question answering. In 2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI), pages 1650–1654. IEEE, 2021. 8

[5] Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare (HEALTH), 3(1):1–23, 2021. 8


FM4Medicine
FM4Medicine

近年来,基础模型(Foundation Model)的快速发展为医学领域带来了新的机遇,为人工智能在医疗领域的广泛应用开辟了新道路。本专栏将致力于分享医学多模态基础模型的最新前沿研究和技术,探索大模型在医学领域的创新应用,打造医疗通用模型研究新社区,开创医疗智能的新未来。无论您是医学专业人士、研究学者,还是对医学和人工智能感兴趣的读者,我们相信本专栏将为您提供丰富的知识和启发,帮助您深入了解医学多模态基础模型的应用前景和潜力。让我们一起迈向医疗领域的通用智能时代!

理论
暂无评论
暂无评论~