编辑 | 萝卜皮
在快速发展的人工智能 (AI) 领域,基于 Transformer 的基础模型已成为解决广泛生物医学挑战的强大工具。
里海大学(Lehigh University)的研究人员介绍了一种统一且通用的生物医学生成预训练 Transformer(Biomedical Generative Pre-trained Transformer,BiomedGPT)模型,该模型利用对大型和多样化数据集的自我监督,来接受多模态输入并执行一系列下游任务。
实验表明,BiomedGPT 提供了广泛且包容的生物医学数据表示,在五个不同的任务中优于大多数先前的最先进模型,其中包含 20 个公共数据集,涵盖超过 15 种独特的生物医学模式。该工作在开发统一和通用的生物医学模型方面向前迈出了重要一步,对改善医疗保健结果具有深远的影响。
该研究以「BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks」为题,于 2023 年 5 月 26 日发布在 arXiv 预印平台。
背景与挑战
生物医学基础模型的普遍范例是预训练然后微调。具体来说,模型首先在大规模数据集上进行预训练,然后在下游数据集上进行微调,促进知识从源域到目标域的迁移。与受标记数据可用性限制的监督预训练不同,无需明确人工标记即可从大量数据中学习的自我监督方法已获得广泛采用。
为了使多模态模型能够有效地理解图像和文本上下文,并准确推断它们之间的关联,研究人员通常使用图像文本匹配(Image-text matching)和掩码语言建模( Masked language modeling)目标对图像及其相应描述进行预训练视觉/文本嵌入器和跨模态模块。CLIP 架构及其底层的对比预训练旨在匹配成对的图像和字幕嵌入,同时将其他嵌入分开以提高表示可迁移性,也已应用于生物医学 AI,产生可接受的零样本性能。
然而,由于现有标记生物医学数据集的数量和模态有限,以前的工作主要集中在特定于任务/领域或特定于模态的应用程序,这大大限制了它们的实用性。考虑到疾病分类任务,国际疾病分类第十次修订版 (ICD-10) 目前涵盖了大约 69,832 个诊断代码,因此为每种疾病开发不同的模型是不切实际且不经济的。
此外,由于许多看似无关的疾病或症状并存并相互作用,因此这种专用的模型偏离了全面了解医疗保健情况的需求。研究人员通常从多任务处理和转移的角度来解决这个问题。然而,这些做法迫使可用数据集服从同质结构或重叠分布等不合实际的强假设。
BiomedGPT 一种统一的通用模型
最近的突破产生了一类新的统一和通用的 AI 模型,能够使用统一的架构和共享参数执行各种任务。这一显著进步在生物医学领域具有巨大潜力,因为它通过使用大规模的基于全局注意力的 Transformer 消除了对专业领域(归纳偏差)中特定模型的需求。
受 OFA 的启发,里海大学(Lehigh University)的研究人员提出了 BiomedGPT,这是一种统一的通用模型,旨在通过与面向任务的提示集成的直接序列化来处理各种类型的数据。具体来说,BiomedGPT 将来自不同输入类型的数据嵌入到一个通用的多模态词汇表中,该词汇表可应用于所有任务。该模型在预训练和微调阶段都使用统一的序列到序列抽象。
图示:BiomedGPT 在预训练和后续微调期间支持的各种任务概述。(来源:论文)
此外,研究人员将任务指令作为纯文本直接注入到输入中,从而避免了额外参数的需要。这种架构设计促进了高效的任务性能,提供了一个无缝的过程,无论数据模式或任务如何。该团队使用各类公开的生物医学数据集及其对应设计的任务对 BiomedGPT 进行预训练和微调。
通过综合实验,证明 BiomedGPT 可以有效地跨任务传递知识,甚至可以与在单域或单模态数据集上直接训练的专用模型竞争。这在视觉语言任务中尤为明显,例如图像字幕(image captioning)和视觉问答(visual question answering),BiomedGPT 在这些任务中实现了新的最先进 (SOTA) 性能。
图示:BiomedGPT 模型概述。(来源:论文)
主要发现
在这项研究中,研究人员已经证明 BiomedGPT 可以在跨越视觉、语言和多模态领域的各种任务中实现有竞争力的表现。这是通过在统一的 seq2seq 预训练框架中集成各种生物医学模态和任务来实现的。他们的综合实验和消融研究强调了在构建通用生物医学 AI 模型中整合各种任务和模式的必要性。值得注意的是,在预训练阶段包含尽可能多、尽可能广泛的生物医学任务和模式可显著提高微调效率并最终提高模型的整体性能。这种改进归因于这些不同因素之间的隐含相互作用。
图示:就准确性而言,VQA 任务的分布内(预训练过程中使用了slake和pathvqa)和分布间迁移性能。(来源:论文)
研究人员在研究中注意到一个有趣的观察结果:虽然 OFA (使用通用数据预训练的通用模型)在 VQA-RAD 数据上表现出令人印象深刻的零样本性能,但在微调阶段尝试对齐图像-文本对时遇到困难。这一观察结果说明,有效的零样本模型不一定转化为微调任务的优越起点。BiomedGPT 设法克服了与多模式、多任务预训练相关的这些限制。总之,通过扩展数据、任务和模型的规模,研究人员预计 BiomedGPT 的少样本和零样本推理能力将得到显著增强。
限制和建议
研究人员广泛的实验揭示了 BiomedGPT 的一些局限性。一个主要问题是模型对指令的敏感性。在某些情况下,模型无法理解指令并做出灾难性的预测,甚至生成不相关的输出。一个直接的解决方案可能是在预训练期间扩大高质量指令集的多样性。
此外,研究人员必须研究如何在预训练阶段平衡数据的多样性以获得更好的统一表征。这包括多个方面,例如在一个训练批次和整个预训练数据集中为不同生物医学模式中的数据建立合适的大小比率,以及确定具有不同模态数据的最佳输入顺序。另一个潜在途径是通过从人类或人工智能反馈 (RLF) 中强化学习,使 BiomedGPT 与人类意图保持一致,这是最新语言模型(如 ChatGPT 和 Claude)采用的一种策略。然而,鉴于对领域专家的广泛需求,创建特定的生物医学 RLF 数据集将非常昂贵。
另一个重大限制来自纯文本下游任务的两个特定输入:临床记录与日常语言文本、生物医学文本之间的巨大差异,以及纯视觉预训练的存在,这可能会阻碍模型在预训练期间从纯文本中提取模式。从所有领域生成具有代表性的词汇表并在预训练期间增加文本输入的比例,可能有助于解决这些问题。然而,这是一种平衡行为,因为它可能会影响与视觉相关的任务。
最后,在开发大规模通用生物医学模型时,我们需要优化训练速度和内存瓶颈。一个可以解决这个问题的新兴研究方向是参数高效微调 (PEFT),它可以微调少量(额外)模型参数,同时保持预训练模型的大部分参数不变。
结语
虽然存在诸多不足,BiomedGPT是迈向通用医学人工智能模型的第一步,并且在多个下游任务中取得了目前最优的性能,这揭示了通用模型在医学应用领域的潜力。未来,研究人员希望将医学中更有意义的任务(例如,分割、关系提取)和更多生物医学模态结合到 BiomedGPT 中,并努力理解通用表示能够有效工作的原因。
研究人员相信,通过利用通用生物医学模型的能力来分析复杂的数据,我们可以解锁丰富的见解并促进人们对人类健康和疾病背后的生物学机制的理解,为诊断、治疗和预防疾病的新可能性铺平道路。
团队介绍
BiomedGPT是由7个大学和工业届研究院为期一年的共同研究成果。参与的机构分别有里海大学,梅奥诊所 (Rank 1 Hospital),哈佛医学院 (Rank 1 Medical School),宾夕法尼亚大学,加州大学圣克鲁兹分校,中佛罗里达大学,三星研究院。
参与的学者横跨了计算机科学,生物统计,数据科学,医学等多个领域,例如美国ACMI院士、梅奥数据科学主任 Hongfang Liu,美国宾夕法尼亚大学教授、PennCIL主任 Yong Chen,美国哈佛大学医学院教授、CAMCA 主任 Quanzheng Li。
BiomedGPT是一个long-term的长期的公开项目,第二个版本已经在开发当中,期待一个越来越强大的通用性医学大语言+图片模型可以解决不同的医学难题和任务。
论文链接:https://arxiv.org/pdf/2305.17100.pdf