编辑 | 萝卜皮
开源、多语言医学语言模型的开发可使来自不同地区的广泛、语言多样化的受众受益。
为了推动这一领域的发展,上海交通大学的研究团队构建了一个多语言医学语料库,包含约 255 亿个 token,涵盖 6 种主要语言,称为 MMedC,可实现一般 LLM 的自回归领域自适应。
同时,为了监测多语言医学 LLM 的发展,研究人员还提出了一个具有合理性的多语言医学多项选择题答疑基准,称为 MMedBench。
并且,团队在基准上评估了许多开源大型语言模型(LLM),以及在 MMedC 上进一步进行自回归训练的模型。
他们的最终模型 MMed-Llama 3 仅有 8B 个参数,在 MMedBench 和英语基准上都比所有其他开源模型取得了优异的性能,甚至可以与 GPT-4 相媲美。
该研究以「Towards building multilingual language model for medicine」为题,于 2024 年 9 月 27 日发布在《Nature Communications》。
在近期的文献中,大型语言模型(LLM)在医疗保健领域表现出巨大的前景,例如,GPT-4 和 MedPalm-2 等闭源模型表现出色,并成功通过了美国医师执照考试(USMLE)。
同时,Llama 2 等开源模型也促进了 MEDITRON、PMC-LLaMA、MedAlpaca 和 ChatDoctors 等医学专用语言模型的发展,逐渐缩小了与闭源同行的性能差距。
虽然取得了些许进步,但这些复杂的医学语言模型主要侧重于英语应用,限制了它们的潜在影响力,使其无法惠及更广泛、语言多样化的受众。
一个大规模多语言医学语料库
在最新的研究中,上海交通大学的研究团队开发了一个大规模多语言医学语料库 (MMedC),收集了六种主要语言(英语、中文、日语、法语、俄语和西班牙语)中超过 255 亿个与医学相关的 token。
这个多样化的数据集来自四个不同的来源:
(i)研究人员设计了一条自动化管线,从广泛的多语言语料库中筛选出与医学相关的内容,确保数据集的重点和相关性;
(ii)该团队整理了大量各种语言的医学教科书,并通过精心设计的预处理将它们转换成文本,例如光学字符识别 (OCR)、启发式数据过滤等;
(iii)为了保证医学知识的广泛涵盖,研究人员整合了一些开源医学网站的文本,以权威、全面的医学信息丰富他们的语料库;
(iv)还整合了许多现有的小型医学语料库数据集,进一步增强了语料库的广度和深度。
研究人员表示,MMedC 是第一个专门针对多语言医学领域构建语料库的尝试。
一套新基准
至于新基准,该团队首先汇总 MMedC 上现有的六种语言的医学多项选择题 QA 数据集。研究人员使用 GPT-4 进一步增强这些数据集的合理性内容,通过支持正确答案的解释来丰富数据集。
这些数据集涵盖了六种语言的 53,566 个 QA 对,独特地同时提供多项选择题 QA 和伴随的合理性推理。这个广泛的集合涵盖了 21 个医学领域,包括但不限于内科、生物化学、药理学和精神病学等,称为多语言医学基准 (MMedBench)。
图示:MMedBench 上的统计结果。(来源:论文)
研究人员将其分为 45,048 个训练对和 8518 个测试对。训练拆分使得在特定领域持续训练后可以对 LLM 进行微调。他们利用包含 8518 个 QA 对的整个测试集来评估多项选择题回答的准确性。
为了进一步检验模型的推理能力,研究人员选择了 1136 个 QA 对的子集,每个 QA 对都附有手动验证的合理句子,作为更专业的推理评估基准。
全面的基准测试
在评估阶段,研究人员对 11 个现有的具有多语言支持的 LLM 进行了全面的基准测试,包括 GPT-3.5、GPT-4、Gemini-1.0 pro、BLOOM、InternLM、InternLM 2、MedAlpaca、ChatDoctor、PMC-LLaMA、Mistral、BioMistral、MEDITRON、Llama 2 和 Llama 3,以及使用 MMedC 进一步训练的 LLM。
这些模型在三种不同的设置下进行了评估:零样本、参数高效微调 (PEFT) 和完全微调。
鉴于评估理论质量的复杂性(需要评估长句的语义完整性),除了利用主流的自动化指标外,该团队还在分析中加入了人工评分。
这种双重方法不仅可以全面衡量每个模型的性能,还使他们能够仔细研究自动化指标与人类判断之间的相关性。通过这种分析,研究人员可以确定最可靠的指标以进行扩展比较,从而丰富评估大型语言模型推理能力的方法。
优化措施都是有效的
图示:模型评级的比较分析。(来源:论文)
首先,MMedC 的自回归训练是有效的。结果显示,所有 MMedLM、MMedLM 2 和 MMed-Llama 3 都比其原始基线模型(即 InternLM、InternLM 2 和 Llama 3)有显著的改进,凸显了 MMedC 在提供有针对性的特定领域知识方面的有效性。
此外,观察到的性能提升表明,现有 LLM 的预训练语料库在面对多语言医学背景时存在局限性。该研究结果强调了 MMedC 等专业语料库弥补这些差距的必要性。
其次,纳入更多数据通常是有效的。在探索不同数据源如何影响语言模型性能结果时,纳入高质量的多语言数据 (HQ-Data) 可以显著提高性能。
此外,研究人员观察到,即便与更明确的医学相关来源相比,从一般语言语料库中过滤的数据质量相对较低,但整合这些数据也是有效的。这一改进凸显了在 MMedC 中整合各种数据类型的价值。
第三,将理论融入微调是有效的。在 MMedBench(训练集)上进行微调时,将理论数据与多项选择预测相结合可以提高特定任务的性能。在监督微调阶段将正确答案与其理由结合起来,不仅能让 LLM 输出理由句子,而且在 MMedBench(测试集)上的多项选择题准确率也显著提高:InternLM 提高了 2.33%,InternLM 2 提高了 2.42%,Llama 3 提高了 4.07%。
第四,强大的基础 LLM 可以提高最终结果。在 MMedBench 上,研究人员注意到更强大的 LLM 主体通常会提高多语言医疗问答的最终结果。随着更高级的 LLM 发布,它们的预训练语料库已大大扩展,逐渐涵盖更多语言。
尽管非英语语言只占总数的一小部分,但整体语料库的庞大数量使模型能够在训练期间遇到大量的多语言文本,从而显著增强了它们的多语言能力,从 Llama 2、Mistral 和 Llama 3 之间的比较可以看出,后者的模型表现都比前者好得多。
这种通用多语言能力的增强也可以提高医学领域适应后的表现(MMedLM vs. MMedLM 2 vs. MMed-Llama 3)。这一观察结果表明,研究人员应该更加注重建立医学开源数据集,以便未来的工作能够更好地利用通用 LLM 的快速改进。
图示:整体概述。(来源:论文)
潜在意义
该研究促进了通用医学人工智能 (GMAI) 的发展。GMAI 致力于开发一种多模态人工智能模型,可直接应用于广泛的医疗保健场景,其中 LLM 通常用作人机界面。
用多语言的 LLM 取代以英语为中心的 LLM 可以充分利用全球数据源,从而扩展可用的多模态训练数据,并提高其他模态的表示质量。
改进检索增强生成。幻觉被认为是现有 LLM 的一个主要问题,尤其是在医学领域。一个潜在的解决方案是开发检索增强架构。
主要动机是,通过从额外的知识库中检索事实,LLM 生成的输出可以避免大多数致命的事实错误。然而,到目前为止,大多数研究都是用英语进行的,这极大地限制了检索增强方法利用其他语言的医学知识。开发多语言 LLM 可以有益于检索过程,极大地丰富潜在的可用知识库。
对临床的影响
消除语言障碍。在许多医疗保健系统中,患者和医疗服务提供者之间的语言障碍会阻碍有效沟通,导致误解、误诊和护理不足,导致大多数人无法获得高质量的医疗资源。多语言医学 LLM 可以促进实时翻译和口译,确保患者能够有效地传达他们的症状并了解他们的诊断和治疗方案。
降低文化和法律敏感性。多语言医学 LLM 还可以接受训练,以识别和解决医疗保健互动中不同国家的文化或法律细微差别和敏感性。了解文化背景和法律差异可以大大增强对医学 LLM 的信任,从而带来更好的健康结果。
帮助医学教育。这些模型还可以针对教育进行定制,特别是在缺乏医学教育者或资源的地区。通过提供多种语言的教育材料和模拟,医学多语言 LLM 可以帮助标准化医学训练并确保全球一致的护理质量。
论文链接:https://www.nature.com/articles/s41467-024-52417-z