Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

编辑 | X
语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。

近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研究团队开发了 BioMistral,一个专为生物医学领域量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上进行了进一步的预训练。

研究人员根据由 10 项既定的英语医学问答 (QA) 任务组成的基准对 BioMistral 进行了全面评估。还探索通过量化和模型合并方法获得的轻量级模型。

结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能,并且与专有模型相比具有竞争优势。

最后,为了解决英语以外的数据有限的问题,并评估医学 LLM 的多语言泛化能力,自动将该基准翻译和评估为 7 种其他语言。这标志着医学领域 LLM 的首次大规模多语言评估。

相关研究以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题,发布在预印平台 arXiv 上。

图片

论文链接:https://arxiv.org/abs/2402.10373

研究人员将实验中获得的数据集、多语言评估基准、脚本和所有模型都免费发布。

图片

开源地址:https://huggingface.co/BioMistral/BioMistral-7B

BLOOM 和 LLaMA 等开源 LLM,促进了其在医学等专业领域的创新使用。

然而,将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。

开源医疗模型的采用受到限制,主要是由于缺乏允许商业使用,且性能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距,需要开发基于开源基础模型的专用模型,例如 GPT-Neo、LLaMa 2 或 Mistra,并在保持性能的同时优化它们,以便在消费级设备上使用。

在此,研究团队提出了 BioMistral 7B,这是一种专为生物医学领域量身定制的专业 LLM,源自 Mistral 7B Instruct v0.1,并在 PubMed Central 上进一步进行了预训练。

研究贡献包括:

  • BioMistral 7B 的构建,这是生物医学领域第一个基于 Mistral 的开源模型,包括对不同评估策略的分析,例如少样本上下文学习和监督微调。

  • 一项原创研究,引入了 10 项英语医学问答 (QA) 任务的基准,自动翻译成其他 7 种语言(西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文),促进对现有最先进的开源医学 LLM 的评估,并揭示了其在不同语言背景下的多语言潜力和稳健性。

  • 对模型在多语言环境下的真实性和校准性进行大量深入的定量分析。

  • 对通过各种有效量化方法导出的一套轻量级模型进行严格评估。

  • 探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型合并技术,允许利用专业和通用 LLM 的常识推理技能。

BioMistral 7B 结合了量化和合并的模型变体,与其他开源 7B 模型相比,在多语言医学评估基准上展示了最先进的性能。

图片

图 1:3 次情境学习的性能。分数代表准确性 (↑),并且是 3 个随机种子的平均值。BioMistral 7B Ensemble、DARE、TIES 和 SLERP 是结合了 BioMistral 7B 和 Mistral 7B Instruct 的模型合并策略。最佳模型用粗体显示,次佳模型用下划线显示。(来源:论文)

图片

图 2:BioMistral 7B 模型与基线相比的监督微调 (SFT) 性能。*GPT-3.5 Turbo 性能是根据图 1 中的几次测试结果报告的。(来源:论文)

图片

图 3:量化 BioMistral 7B 在 3-shot 场景中的性能。最后一列表示相对于原始模型的平均性能增益/损失。(来源:论文)

研究人员表示:「我们未来的研究旨在通过人工评估来评估 BioMistral 7B 的生成质量。此外,我们计划在前人进行的实验的基础上,使用监督微调和直接偏好优化技术来增强其多语言和聊天功能。最后,我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」

理论基准语言模型
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~