Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

测试大语言模型的生物推理能力,GPT-4、PaLM2等均在测试之列

编辑 | 萝卜皮

大型语言模型(LLM)的最新进展,为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。

在最新的研究中,佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物学问题的能力。

这些模型在包含 108 个问题的多项选择考试中进行了测试,涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中,GPT-4 获得了 90 分的最高平均分,并且在不同提示的试验中表现出最大的一致性。

结果表明,GPT-4 具有逻辑推理能力,并且具有通过数据分析、假设生成和知识整合等功能帮助生物学研究的潜力。但是在 LLM 加速生物发现方面,仍需要进一步的开发和验证。

该研究以「Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions」为题,于 2023 年 11 月 5 日发布在 arXiv预印平台。


大型语言模型 (LLM) 是先进的深度学习算法,可以处理书面或口头提示并生成响应这些提示的文本。这些模型最近变得越来越流行,现在正在帮助许多用户创建长文档的摘要、获得品牌名称的灵感、找到简单查询的快速答案以及生成各种其他类型的文本。

佐治亚大学和梅奥诊所的研究人员评估了不同 LLM 的生物学知识和推理能力。

「我们最近发表的文章证明了人工智能对生物研究的重大影响。」该论文的合著者 Zhengliang Liu 表示,「这项研究诞生于 LLM 的快速采用和发展,特别是在 2022 年 11 月 ChatGPT 引人注目推出之后。这些进步被视为迈向通用人工智能(AGI)的关键一步,标志着生物学领域从传统生物技术方法向以人工智能为中心的方法论的转变。」

在最近的研究中,该团队着手更好地了解 LLM 作为进行生物学研究的工具的潜在价值。虽然过去的许多研究强调这些模型在广泛领域的实用性,但它们推理生物数据和概念的能力尚未得到深入评估。

「本文的主要目标是评估和比较领先的 LLM(例如 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)理解和推理生物学相关问题的能力。」Liu 说,「这是通过包含 108 个问题的多项选择考试进行的仔细评估,涵盖分子生物学、生物技术、代谢工程和合成生物学等不同领域。」


图示:五个 LLM 在生物测试中的总体表现。(来源:论文)

Liu 团队计划确定当今一些主流的 LLM 如何处理和分析生物信息,同时评估它们产生相关生物学假设和解决生物学相关逻辑推理任务的能力。研究人员使用多项选择测试比较了五种不同 LLM 的表现。

「多项选择测试通常用于评估 LLM ,因为测试结果可以轻松评分/评估/比较。」该论文的合著者 Jason Holmes 解释道,「对于这项研究,生物学专家设计了包含几个子类别的 108 个问题多项选择测试。」

研究人员向 LLM 询问了他们编制的测试中的每个问题五次。然而,每次有人问问题时,他们都会改变措辞方式。

「对每个 LLM 多次询问同一问题的目的是确定平均表现和答案的平均变化。」Holmes 解释道,「我们改变了措辞,以免意外地将我们的结果基于导致性能变化的最佳或次优指令措辞。这种方法还让我们了解在现实世界的使用中性能会如何变化,用户不会以同样的方式提出问题。」

研究人员进行的测试收集了不同 LLM 在协助生物学研究人员方面的潜在效用的见解。总体而言,他们的结果表明 LLM 对各种生物学相关问题反应良好,同时也能准确地关联植根于基础分子生物学、常见分子生物学、代谢工程和合成生物学的概念。


图示:按类别划分测试中五个 LLM 的表现。(来源:论文)

「值得注意的是,GPT-4 在接受检查的 LLM 中表现出了卓越的性能,在使用不同提示的五项试验中,我们的多项选择测试平均得分为 90 分。」该论文的合著者 Xinyu Gong 说,「除了获得总体最高测试分数之外,GPT-4 在整个试验中还表现出极大的一致性,突显了其与同行模型相比在生物学推理方面的可靠性。这些发现强调了 GPT-4 协助生物学研究和教育的巨大能力。」

该研究团队最近的研究可能很快会激发更多的工作,进一步探索 LLM 在生物学领域的可用性。迄今为止收集的结果表明,LLM 可以成为研究和教育的有用工具,例如支持学生的生物学辅导、创建交互式学习工具以及创建可测试的生物学假设。

「本质上,我们的论文代表了将先进人工智能(尤其是 LLM)的能力与复杂且快速发展的生物学领域相融合的开创性努力。」Liu 说,「它标志着生物学研究的新篇章,将人工智能不仅定位为支持工具,而且定位为导航和破译广阔而复杂的生物景观的核心要素。」

LLM 的未来发展及其对生物数据的进一步训练,可以为重要的科学发现铺平道路,同时也可以创建更先进的教育工具。该团队现在正计划在这一领域进行进一步的研究。

在接下来的工作中,他们首先计划制定策略来克服与使用 GPT-4(支撑 ChatGPT 的 LLM )相关的计算需求和隐私相关问题。这可以通过开发开源 LLM 来自动化基因注释和表型-基因型配对等任务来实现。

「我们将利用 GPT-4 的知识蒸馏,创建指令跟踪数据来微调 LLaMA 基础模型等本地模型。」该论文的合著者 Zihao Wu 说。

「该战略将利用 GPT-4 的功能,同时解决隐私和成本问题,使生物学界更容易使用先进的工具。此外,借助 GPT-4V 的视觉功能,我们将把研究扩展到多模式分析,重点关注天然药物分子,例如抗癌剂或疫苗佐剂,特别是那些生物合成途径未知的分子。」

「我们将研究它们的化学和生物合成途径以及潜在应用。GPT-4V 识别分子结构的能力将增强我们对复杂多模式数据的分析,促进我们对合成生物学药物发现和开发的理解和应用。」

论文链接:https://arxiv.org/abs/2311.07582

相关报道:https://techxplore.com/news/2023-12-biological-capabilities-large-language.html

产业GPT-4人工智能语言模型
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~