Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPT-4驱动的机器人化学家登Nature,自主设计反应并执行复杂实验

编辑 | X

基于 Transformer 的大语言模型(LLM)在自然语言处理、生物、化学和计算机编程等各个领域取得了重大进展。

但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说,人工智能方法并不那么容易理解。

近日,卡内基梅隆大学的研究团队找到了如何让人工智能系统自学化学的方法。提出了一种基于 GPT-4 的智能 Agent(以下简称 Coscientist),用一个简单的语言提示就可以执行整个实验过程。能够自主设计、规划和执行复杂的科学实验。

Coscientist 可以设计、编码和执行多种反应,在湿实验中使用其机器人设备制造包括扑热息痛和阿司匹林在内的化合物。

比如,科学家可以要求 Coscientist 找到具有给定性质的化合物。该系统搜索互联网、文档数据和其他可用资源,综合信息并选择使用机器人应用程序编程接口(API)的实验过程。然后将实验计划发送给自动化仪器并由其完成。总之,与系统一起工作的人可以比单独工作的人更快、更准确、更有效地设计和运行实验。

领导该研究的卡内基梅隆大学的化学家 Gabe Gomes 表示:「当我看到非有机智能能够自主计划、设计和执行人类发明的化学反应时,真是太棒了。那真是一个 holy crap 的时刻。」

研究人员表示:「我们预计,用于自主科学实验的智能代理系统将带来巨大的发现、不可预见的疗法和新材料。虽然我们无法预测这些发现会是什么,但我们希望看到一种新的方式,通过人与机器之间的协同合作来进行研究。」

该研究以《Autonomous chemical research with large language models》为题,于 2023 年 12 月 20 日发表在《Nature》上。


论文链接:https://www.nature.com/articles/s41586-023-06792-0

AI 的快速进步使得这些工具的应用在整个科学领域激增。但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说,人工智能方法并不那么容易理解——至少 Gomes 是这么认为的。

当 ChatGPT 背后的大语言模型 (LLM) 的最新版本(GPT-4)于 3 月份推出时,Gomes 和他的团队开始着手让它为化学家服务。

研究人员表示,该研究使用的所有 AI 系统都是 LLM,主要是 GPT-3.5 和 GPT-4,尽管其他一些系统(Claude 1.3 和 Falcon-40B-Instruct)也进行了测试。GPT-4 和 Claude 1.3 表现最好。但是,研究人员并没有使用单一系统来处理化学的各个方面,而是设置了不同的实例以分工设置进行合作,并将其称为「Coscientist」。

结果,Coscientist 使用最新的强大的 LLM(包括 GPT-4)来搜索化学文献,并设计一条反应途径,在人类的提示下制造分子。LLM 阅读互联网上的说明手册,并决定其库中最好的试剂盒和试剂,以在现实生活中制造该分子。

Coscientist 加速六种不同任务研究

Coscientist 展示了其加速六种不同任务研究的潜力,包括钯催化交叉偶联的成功反应优化,同时展示了(半)自主实验设计和执行的先进能力。研究结果证明了像 Coscientist 这样的 AI 系统在推进研究方面的多功能性、有效性和可解释性。

Coscientist 可以使用工具浏览互联网和相关文档、使用机器人实验应用程序编程接口 (API) 并利用其他 LLM 来完成各种任务。


图示:Coscientist 系统架构。(来源:论文)

研究人员在六项任务中展示了 Coscientist 的多功能性和性能:

(1)使用公开数据规划已知化合物的化学合成;

(2)有效地搜索和浏览大量的硬件文档;

(3)使用文档在云实验室中执行高级命令;

(4)用低级指令精确控制液体处理仪器;

(5)解决需要同时使用多个硬件模块和集成不同数据源的复杂科学任务;

(6)解决分析先前收集的实验数据的优化问题。

设计、编码、合成

该团队促使系统计划合成几种已知分子,包括止痛药扑热息痛和阿司匹林,以及有机分子硝基苯胺和酚酞。在规划阶段,Coscientist 能够制定出总体上能获得最佳反应产率的步骤。并正确地制造了分子。

为了演示网络搜索器模块的功能之一,研究设计了一个由七种要合成的化合物组成的测试集。


图示:Coscientist 在化学合成计划任务中的能力。(来源:论文)

基于 GPT-4 的 Web 搜索器显著改进了合成规划。对乙酰氨基酚、阿司匹林、硝基苯胺和酚酞的所有试验均达到最高分。

评估智能体推理能力的可能策略之一是测试它是否可以使用之前收集的数据来指导未来的行动。在此,研究人员重点关注 Pd 催化转化的多变量设计和优化,展示了 Coscientist 处理涉及数千个示例的现实实验活动的能力。研究目标是直接使用 Coscientist。

将 Coscientist 的化学推理能力测试设计为游戏,目标是最大化反应产率。使用标准化优势指标来评估 Coscientist 的表现。

图示:优化实验结果。(来源:论文)

标准化优势值随着时间的推移而增加,这表明该模型可以有效地重用获得的信息,以提供有关反应性的更具体的指导。

LLM 潜力巨大,但也要考虑风险

英国格拉斯哥大学(University of Glasgow)化学家 Lee Cronin 表示:「这很好地展示了如何使用 LLM 来探索文献,帮助提出可行的化学反应的想法。」

葡萄牙里斯本大学(University of Lisbon)药物化学家 Tiago Rodrigues 表示,「像 Coscientist 这样的工具可能会被更广泛地使用。我确实可以预见自动化硬件配备这些人工智能助手的未来。自动驾驶实验室是未来,需要人工智能工具来完全自动化设计-制造测试循环。」

现在这些系统可以完成日常任务,但 Rodrigues 补充说,大多数研究问题,特别是在药物发现方面,仍然遥不可及。「不仅需要对化学有很好的理解,还需要对生物学有很好的理解。」

「科学家可以做训练有素的化学家可以做的大部分事情。我经常思考这个问题,」Gomes 说。他的团队尚未免费提供其发明背后的完整代码,Gomes 表示,仔细考虑如何以及在哪里使用 Coscientist 和 ChemCrow 等技术是很重要的,因为某些应用程序可能存在危险。

参考内容:

https://arstechnica.com/science/2023/12/large-language-models-can-figure-out-how-to-do-chemistry/

https://www.nature.com/articles/d41586-023-03790-0

https://www.nature.com/articles/d41586-023-04073-4

https://techxplore.com/news/2023-12-artificially-intelligent-coscientist-automates-scientific.html

理论语言模型人工智能药物发现
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

智能代理技术

智能代理,或译为智能主体。在人工智能领域,智能代理是指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指一个软件程序。“智能代理”是目前人工智能研究的一个核心概念,统御和联系着各个子领域的研究。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~