XT作者

文献进,产物出!"AI化学家"颠覆传统化学研究过程,有望在制药行业激发变革性突破

一直以来,化学家在科研过程中需要面对十分复杂的物质体系和实验过程,常常为了一个实验结果要进行不计其数的实验。

近年来,自动化在化学领域的应用在一定程度上帮助化学家简化了繁复的实验研究,尤其是随着人工智能的发展,基于机器学习的 “AI化学家” 更是提升了实验的效率和准确性,在化学研究领域释放出更多红利。

如今,来自英国格拉斯哥大学(University of Glasgow)Cronin 实验室的化学家们在自动化化学合成领域取得了开拓性成果——他们开发了一个软件,可以将学术论文转化为可执行的程序,即实现了“文献进,产物出(Paper in, product out)”的过程,且研究人员无需学习代码就可以编辑。

相关工作以 “A universal system for digitization and automatic execution of the chemical synthesis literature” 为题,在线发表在顶级科学期刊《科学》(Science)上。
图 | Science 发表相关论文(来源:Science

“文献进,产物出” AI 化学家引领化学数字化发展

早在 2018 年底,Cronin 团队就研发了一个名为 “chemputer” 的化学计算机,该系统由试管、烧瓶、输送化学物质的管道、阀门和泵等传统化学实验器皿组成,通过系统上运行的一套由化学描述语言(XDL,其中 “X” 的发音是 “kai”,取自希腊语中化学的第一个字母)编写的程序,来控制化学分子的合成。去年,Cronin 团队展示了该计算机可以生产多个分子的能力。如今,他们利用机器编程的便捷方式,再次向化学数字化领域迈出了重要一步。

这项工作的核心在于化学描述语言。对于该计算机而言,化学描述语言就像 HTML 对于浏览器一样,它告诉机器该做什么。
图 | 用化学描述语言 XDL 编写程序(来源:The Cronin Group 官网)该系统创建了一个名为 SynthReader 的软件,它可以扫描经同行评审的文献中的化学配方,比如生产瑞德西韦的 6 个步骤,并使用自然语言处理来挑选出“添加”、“搅拌”或“加热”等动词、“逐滴式”等修饰符,以及持续时间和温度等一些其他细节,然后系统将这些指令转换为化学描述语言,通过执行语言命令来驱动化学机器人在实验室完成化合物的全自动合成。

近期刚被美国食品药品监督管理局(FDA)批准可用于治疗新冠住院患者的药物瑞德西韦试验就在这台 chemputer 上高速运行着。前几日,制造瑞德西韦药物的吉利德公司宣布,他们将在 10 月底前满足全球对于瑞德西韦的需求,由此可见其生产效率之高。

论文作者之一 Cronin 介绍,该框架的优势之在于化学家们可以用纯英文编辑化学方案,因此无需培训即可操作,还有至关重要的一点是,他们还可以利用化学专业知识来发现代码中的错误。

研究人员表示,他们从化学的相关文献中提取了 12 种示范配方,其中包括麻醉剂利多卡因、Dess-Martin 高碘烷氧化剂和氟化剂 AlkylFluor。经测试,所有这些配方都是由 chemputer 以类似于人类化学家的效率进行操作的。

Cronin 表示:“如果我们有标准的方法来发现分子、制造分子,然后生产化学物质,突然间没有什么东西会被淘汰,这就像化学的电子书阅读器。”

多年来,Cronin 一直梦想着未来研究人员可以像发送电子邮件和打印 PDF 文件一样,轻松地分发和生产分子,从而使无法订购药物变得像无法找到现代文本一样古老。

如今,越来越多的科研团队都在竞相将化学技术带入数字时代,Cronin 团队仅代表了跨越学术界和工业界的数十个小组之一,此次研究成果或将引领更安全的药物生产、更高效的太阳能电池板,以及更具颠覆性的新型产业。

化学机器人推动制药公司数字化转型


如今,Cronin 创立了一家名为 Chemify 的公司,来销售化学机器人 chemputer 和对应的 XDL 软件包,他也在网上免费发布了用于机器的搭建和编程的程序包。chemputer 已经在化学界取得了一定的进展,该团队于去年 5 月在制药公司葛兰素史克(GSK )安装了一台原型机。

葛兰素史克高级副总裁兼人工智能机器学习全球负责人 Kim Branson 博士表示:“chemputer 这一概念的产生,以及 Cronin 团队围绕化学机器人所做的工作的确具有很大的变革性。”
众所周知,葛兰素史克是一家以研发为基础的药品和保健品公司,其产品遍及全球市场。目前,该公司正在探索各种自动化技术,以提高生产效率。Branson 表示,Cronin 团队正在进行的这项研究工作,可能会让葛兰素史克在公司内部更加方便地“传输专业知识”。一旦化学家设计出了一个有前景的分子配方,他们就不用再去写报告或给同事讲解,而是直接一键 “分享” 配方。

研究人员表示,尽管 Chemify 不是最复杂的自动化化学平台,但它可能却是最易于访问的平台。它是基于烧杯和试管这些传统工具建立起来的,并在化学家们使用了几个世纪的 “批量” 模式中逐步发挥作用。

如今,Cronin 团队正在研究它的通用性(即与任何批处理化学机器人兼容),研究人员只需要告诉软件他们有哪些零件,并给它一些相应的温度等数字,就可以让机器运行。

AutoSyn 自动化学系统


此外,还有很多其他研究团体也在做一些打破传统化学领域认知的研究。

SRI International 公司 SRI Biosciences 部门的首席战略官 Nathan Collins 说:“与我们过去 200 年间所采用的的工作方式相比,大多数化学过程没有什么变化,都是一种纯手工的、靠工匠驱动的过程,这一领域还有数十亿美元的机会等待挖掘。”

今年 6 月,Collins 和他的同事们发表了一篇题为 “Fully Automated Chemical Synthesis: Toward the Universal Synthesizer” 的研究论文,描述了一种自动化多步化学合成仪 AutoSyn 进行药物合成的研究。
图 | AutoSyn的俯视图图 | AutoSyn流动化学平台中使用的单元操作模块(UOM)的顺序示意图
图 | 多步骤化学合成自动化
AutoSyn 平台使用一种“流动”化学的方法,来替代传统的物质混合方法。

以往,物质的混合首先需要将它们在一个烧杯中混合,然后再倒入另一个烧瓶,而 AutoSyn 平台的物质混合过程则是当化学物质流经管子的时候,在这个动态过程中实现连续的化学反应。

AutoSyn 平台具备 3000 多种合成途径,可在几小时内实现毫克级甚至是克级的任何药物小分子的合成,几乎可以复制所有类型的液体之间的反应。

Collins 说:“在流体中进行化学反应不仅需要专门的硬件,还需要一些额外的努力,才能从其批次说明中翻译化学程序,从而实现传热和混合等方面的‘精妙’控制。如果像 AutoSyn 这样的平台可以针对已公开的反应自动运行数百种细微的变化,那么它们生成的详细数据集可能会突出显示制造化学物质的最佳方法。”

这项工作可能是一个很好的起点,但许多已发表的实验都存在缺陷。据 Collins 估计,化学家们会花费 30%-70% 的时间来解决已知反应中遗漏的细节。“进行一个化学反应,是需要研究人员根据之前的实验记录,坐下来逐步操作的。” Collins 说。

尽管 AutoSyn 和 chemputer 都能复制如今大部分已发布的反应,但他们下一步需要让机器变得更可靠,就像 Cronin 所说的那样 “让 Apple 变得时髦”。

Collins 说,我们过去需要一名工程师来维持 AutoSyn 一半以上的运行,但现在所需的修复时间不到 10%。他希望,最终可能实现用户只通过电话就可以对系统进行故障排除。

Collins 表示:“这仍然是一门非常新的科学。过去 18 个月,它才开始真正爆发。”

Make-It

美国国防高级研究计划局(DARPA)在推动这一科学发展的过程中发挥了重要作用,DARPA 刚结束了一项为期 4 年的 Make-It 项目,该项目的重点研究领域包括自动化分子设计、自动合成(生产)和快速反应筛选,在全自动快速分子生产领域取得重大进展。chemputer 和 AutoSyn 都是它的原型。

在过去,化学家们辛辛苦苦地将原子精加工成新颖的分子结构,需要一个漫长的等待过程。Make-It 项目的经理 Anne Fischer 的一个长期目标就是加快发现有用分子的过程,她说:“制造和测试分子始终是一个缓慢的步骤。”

但现在,Make-It 已经生产了 chemputer、AutoSyn 等制造分子的机器人工具,Fischer 正在指导一个新的 DARPA 项目“加速分子发现(Accelerated Molecular Discovery)”,该项目着眼于开发更智能的软件,来告诉机器人要制造什么分子,以及如何制造。

Fischer 说:“我们现在正在尝试扩展 Make-It 项目所做的工作,这样我们就可以逐步教计算机去发现新的分子。”

许多人认为,我们实现这一过程的秘密武器是机器学习,其实一些能够进行初级化学学习的机器还在研发中。

自动流动化学系统的持续改进

麻省理工学院的化学家 Connor Coley 所在的团队去年将自动流动化学系统融合了一种算法,以对其进行指导。该算法在数十万个反应的数据库上进行了训练,能够预测新产品的配方。Coley 说:“基于这些模式,该系统试图了解什么样的转化方式应该适用于从未见过的新分子合成”。

Coley 还强调,该系统还有很长的路要走。它是基于相似的分子进行预测,而人类化学家还需要补充机器生成的轮廓中所缺失的细节。尽管如此,这项工作还是支持了软件可以提出有用配方的概念。

麻省理工学院正在与十多家化学和制药公司合作,以改进其分子预测算法,并且一些公司已经将该软件投入使用。默克公司(Merck)计算和结构化学助理副总裁 Juan Alvarez 表示,Coley 的机器学习算法是该公司向其内部研究人员提供的多种化学预测工具之一。他说:“它的部署绝对会影响我们今天的时间表。”
虽然每个研究团队都从不同角度探究自动化,但他们都在解决同一个问题。存在着近乎无限多种的分子,其中某些必定是可以拯救生命的药物,或者是一些革命性的新材料,但很少有人拥有这方面的专业技能,来对这些化合物进行分析、制造和测试。

而这些化学自动化研究团队的目标就是避免浪费那些稀有技能

在某些方面,化学家的工作仍然类似于抄写员的工作,他们曾经费尽心思地复制和修正他人的著作。像 Cronin 这样的研究人员,就是希望借助相当于印刷机、文字处理器和自动更正机的化学制剂在手,未来的化学家们将花费更少的时间进行重复创作,转而花费更多的时间进行新的创作。

Fischer 说:“这不是要取代化学家,而是要给化学家提供工具,让他们成为有创造力的高级思考者。”

参考资料:
[1] Mehr, S., Craven, M., Leonov, A., Keenan, G. and Cronin, L., 2020. A universal system for digitization and automatic execution of the chemical synthesis literature. Science. <https://doi.org/10.1126/science.abc2986>
[2] Charlie Wood, 2020. Scientists make digital breakthrough in chemistry that could revolutionize the drug industry. CNBC. <https://www.cnbc.com/2020/10/24/how-a-digital-breakthrough-could-revolutionize-drug-industry.html>
AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业机器学习自动化化学
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

自动化技术技术

自动化技术是一门综合性技术,它和控制论、信息论、系统工程、计算机技术、电子学、液压气压技术、自动控制等都有着十分密切的关系,而其中又以“控制理论”和“计算机技术”对自动化技术的影响最大。一些过程已经被完全自动化。

葛兰素史克机构

葛兰素史克(GSK),以研发为基础的药品和保健品公司,年产药品40亿盒,产品遍及全球市场。葛兰素史克由葛兰素威康和史克必成合并而成,葛兰素史克公司在抗感染、中枢神经系统、呼吸和胃肠道/代谢四大医疗领域代表当今世界的最高水平,在疫苗领域和抗肿瘤药物方面也雄居行业榜首。

https://www.gsk-china.com/zh-cn/about-us/
暂无评论
暂无评论~