Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞作者

机器学习辅助分子晶体特性预测,新材料发现可走「捷径」

长期以来,化学家的目标是想象新分子的化学结构,并能够预测它在所需应用中的作用。然而,在实践中,这个愿景很难实现,通常需要大量的实验室工作来合成、分离、纯化和表征新设计的分子,以获得所需信息。
最近,劳伦斯·利弗莫尔国家实验室(LLNL)的研究团队通过创建机器学习(ML)模型,可以仅从分子的化学结构(如分子密度)预测分子的晶体特性,从而实现了这一愿景。预测晶体结构描述符(而不是整个晶体结构)提供了一种推断材料特性的有效方法,从而加快了材料的设计和发现。
该研究于4.26以题为「Predicting Energetics Materials’ Crystalline Density from Chemical Structure by Machine Learning」发表在《化学信息与建模杂志》(Journal of Chemical Information and Modeling)上。
图片
新分子化合物的发现是一个劳动密集型且成本高昂的「爱迪生式」过程。几十年来,人们一直希望能够仅从化学结构和合成之前预测分子化合物的整体结晶特性,以减少新化合物的开发时间。然而,这个目标仍难以实现。
此前,虽然有多种 ML 方法可用于预测分子级特性,包括能级和亲脂性,但使用 ML 方法来预测分子化合物的结晶特性的探索较少。
ML 模型精度高、速度快
现在,研究人员证明了ML方法可用于直接学习分子化合物的化学结构与晶体特性之间的关系,并在没有晶体结构信息的情况下进行预测。
图片研究新分子化合物的典型过程和劳动力示意图(蓝色箭头)
绿色突出显示的是机器学习可以加速新分子开发的各种可能的捷径
该研究集中在预测一类称为高能炸药 (high explosives,HE) 的高能材料的晶体密度上,因为分子 HE 的密度与爆速直接相关,这是评估分子 HE 候选物时的重要性能指标。此外,新 HE 的开发和测试是特别危险的工作,如果及早确定优先级并将待合成和研究的样品最小化,将特别受益。
图片ML 模型框架
目前获得密度近似值的最佳方法是通过基于量子力学的密度泛函理论 (DFT) 计算。然而,迄今为止发表的方法仍然没有提供准确的预测。
「与之前基于 ML 的方法相比,我们最杰出的 ML 模型之一能够更准确地预测高能和类高能分子的晶体密度。」LLNL 应用数学家、论文的共同第一作者 Phan Nguyen 说 。
LLNL计算机科学家、共同第一作者Donald Loveland表示:「与 DFT 相比,ML 模型在计算精度上更具竞争力,同时所需的计算时间也很短。」
MPNN 模型性能最佳
使用已发表的晶体密度 HE 相关数据集和几种密度回归模型:随机森林(RF)、偏最小二乘回归(PSLR)、消息传播神经网络 (MPNN)和支持向量回归(SVR),评估了各种特征组合和方法的拟合优度,以预测剑桥结构数据库(Cambridge Structural Database,CSD) 中 HE 相关分子的密度。
图片预测密度与真实密度

研究表明,使用带有 RF、PLSR 和 MPNN 的 RDKit 的方法比基线 E3FP/SVR 方法的性能更好,并产生接近真实密度值的密度预测。基于消息传播神经网络 (MPNN) 的模型的性能表现最佳,其R2值为 0.914,在预测结晶密度方面优于当前最先进的方法。尽管像 MPNN 这样的基于神经网络的方法有其自身的缺点(即它们的计算成本高,模型复杂性阻碍了人类的可解释性),但当适当的手工特征尚未开发或识别时,此类方法可能特别适用。

加速新材料发现和优化
LLNL 的高爆应用设施 (HEAF) 的成员已经开始利用该模型的网络界面,旨在发现新的不敏感的高能材料。通过简单地输入分子的 2D 化学结构,HEAF 化学家能够快速确定这些分子的预测结晶密度,这与潜在的能量性能指标密切相关。
「我们很高兴看到我们的工作成果应用于实验室的重要任务。这项工作必将有助于加速新材料的发现和优化,」LLNL 材料科学家、该项目首席研究员 Yong Han 说。
材料科学部门的后续工作将 ML 模型与生成模型结合使用,快速有效地搜索大型化学空间,以寻找高密度候选物。
该团队将继续寻找实验室感兴趣的新特性,其愿景是为材料科学家提供一套用于研究的预测模型。

论文链接:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01318

参考内容:https://phys.org/news/2021-06-machine-aids-materials.html

理论新材料发现分子晶体机器学习
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

推荐文章
暂无评论
暂无评论~