Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

无需3D结构、精度大大提高,基于Transformer的金属有机框架属性预测语言模型MOFormer

图片
MOF 示意图。(来源:phys.org) 

编辑 | 紫罗

金属有机框架(MOF)是具有高比表面积、高孔隙率和结构可设计的结晶性多孔材料,可用于气体吸附、气体储存、气体分离、催化剂等领域。

然而,MOF 的化学空间非常巨大。发现适合特定应用的最佳 MOF 需要对无数潜在候选材料进行高效、准确的搜索。快速且低成本地为特定任务选择性能最佳的 MOF 一直具有挑战性。使用 DFT 等计算模拟的高通量筛选方法可能非常耗时,且需要 MOF 的 3D 原子结构。

近日,来自卡内基梅隆大学(CMU)的研究团队提出了一种基于 Transformer 模型的与结构无关的深度学习方法,称为 MOFormer,用于 MOF 的属性预测。MOFormer 将 MOF (MOFid) 的文本字符串表示形式作为输入,从而避免了获取假设 MOF 的 3D 结构的需要,并加速了筛选过程。

与领先模型相比,MOFormer 在所有基准上预测精度最佳,且无需明确依赖 3D 原子结构。MOFormer 为使用深度学习进行高效 MOF 属性预测提供了一个新的视角。

该研究以「MOFormer: Self-Supervised Transformer Model for Metal–Organic Framework Property Prediction」为题,发布在《Journal of the American Chemical Society》上。

图片

论文链接:https://pubs.acs.org/doi/10.1021/jacs.2c11420

鉴于可能的 MOF 结构种类繁多,为每个特定任务快速而廉价地选择潜在的最佳表现者可能具有挑战性。

近年来,机器学习(ML)模型越来越多地用于 MOF 性能预测。ML 模型相对于模拟方法的优势在于它们可以即时推断 MOF 的特性。相比之下,模拟方法需要对每个新的 MOF 重新运行,计算成本昂贵。

有研究者利用晶体图卷积神经网络(CGCNN)来预测 MOF 的甲烷吸附。然而,在使用基于结构的 CGCNN 模型时,获得 MOF 的 3D 结构是必要的。此外,一些大型 MOF 结构由数百甚至数千个原子组成,因此导致它们的晶体图内存效率低下。

「我们认识到,依赖 MOF 的 3D 结构会导致额外的成本。为了解决这个问题,我们使用 MOFids 来做出准确的预测,」CMU 机械工程教授 Amir Barati Farimani 研究小组的博士生 Yuyang Wang 解释说。

MOFid 是 MOF 构建块(金属节点、有机连接体和拓扑的组合)的文本字符串表示形式,使机器学习模型能够输出属性预测。但由于这些构建模块有无数种组合,因此寻找最佳 MOF 非常复杂。

基于此,研究人员提出并开发了一种基于 Transformer 的 MOF 属性预测语言模型——MOFormer。MOFormer 采用修改后的 MOFid 作为输入来预测各种 MOF 属性。这种方法的优点是它不需要 MOF 的 3D 原子结构(结构不可知),从而能够更快、更灵活地探索假设的 MOF 空间。

MOFormer:基于 Transformer 的 MOF 属性预测语言模型

MOFormer 是建立在 Transformer 模型的编码器部分之上的,该模型将标记化的 MOFid 作为输入。MOFid 标记器(tokenizer)是 SMILES 标记器的定制版本。MOFid 的所有二级构建单元(SBU)的 SMILES 字符串由 SMILES 标记器进行标记,而 MOFid 的拓扑和 catenation 部分基于 RCSR 采用的拓扑编码分别标记。

然后,两个部分的标记通过分隔标记「&&」连接。标记化过程遵循 BERT,在序列的开头和结尾添加 [CLS] 标记和 [SEP] 标记,分别表示开始和结束。由于标记化的序列符合 512 的固定长度,因此长于固定长度的序列将被截断,而短于该固定长度的序列将用特殊标记 [PAD] 填充。QMOF 数据集中没有一个 MOFid 的长度超过 512 个 token,而 hMOF 数据集中的 102858 个 MOFid 中只有 385 个(约 0.37%)在标记化后长度大于 512。

图片

图示:(a) MOFormer 模型的流程。(b) 显示每个 Transformer 编码器层细节的示意图。(c) CGCNN 和 MOFormer 的自监督学习框架。(来源:论文)

三个公共 MOF 数据集,包括 CORE MOF 2019、假设的 MOF (hMOF) 和 Boyd&Woo 相结合,为 SSL 预训练创建一个大型数据集。

使用 CGCNN 进行自监督预训练。研究人员引入了用于 MOF 表示学习的自监督学习(SSL)范例。设计框架时考虑了两种数据模式,包括文本和图形信息。

最后,在使用 SSL 对模型进行预训练后,编码器权重在微调阶段共享。为了进行微调,使用预训练权重初始化模型,并对模型进行 200 个 epoch 训练以生成最终预测。MOFormer 和 CGCNN 模型分别进行微调。观察到,使用 SSL 预训练框架可以在所有数据集上一致地提高 CGCNN和 MOFormer 的结果。

预测精度大大提高

与其他结构不可知的方法 Stoichiometric-120 和 RAC 相比,MOFormer 在带隙预测上的精度分别提高了 21.4% 和 16.9%,在各种气体吸附预测任务上的精度分别提高了 35-48% 和 25-42%。MOFormer 在带隙预测方面甚至在训练数据较少的情况下优于基于结构的 SOAP 方法。

表 1:不同模型对 QMOF 数据集带隙预测的基准性能。(来源:论文)
图片
表 2:hMOF 数据集气体吸附预测的不同模型的基准性能。(来源:论文)
图片

进一步表明,对于带隙和气体吸附预测,预训练使 MOFormer 的准确度平均提高了 5.34% 和 4.3%,CGCNN 的准确度平均提高了 6.79% 和 16.5%。与 SOAP 和 Stoichiometric-120 相比,MOFormer 和 CGCNN 不太可能过度预测 MOF 的带隙,这使得它们成为能源应用中预筛选导电 MOF 的更好选择。

图片

图示:MOFormer 和 CGCNN 在 QMOF 中的卓越性能。(来源:论文)

当用于 MOF 的气体吸附预测时,由于标记与 MOF 结构之间的强相关性,与 CGCNN 相比,MOFormer 更依赖于拓扑信息。

最后 MOFormer 层中注意力权重的可视化表明,MOFormer 中的注意力层更多地关注几个重要的原子和拓扑,以学习 MOF 的表示。

图片

图示:最后 MOFormer 层不同头中的标记(qmof-ba40858 的 MOFid)之间的注意力热图。(来源:论文)

最后,当训练集大小≤1000 时,MOFormer 在带隙预测方面比 CGCNN 具有更高的数据效率。作为结构不可知模型,MOFormer 可以使用任意构造的 MOFid 作为输入,快速准确地推断 MOF 的性质。

共同作者 Rishikesh Magar 说:「我们期望 MOFormer 能够加快 MOF 的探索,它可以作为探索假设的 MOF 广阔化学空间的工具。」

数据 GitHub 地址:https://github.com/zcao0420/MOFormer

参考内容:https://phys.org/news/2023-07-metal-organic-frameworks-problems-self-supervised-property.html

产业
暂无评论
暂无评论~