Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GNN+领域知识,川大提出高普适性共晶筛选模型(代码开源)

作者 | 江源远

编辑 | 萝卜皮&闻菲

指导老师 | 蒲雪梅

共晶工程已经成为制药、有机功能材料以及含能材料等领域中改善性能的有效手段,实验往往是通过大量的试错尝试来确定合适的共晶对,实现对共晶的合成,导致实验成本和时间消耗大,因此迫切需要能提升共晶合成效率的技术。

人工智能技术的深度学习方法具有挖掘复杂关系的强大能力,并且相对于传统的机器学习可以避免特征工程;然而深度学习需要大数据的支撑,而真实世界面临的数据常常是有限的,尤其是化学和材料领域,并且数据多是不均衡的分布,比如正样本多而负样本缺乏。有限且不均衡的样本数据对深度学习的应用是一种挑战,一直被认为是一个困难的任务。

针对这样的挑战,四川大学化学学院/化学与生物信息学实验室蒲雪梅教授团队从数据集、样本表征和模型构建三方面着手,开发了一种准确度高普适性强的基于图神经网络框架共晶筛选模型 CCGNet (Co-crystal Graph Net)。

该模型基于全部来自于实验的正负样本数据集,在图神经网络的 end-to-end 的自我学习中嵌入共晶形成的先验知识,并结合了数据增强、注意力机制、集成学习和迁移学习的策略大幅提升了机器学习对共晶虚拟筛选的泛化能力和准确度,其构建策略可为深度学习在其它领域的应用提供了参考和指导。

该工作日前以「Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials」为题,发表在《Nature Communications》杂志上,文章的第一作者是四川大学化学学院的博士研究生江源远,四川大学蒲雪梅教授为通讯作者。

GNN+领域知识,川大提出高普适性共晶筛选模型(代码开源)


研究背景

新型材料是各种颠覆性技术革命的核心,但是其研发过程往往基于经验和试错的方法,依靠大量的合成和表征实验,导致材料从实验室的发现到商业化的产品往往需要 15-20 年甚至更长的时间。近年来,共晶工程(Cocrystal Engineering)作为一种新的材料设计策略受到广泛关注。共晶工程在不破坏原有分子结构的情况下,通过分子间的非共价相互作用整合两种或两种以上分子(Co-former)形成共晶,改变晶体的结构,从而激发新的材料性能。相比于传统的有机合成,共晶往往基于现有的材料分子避免了复杂的合成步骤,这极大地简化了材料的设计思路和制备方法,从而提高了新型材料的制备效率,因此在有机功能材料、药物、含能材料等领域备受关注。

然而,不是任意分子间都能形成共晶,需要满足分子识别、自组装等复杂的条件,其中的机制目前仍不清楚。共晶的实验筛选潜在的 coformer 数量是巨大,确定共晶的形成需要用到多种技术设备,导致时间和资源成本很高,效率低。因此,一个可以对共晶进行有效虚拟筛选的方法对新型共晶材料的设计与制备具有重大的意义。

数据驱动的机器学习(ML)方法在化学和材料领域中已得到关注和成功应用,一些工作利用 ML 方法对共晶虚拟筛选进行了有意义的尝试,包括支持向量机 (SVM)、多元自适应回归样条、随机森林(RF)、深度神经网络(DNN)以及图神经网络(GNN),给共晶体的筛选提供了另外一种途径。虽然这些方法可以对实验进行一定程度的指导,然而目前的 ML 方法在独立测试集中的泛化能力仍然不令人满意,比如测试集的单一和中等的预测准确度,应该是与其在数据集、描述符和模型上的不足有关,因此目前仍然缺乏一个普适性强准确度高的共晶预测模型。

众所周知,模型的独立测试能力或者说泛化能力对于机器学习在实际中的应用尤为重要,它代表模型对未知空间中新样本的预测能力,而提升模型的独立测试能力本身对于机器学习就是一个困难的任务。数据驱动的机器学习主要依赖于大量的高质量数据,剑桥结构数据库 CSD 包含丰富的共晶结构,可以支持 DL,但仅限于正样本(共晶),而缺乏无效的共形成体组合(负样本)的报道。此外,表征样本的特征表示也是基于 ML 模型的关键,特别是对于不平衡数据。有限且不均衡的样本数据对深度学习的应用是一种挑战,一直被认为是一个困难的任务,需要从机器学习的三要素(数据集、特征描述符和模型框架)着手。

研究简介

蒲雪梅团队在这项研究工作中针对性的重建了一个由 7871 个样本组成的可靠共晶数据集;其中 1052 个负样本全部从实验报告中收集,尽量减少假阴性,6819 个正样本仍然来自 CSD。为了有效地地从有限且不平衡的数据集中捕获共结晶的主要驱动力,研究人员提出了一种特征互补策略,通过在 GNN 的分子图特征中嵌入共晶领域的先验知识( 12 个对共晶形成有重要作用的分子描述符)来更有效地表征共晶样本。

基于这种融合特征表征,研究人员开发了一个灵活的基于 GNN 的框架,该框架能够有效地将经验知识整合到分子图上的端到端学习中,该框架被命名为 Co-Crystal Graph Network(CCGNet)。

为了充分评估 CCGNet 的性能,研究人员使用了七个竞争模型进行比较,包括两个传统的 ML 和五个 DL 模型。此外,在三种不同类型的共晶系统(药物共晶、π-π共晶和含能共晶)独立测试了准确度,从而评估 CCGNet 预测的稳健性和泛化性。结果显示,该模型优于竞争模型;并成功完成了一种新的含能共晶预测,进一步证实了 CCGNet 在实际应用中的潜力。

研究结果

数据集、样本表征和图神经网络框架的构建

作者首先从剑桥结构数据库 CSD 收集了 6819 个共晶正样本,针对共晶缺乏可靠的负样本数据集的问题以及避免计算方式产生负样本的假阴率的风险,从大量文献中收集了共晶失败实验的 1052 个共晶负样本,见图 1(a)。针对此有限和不平衡的共晶数据,作者提出了一种互补的特征表示方法,将共晶领域的先验知识(12个重要的分子描述符)与图神经网络的分子图特征学习相结合,以有效地提升对共晶形成驱动力知识的学习,见图 1(b)。基于上述的数据集和样本表征,作者针对性地开发了一个能够有效实施其不同层次特征融合的图神经网络框架 CCGNet,将代表领域知识的分子描述符嵌入到图神经网络的消息传递过程 (message passing phase)和读出过程(readout phase)[图 1(c-d)] 。此外,作者在 Readout 阶段引入了多头注意力机制从而进一步优化变量空间,见图 1(e),并在模型训练时通过交换共晶对的输入顺序来增强数据,并进一步提升模型的鲁棒性。

GNN+领域知识,川大提出高普适性共晶筛选模型(代码开源)


图 1. CCGNet 的整体框架。

特征表征和模型框架的消融实验

为了证明其特征表示和模型框架的先进性,作者做了消融实验(图 2)。特征对比实验的结果揭示:虽然分子图具有强的结构表达能力,但是图神经网络在有限的数据中不能有效学习到与共晶形成密切相关的三维结构信息,因此与三维结构相关的描述符的引入显著提高了模型的准确率(图 2a),指出了先验知识的融入可提升深度学习在有限数据中对样本特征的学习能力。Readout 阶段的多头注意力的引入可进一步抓住对共晶形成有重要作用的氢键作用和 ππ 相互作用(图 2d),模型同时在信息传递阶段和读出阶段的特征融合方式可以进一步提升模型准确率,基于这样的特征融合表征和模型框架,正负样本能够在变量空间中有效分开(图 2e),为模型的高准确度奠定了基础,其在交叉验证集中的预测准确度明显高于 7 个竞争性模型(2 个传统机器学习和 5 个深度学习模型)。作者所提出的这些构建策略可为深度学习的应用提供指导和参考作用。

GNN+领域知识,川大提出高普适性共晶筛选模型(代码开源)


图 2. CCGNet 特征表征和模型框架的条件对比实验以及注意力可视化。

模型的独立测试和实验验证

为了验证 CCGNet 的普适性和泛化能力,作者采用集成学习的方式将其进一步应用于三种不同且重要的共晶领域(药物共晶、有机功能材料的 ππ 共晶和含能共晶),选择了在以往的虚拟筛选中表现不佳的样本作为独立测试集,我们的模型在药物共晶和 ππ 共晶中都达到了 97% 以上的预测准确度,其性能同样远超过了 7 种竞争性模型。对于数据更为缺乏且结构与通常有机分子共晶有明显差异的含能共晶领域,现有模型直接应用预测准确度差,因此作者采用了迁移学习的策略,将普通共晶样本训练的 CCGNet 模型通过迁移学习的方式应用到含能共晶领域,同样实现了对合成更为困难的含能共晶的高准确度预测(97%准确率),并且基于预测结果,作者成功合成了一个新的 CL-20/1-甲基-4-硝基吡唑共晶,进一步验证了模型的可靠性和应用潜力。

GNN+领域知识,川大提出高普适性共晶筛选模型(代码开源)


图 3.CCGNet 模型对三种不同的重要共晶体系(药物共晶、ππ 共晶和含能共晶)的独立测试准确度

结论与讨论

针对有限且不平衡的数据,单纯依靠图神经网络的特征自我学习不能有效获取样本靶标性能相关的结构表征,可引入该领域的先验知识来弥补其不足,让模型更有效获取表征样本的知识信息,从而大幅提升模型的预测准确度。相对于纯粹的深度学习算法研究,ML 在化学/材料领域的应用更倾向于对研究体系背景和概念的理解。通过对背景体系的了解针对性地构建数据集、设计特征,在此基础上可以结合AI领域的最新进展构建合适的模型。CCGNet 模型为深度学习在众多缺乏大数据的领域中的应用提供了一种可能性探索;也为深度学习在药物、化学、材料领域应用提供了新范式。

数据集和预测模型已全部开源,可免费下载使用。

GNN+领域知识,川大提出高普适性共晶筛选模型(代码开源)


数据集和模型链接:https://github.com/Saoge123/ccgnet

论文链接:https://rdcu.be/czmAI

理论
暂无评论
暂无评论~