编辑 | 萝卜皮
聚合物膜在工业中通常用于分离气体,例如烟气中的二氧化碳和天然气中的甲烷。几十年来,研究人员一直在研究各种聚合物以提高它们的渗透性和实用性,但在以快速有效的方式测试它们时遇到了障碍。
为了解决这个缺点,康涅狄格大学的研究团队展示了一种可推广的、准确的机器学习(ML)实施,用于发现具有理想性能的创新聚合物。具体来说,多任务 ML 模型根据实验数据进行训练,以将聚合物化学与 He、H2、O2、N2、CO2 和 CH4 的气体渗透率联系起来。
然后,该团队筛选了超过 900 万种假设聚合物,并确定了数千种远高于当前性能上限的聚合物,其中包括数百种前所未见的超渗透聚合物膜,其 O2 和 CO2 渗透率分别大于 10^4 和 10^5 Barrers。
该研究以「Machine learning enables interpretable discovery of innovative polymers for gas separation membranes」为题,于 2022 年 7 月 22 日发布在《Science Advances》。
背景
聚合物膜是一种灵活、可加工且价格低廉的平台,可提供无数分离,在减缓气候变化(即碳捕获)和弹性(即水处理)方面发挥关键作用。对于气体分离,聚合物膜已广泛用于许多工业过程中的混合物分离,包括富氧、沼气净化和燃烧后碳捕获。特别是,碳捕获过程越来越受到关注,以减少对环境的排放,而膜技术由于灵活性和可扩展性而具有众所周知的优势,例如高能效和操作简单。在后燃、预燃和富氧燃烧中,CO2/N2、CO2/H2 和 O2/N2 的分离分别对环境保护很重要。
在基于膜的气体分离过程中,气体混合物通常通过压力驱动通过膜,其中通过各个气体渗透率的差异实现分离。膜工艺的性能取决于膜对特定气体种类 Pi 的渗透性,其中 i 指定气体类型。膜渗透性由 Fick 扩散定律定义,∣Ji∣ = PiΔp/l,其中 Ji 是气体 i 的通量,Δp 是通过厚度为 l 的膜的压降。
基于微孔膜中气体传输的溶液-扩散模型,渗透率也可以计算为扩散率 (D) 和溶解度 (S) 的乘积:Pi = Di × Si。在比较气体 A 和气体 B 的渗透性时,另一个性能指标是膜在两种气体之间的选择性 α,定义为 α = PA/PB。用于给定二元气体分离的理想膜应具有高渗透性和高选择性。增加这些膜的透气性和选择性将通过增加工艺吞吐量、降低能源成本和获得更纯净的产品来实现更有效的工业工艺。
然而,聚合物气体分离膜存在一个众所周知的渗透率-选择性折衷,它由 Robeson 上限定义。随着时间的推移,聚合物设计的进步已将 Robeson 上限从 1991 年的值推至更新的 2008 年值(最近是 2015 年的 O2/N2 分离值和 2019 年的 CO2/CH4 和 CO2/N2 分离值),这反映了膜性能的提高。识别突破这一上限的新材料已推动并将继续推动膜材料的发现工作。
在膜科学领域数十年的技术发展中,新膜材料的设计一直是,并且仍然是一个以经验和直觉为指导的试错过程。目前的方法通常涉及调整化学基团以增加对所需气体的亲和力和溶解度,或加入更大的自由体积以增加整体扩散率。
在组装新聚合物时,通常会针对所需的增强功能(即更高的 CO2 亲和力、更高的整体渗透性和抗老化性),并且将可能实现该增强的化学基团结合到聚合物化学中。为了获得更高的渗透率,在过去的二十年中,人们对固有微孔聚合物(PIM)进行了广泛的研究。PIM 通常通过低效的链堆积来增加自由体积分数,以增加渗透性,同时加强聚合物主链并提高溶解度选择性。
为 PIM 设计改进化学性质的努力通常涉及调整扭曲基团,通过侧链的修饰增加空间位阻,或进一步加强聚合物主链。尽管如此,这些研究中的许多仍然局限于爱迪生的方法,无法识别或使用聚合物膜中化学性质关系的宏观规则。
更复杂的是,新聚合物材料的合成以及随后的渗透性和选择性测试是一个耗时、昂贵且不完整的过程,可能会错过高性能候选材料。分子建模方法,例如蒙特卡洛/分子动力学 (MC/MD) 模拟,可以合理地预测聚合物膜的气体渗透率,而无需进行昂贵的实验。然而,即使是这些高通量分子模拟在计算上也过于昂贵,无法探索 10^6 到 10^10 数量级的聚合物的巨大化学空间。
相比之下,预测给定膜的透气性的简化近似方法成本低但不准确。最简单的是,基团贡献方法将聚合物中每个化学部分的透气性贡献加在一起,但它们不一定考虑连通性,也不能扩展到新的聚合物类别。渗透率也可以通过基于聚合物自由体积的扩散率和使用各种理论模型的气体传输的溶液扩散模型来计算,但这些理论是不完整的。简而言之,目前还没有基于聚合物膜化学的有效且准确的透气性预测模型。
挑战
图示:用于 ML 辅助发现具有理想气体分离性能的创新聚合物膜的工作流程。(来源:论文)
机器学习(ML)是一种很有前途的以数据为中心的方法,通过学习基于聚合物化学的功能模型来预测气体渗透率。使用化学输入的 ML 方法已成功应用于准确预测许多聚合物特性,包括玻璃化转变温度、热导率、介电常数、有机光伏特性和传输特性。
学习可泛化的 ML 模型的主要挑战是对稳健且多样化的数据进行训练,这需要使用最新的文献值编译多个数据库并估算缺失值。虽然 Barnett 团队已经训练了将聚合物化学与气体渗透性联系起来的准确 ML 模型,但他们的训练集明显缺乏 PIM,而且他们仅筛选了 11,000 种现有均聚物的有限化学空间。因此,ML 方法将受益于考虑扩展的化学空间,同时从 PIM 上的额外训练数据中学习。
总体而言,基于 ML 的聚合物膜分子设计仍面临以下几个方面的重大挑战:
(i) 如何定义合适的化学空间来探索高性能聚合物膜的分子设计?
(ii) 即使可以为聚合物膜的气体渗透率预测建立 ML 模型,如何才能从物理上理解膜化学如何影响气体分离?
(iii) 对于不同气体对的分离,例如 O2/N2、CO2/CH4、CO2/N2 和 H2/CO2,能否同时超过 Robeson 上限?
新的方法
康涅狄格大学的研究团队展示了一种准确且具有成本效益的 ML 实施,通过学习它们的合成-性能关系,可以有效地探索不断扩大的聚合物气体分离膜材料的设计空间。
该研究表明,固定的化学描述符和 MFF 都是预测聚合物膜气体渗透率的优秀代表。研究人员得出结论,只要捕获足够的化学子结构,化学表示的选择通常在每个 ML 模型的性能中发挥有限的作用。考虑到微观结构特征(例如膜的溶液扩散传输理论中的自由体积元素)的重要性,可以在未来的 ML 模型中考虑其他特征,例如微观结构。
图示:训练集数据集 A 的渗透率分布的可视化。(来源:论文)
与仅使用化学描述符相比,将这些特征作为输入特征并入改进了金属-有机框架吸附预测。例如,可以通过 MD 模拟有效地计算这些微观结构特征。或者,由于高通量 MD 模拟可以以合理的精度计算气体渗透率,这些模拟也可用于增加训练集或纳入主动学习框架以减少 ML 模型的不确定性。尽管如此,研究人员发现固定的化学特征可以充分预测这里研究的聚合物膜的气体渗透率。
该团队还深入了解了 ML 模型的选择如何影响性能。同时,证明了集成是一种强大的技术,可以提高预测精度,同时量化不确定性。
传统意义上,RF 模型被认为在小型数据集上效果更好,而深度学习则保留给大型训练集。然而,虽然决策树足以捕捉简单的关系,但神经网络原则上可以将任何函数逼近到任意精度。该研究中,研究人员证明了深度学习可以有效地应用于数百个训练样本的小型训练数据集。
研究人员认为 DNN 方法由于集成而准确且可泛化。每个 DNN 模型看到数据的有限子样本,捕捉到复杂性和细微差别,从而导致个体预测具有高方差;但是,当通过集成对预测进行平均时,整个模型的泛化效果很好。
在这项工作中,研究人员训练 16 个 DNN 并评估数百万样本的预测,仍然可以在个人计算机上进行计算处理。尽管图神经网络等各种其他神经网络,对某些分子发现和合成任务越来越热门,但该团队没有观察到训练图卷积、循环或卷积神经网络的显著性能提升。他们从关于聚合物玻璃化转变的聚合物信息学基准研究中得出了类似的结论。
简而言之,该团队相信深度学习技术,甚至是标准的多层感知器,对小型化学特征数据集的适用性比以前假设的要广泛得多。
图示:在 DNN 集成 ML 模型上使用 SHAP 识别出的重要分子描述符,该模型训练了描述符和 BLR 估算的渗透率。(来源:论文)
研究表明,SHAP 分析可以简洁地阐明输入特征的影响,即使对于复杂的非线性模型也是如此,这削弱了 ML 模型是黑匣子的范式。几乎所有有监督的 ML 模型都可以计算 SHAP 值,研究人员鼓励未来的化学和聚合物信息学研究利用 ML 中的可解释性。最近的一项研究还在为可解释的 ML 训练图神经网络时使用了子结构的着色,这表明 ML 模型的特征重要性分析可以从固定表示扩展到学习的化学表示。
图示:在 MFF 和 BLR 估算渗透率上训练的 DNN 集成 ML 模型上使用 SHAP 识别的重要分子子结构。(来源:论文)
该团队对固定特征重要性的研究,巩固了许多现有的膜设计原则,但还为气体分离新聚合物的分子工程提供了独特的、通用的指导。从广义上讲,SHAP 分析阐明了克服渗透性/选择性权衡所需的化学平衡行为。聚合物必须兼顾 (i) 增加微孔率的庞大化学部分(即甲基和脂肪环)的数量与 (ii) 增加相对 CO2 和 O2 亲和力的极性基团(即羰基和氧)的数量。
图示:使用 MD 模拟验证从具有 BLR 估算渗透率的 MFF 上训练的 ML 模型中选定的顶级聚合物候选物的性能。(来源:论文)
总体而言,这里介绍的可概括的 ML 模型能够有效地找到具有高性能的有前途的聚合物,数千个候选者超出了 2008 Robeson 上限。此外,在这项工作中发现的超高渗透性聚合物将允许前所未有的工业气体分离,具有更高的通量,同时保持足够的选择性。令人难以置信的是,DNN 模型可以相对准确地推断出它在训练中没有看到的高渗透率预测。研究人员认为,这种惊人的性能主要源于对不同训练样本的仔细选择以及使用神经网络进行的训练,该网络不仅可以捕获复杂性,还可以通过多任务参数共享和集成来捕获泛化。
该团队通过实验验证的气体渗透率 MD 模拟证实了 ML 预测,这表明这里发现的许多聚合物候选物可以在实验中转化为现实。这里确定的每一种有前途的聚酰亚胺都具有来自现有 PubChem 化学品的明确交联形成,这使得它们的合成可行。
然而,不应低估以溶液可加工方式合成复杂聚合物的难度。因此,为了帮助克服这一挑战,该团队将他们发现的数千种有前途的聚合物制成表格,并将它们包含在与这项工作相关的 GitHub 存储库中,以鼓励实验和计算研究人员进一步探索。
数据链接:https://github.com/jsunn-y/PolymerGasMembraneML
虽然该模型认为膜性能是恒定的,但未来的努力还应考虑老化、塑化和溶胀如何随时间降低膜性能,这是膜设计中的一个重要考虑因素。
最终,该团队为膜设计界提供了许多以前未知的高性能聚合物候选物和在设计其分子结构时需要考虑的关键化学特征。本研究中展示的工作流程中的经验教训可能会为其他材料的发现和设计任务提供指导,例如用于脱盐和水处理的聚合物膜、高温燃料电池和催化。
随着 ML 技术的不断改进和计算能力的提高,研究人员预计 ML 辅助设计框架只会越来越受欢迎,并在材料发现方面为广泛的应用提供越来越实质性的成果。
论文链接:https://www.science.org/doi/10.1126/sciadv.abn9545
相关报道:https://phys.org/news/2022-07-machine-polymer-membranes.html