Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习解决核磁共振谱中「谁是谁」的问题,可直接从晶体结构预测化学位移

编辑/凯霞

核磁共振技术(NMR )可用于有机化合物结构鉴定,以及分子和材料的化学动力学研究。对有机材料进行 NMR 研究的先决条件是将每个实验化学位移分配给一组几何等效的原子核。然而,通过实验获得分配可能具有挑战性,并且通常需要耗时的多维相关实验。

通过与实验化学位移数据库的统计分析进行比较分配将是一种解决方案,但没有这样的分子固体数据库

来自洛桑联邦理工学院的研究人员通过将剑桥结构数据库(CSD)与化学位移的机器学习模型(ShiftML)相结合,创建了自己的有机固体化学位移数据库,可以直接从分子固体结构预测化学位移。

该研究以「Bayesian probabilistic assignment of chemical shifts in organic solids」为题,于 11 月 26 日发表在《Science Advances》上。

<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>解决核磁共振谱中谁是谁的问题,从晶体结构预测化学位移


NMR

化学位移分配是 NMR 研究的起点。在天然同位素丰度的有机固体中,这仍然是一个费力且具有挑战性的过程。特别是,13C 共振分配通常需要使用直通键 13C-13C 双量子/单量子相关 (INADEQUATE) 实验。然而,在大多数应用中,完整的晶体结构是未知的,基于从头化学位移的 NMR 晶体学依靠化学位移赋值从一组候选晶体中确定晶体结构

<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>解决核磁共振谱中谁是谁的问题,从晶体结构预测化学位移

利托那韦的 13C CPMAS 谱。

通过化学位移的统计分析,可以直接从其序列中获得蛋白质和 RNA 等生物分子的化学位移分配。此外,通过将原子接触与核 Overhauser 效应实验相匹配,可以同时获得化学位移分配和结构测定。这些方法依赖于实验化学位移和分子结构的大型数据库的存在。然而,据我们所知,对于有机晶体,这种庞大而多样的化学位移数据库并不存在。

机器学习(ShiftML)模型

本研究使用的机器学习算法 ShiftML,是该团队之前共同开发的(
https://www.nature.com/articles/s41467-018-06972-x
)。使用 DFT 计算进行训练,无需执行额外的量子计算,就可以对新结构进行准确预测。尽管达到了 DFT 精度,但该方法可以在几秒钟内计算出具有约 100 个原子的结构的化学位移,与当前的 DFT 化学位移计算相比,计算成本降低了 10,000 倍。该方法的精度与所检测的结构大小无关,预测时间与原子数成线性关系。这为在以前不可行的情况下计算化学位移奠定了基础。

<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>解决核磁共振谱中谁是谁的问题,从晶体结构预测化学位移

用于化学位移预测的机器学习模型方案。

在新的研究中,该团队使用 ShiftML 来预测从 CSD 中提取的 200,000 多种化合物的变化,然后将获得的变化与分子环境的拓扑表示相关联。这涉及构建一个图来表示分子中原子之间共价键,将其扩展到远离中心原子的给定数量的键。然后,他们将数据库中所有相同的图形实例汇集在一起,从而获得每个基序的化学位移的统计分布。这种表示是分子中原子周围共价键的简化,不包含任何 3D 结构特征:这使他们能够通过结合分子中所有原子分布的边缘化方案,直接从其二维化学结构中获得有机晶体 NMR 光谱的概率分配。

可行性证明

在构建化学位移数据库后,该方法通过 11 种分子固体的 13C 和 1H 分配与实验位移进行了证明,这些有机分子的碳化学位移分配已经(至少部分)通过实验确定:茶碱、百里酚、可卡因、士的宁、AZD5718、赖诺普利、利托那韦、青霉素 G 的 K 盐、β-吡罗昔康、地西他滨和辛伐他汀。

研究发现:在大多数情况下,直接从分子的二维表示中获得的分配概率与实验确定的分配相匹配。(研究结果对应原文图 2~图 7 所示)

最后,研究人员在具有 10 到 20 个不同碳原子的 100 个晶体结构的基准集上评估了框架的性能。他们使用每个原子的 ShiftML 预测位移作为正确分配,并将它们从用于分配分子的统计分布中排除。

<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>解决核磁共振谱中谁是谁的问题,从晶体结构预测化学位移


模型性能。

研究发现使用光谱编辑和相关的 1H-13C 化学位移分布,可以提高模型正确分配碳化学位移的能力。在超过 80% 的情况下,使用化学位移的二维统计分布、光谱编辑或两者的结合导致实验分配成为两个最可能的边缘分配之一。总体而言,实验基准集的性能与合成基准集一致,除了使用光谱编辑时,观察到实验集与合成集相比略有改进。

该方法不限于 1H 和 13C,原则上可用于指定氢、碳、氮和氧的任何 NMR 活性同位素的各向同性位移。

<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>解决核磁共振谱中谁是谁的问题,从晶体结构预测化学位移

AZD5718 的 15N 化学位移分配。

论文一作 Cordova 说:「这种方法可以通过简化这些研究的基本第一步之一,来显着加速核磁共振对材料的研究。」

论文链接:https://www.science.org/doi/10.1126/sciadv.abk2341

参考内容:https://phys.org/news/2021-11-machine-problem-nmr-spectra-crystals.html

产业
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

推荐文章
暂无评论
暂无评论~