Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮

酶动力学参数的预测对于设计和优化各种生物技术和工业应用的酶至关重要,但当前预测工具在各种任务上的有限性能阻碍了它们的实际应用。

中国科学院的研究人员开发了 UniKP,一个基于预训练语言模型的统一框架,用于预测酶动力学参数,包括来自蛋白质序列和底物结构的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。

还提出了源自 UniKP (EF-UniKP) 的两层框架,从而允许在考虑环境因素(包括 pH 值和温度)时进行稳健的 kcat 预测。并且,该团队系统地探索了四种有代表性的重新加权方法,成功降低了高价值预测任务中的预测误差。

该研究以「UniKP: a unified framework for the prediction of enzyme kinetic parameters」为题,于 2023 年 12 月 11 日发布在《Nature Communications》。


酶对特定底物的催化效率的研究是一个基本的生物学问题,对酶进化、代谢工程和合成生物学产生深远的影响。kcat 和 Km 的体外测量值、最大周转率和米氏常数是酶催化特定反应效率的指标,可用于比较不同酶的相对催化活性。

目前,酶动力学参数的测量主要依靠实验测量,耗时、成本高、劳动强度大,导致实验测量的动力学参数值数据库很小。例如,序列数据库 UniProt 包含超过 2.3 亿条酶序列,而酶数据库 BRENDA 和 SABIO-RK 包含数万个实验测量的 kcat 值。Uniprot 标识符在这些酶数据库中的集成促进了测量参数和蛋白质序列之间的连接。然而,与酶序列的数量相比,这些连接的规模仍然小得多,限制了定向进化和代谢工程等下游应用的进展。

酶动力学参数预测框架

在这里,中国科学院的研究人员提出了一种基于预训练语言模型的酶动力学参数预测框架(UniKP),它提高了根据给定酶序列和底物结构预测三个酶动力学参数 kcat、Km 和 kcat / Km 的准确性。研究人员对 16 种不同的机器学习模型和 2 种深度学习模型进行了全面比较。


图示:UniKP 概述。(来源:论文)

与之前最先进的模型 DLKcat 相比,UniKP 在 kcat 预测任务中表现出了卓越的性能,平均决定系数为 0.68,提高了 20%。研究人员推测,预训练模型通过使用整个数据库中的无监督信息创建易于学习的酶序列和底物结构表示,对 UniKP 的性能做出了巨大贡献。

对模型学习的分析表明,蛋白质信息具有主导作用,这可能是由于酶结构与底物结构相比的复杂性。此外,UniKP 可以有效捕获酶及其突变体之间 kcat 值的微小差异,包括实验测量的情况,这对于酶的设计和修饰至关重要。UniKP 预测值的 R^2 与 gmean 方法的 R^2 的高同一性区域和低同一性区域之间的差异证明了 UniKP 在提取更深层次的互连信息方面的能力,从而在这些任务中表现出更高的预测准确性。

两层框架 EF-UniKP

当前的大部分模型没有考虑环境因素,这是模拟真实实验条件的一个关键限制。为了解决这个问题,研究人员提出了一个两层框架 EF-UniKP,它考虑了环境因素。基于分别具有 pH 和温度信息的两个新构建的数据集,EF-UniKP 与初始 UniKP 相比显示出改进的性能。这是一个准确、高通量、独立于生物体且依赖于环境的 kcat 预测。此外,这种方法有可能扩展到包括其他因素,例如共底物和 NaCl 浓度。


图示:考虑环境因素的两层框架。(来源:论文)

然而,由于缺乏综合数据,现有模型并未考虑这些因素之间的相互作用。随着实验技术的进步,包括生物铸造实验室自动化和持续进化方法,研究人员预计酶动力学数据将激增。这种涌入不仅丰富了该领域,而且提高了预测模型的准确性。

由于 kcat 数据集的高度不平衡,导致高 kcat 值预测存在较高误差,该团队系统地探索了四种有代表性的重新加权方法来缓解这一问题。结果表明,每种方法的超参数设置对于改进高 kcat 值预测至关重要。

该团队证实了当前框架在米氏常数(Km)预测和 kcat / Km 预测方面的强通用性。UniKP 在预测 Km 值方面实现了最先进的性能,更令人印象深刻的是,在预测 kcat / Km 值方面优于当前最先进模型的综合结果。此外,研究人员基于实验测量的 kcat / Km 值以及使用 kcat / Km 数据集上的 kcat 和 Km 预测模型计算的 kcat / Km 值验证了 UniKP 框架。

值得注意的是,从 UniKP kcat / UniKP Km 得出的值与实验 kcat / Km 之间观察到的相关性相对较低(PCC = −0.01)。这种差异可能是由于构建各自模型时使用的不同数据集造成的,因此需要开发一个不同的模型来预测 kcat / Km 值。将来,随着包含 kcat 和 Km 值的统一数据集的出现,预计 kcat 和 Km 模型的计算输出将与 kcat / Km 专用模型生成的输出紧密一致。

在酶的挖掘和进化中具体应用

UniKP 在酪氨酸氨裂解酶 (TAL) 酶挖掘和定向进化中的应用,证明了其彻底改变合成生物学和生物化学研究的潜力。这项研究表明,UniKP 有效识别了高活性 TAL,并迅速提高了现有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酶高出 3.5 倍。

此外,在考虑环境因素时,衍生框架 EF-UniKP 始终能够以极高的精度识别高活性 TAL 酶,来自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。结果显示,5条序列的 kcat 和 kcat / Km 值均超过野生型酶。

通过加速酶的发现和优化过程,UniKP 有望成为推进生物催化、药物发现、代谢工程和其他依赖酶催化过程的领域的强大工具。

局限与展望

然而,当前版本的 UniKP 仍然存在一些限制。例如,虽然 UniKP 能够区分实验测量的酶及其变体的 kcat 值,但预测的 kcat 值不够准确。这可能是由于与已知蛋白质序列和底物结构的数量相比数据集不足。

虽然重新加权方法可以在一定程度上缓解由不平衡的 kcat 数据集引起的预测偏差(约 6.5% 的改进),但通过合成少数过采样技术和其他样本合成方法可以实现更显著的改进。

合成生物学的一个中心目标是开发数字细胞,它将彻底改变科学家研究生物学的方法。这项研究的一个关键先决条件是仔细确定途径内所有酶的酶参数。人工智能辅助的工具阐明了这一挑战,提供了一种预测酶动力学的高通量方法。

虽然与早期模型相比,UniKP 预测因子的误差减少了,但不准确仍然是构建精确代谢模型的重大障碍。纳入越来越多的实验确定的 kcat 和 Km 值可以提高模型的准确性。

接下来,研究人员打算结合最先进的算法,例如迁移学习、强化学习和其他小样本学习算法来有效处理不平衡数据集。并且,该团队的目标是探索更多应用,包括酶进化和生物体的全局分析。

论文链接:https://www.nature.com/articles/s41467-023-44113-1

理论
暂无评论
暂无评论~