基因组规模代谢模型 (GEM) 是预测生物体细胞代谢和生理状态的强大工具。然而,由于学界对代谢过程的了解不完善,即使是精心设计的 GEM 也存在知识缺口。现有的间隙填充方法通常需要表型数据作为输入,来梳理缺失的反应。在实验数据可用之前,科学家仍然缺乏一种快速准确地填补代谢网络缺口的计算方法。
斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)的研究人员提出了一种基于深度学习的方法——CHEbyshev Spectral HyperlInk pREdictor (CHESHIRE)——纯粹从代谢网络拓扑预测 GEM 中缺失的反应。
研究证明 CHESHIRE 在预测超过 926 个高质量和中等质量 GEM 的人工移除反应方面,优于其他基于拓扑的方法。此外,CHESHIRE 能够改进 49 个 GEM 草图对发酵产物和氨基酸分泌物的表型预测。
该研究以「Teasing out missing reactions in genome-scale metabolic networks through hypergraph learning」为题,于 2023 年 4 月 25 日发布在《Nature Communications》。
预测生物体新陈代谢具有挑战性
作为生物体新陈代谢的数学表示,基因组规模代谢模型(GEM)通过两个矩阵提供了全面的基因-反应-代谢物连通性:将代谢物与其反应相关联的化学计量矩阵;反应基因矩阵将反应与其相应的酶和基因相关联。GEM 是预测生物体内代谢通量的强大计算工具。
单独使用或与高通量数据结合使用,GEM 可以产生机理见解和可证伪的预测,从而逐步推进生物医学领域的各个学科,包括代谢工程、微生物生态学和药物发现。最近,全基因组测序数据的快速增长引发了自动重建管线生成的草图 GEM 的激增。
然而,这些草案模型包含知识差距,因此需要全面的人工管理,例如,由于不完整的基因组和功能注释而发现缺失的反应。因此,初始 GEM 的质量对于手动管理所花费的时间、改进后模型的质量以及最终在生物医学应用中的效用有着深远的影响。
学界已经设计了许多基于优化的间隙填充方法来梳理草图 GEM 中缺失的反应。尽管它们的输入数据类型、目标和算法存在很大差异,但它们通常遵循两个步骤:(1)找到无法生产或消耗的死端代谢物和/或草案模型预测与实验数据之间的一些不一致(例如, 增长概况);(2)添加一组反应来解决死胡同和/或不一致。基于优化的方法通常需要数据作为输入来识别模型模拟数据的不一致性。
然而,非模式生物的实验数据并不容易获得,因此限制了这些工具的实用性。例如,大多数肠道生物被认为是“不可培养的”,它们的功能仍然未知。即使对于可培养的生物体,高通量表型筛选,即寻找具有所需表型的生物体,也依赖于微生物提取物或基因修饰的分析,这可能变得复杂、耗时且昂贵。
鉴于可培养生物及其基因组的可用性不断增加,迫切需要仅从基因组序列中快速准确地对代谢表型进行计算机预测。尽管这些预测是理论上的,但下游实验验证对资源的需求可能更少。
一些完全基于拓扑且不需要表型数据作为输入的间隙填充方法包括:(1)基于通量一致性恢复网络连接的经典方法,例如 GapFind/GapFill 和 FastGapFill;(2) 最先进的机器学习方法,利用先进的机器学习技术,例如神经超链接预测器 (NHP) 和基于 Clique Closure 的协调矩阵最小化(C3MM)。
机器学习方法将 GEM 中缺失反应的预测框定为预测超图上超链接的任务。与每个链接连接两个节点的图相比,超图允许每个超链接连接两个以上的节点。值得注意的是,代谢网络或任何生化反应网络都有一个非常自然的超图表示:每个分子种类都是一个节点,每个反应都是连接其中涉及的所有分子种类的超链接。
基于拓扑的机器学习方法的局限性
现有的基于拓扑的机器学习方法存在明显的局限性。C3MM 具有集成的训练预测过程,其中包括训练期间的所有候选反应(从反应池中获得)。因此,它的可扩展性有限(即,它无法处理大型反应池),并且必须为每个新反应池重新训练模型。虽然基于神经网络的方法 NHP 将候选反应与训练分开,但它在生成节点特征时使用图来逼近超图,这会导致高阶信息的丢失。
更重要的是,这两种方法都针对少数 GEM(缺乏全面测试)进行了基准测试,并且仅使用通过从输入 GEM 中随机删除反应引入的人工间隙进行了内部验证(缺乏对预测代谢表型的验证,即外部验证)。
CHESHIRE
斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)的研究人员开发了一种称为 CHESHIRE(CHEbyshev Spectral HyperlInk pREdictor)的方法来克服现有机器学习方法的局限性。CHESHIRE 只需要一个代谢网络进行训练,并输出来自反应池的候选反应的置信度分数。
内部验证方面,CHESHIRE 在从 108 个 BiGG 模型和 818 个 AGORA 模型中恢复人工去除的反应的系统测试中优于 NHP 和 C3MM。
外部验证方面,研究人员评估了 CHESHIRE 预测代谢表型的能力。使用从常用管线(CarveMe11 和 ModelSEED)重建的 49 个草图 GEM,结果表明 CHESHIRE 改进了这些 GEM 是否产生发酵代谢物和氨基酸的理论预测。
论文链接:https://www.nature.com/articles/s41467-023-38110-7