Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习和机械建模的混合方法,提高基因组规模代谢模型的预测能力

图片
编辑 | 白菜叶

基于约束的代谢模型,几十年来一直用于预测不同环境中微生物的表型。然而,除非对介质吸收通量进行劳动密集型测量,否则定量预测是有限的。

巴黎萨克雷大学(University of Paris-Saclay)的研究人员提出了一种结合机器学习(ML)和机械建模(MM)的方法,提高基因组规模代谢模型(GEM)上基于约束的建模(CBM)的性能。该团队的混合 MM-ML 模型适用于系统生物学和代谢工程中的常见任务,例如预测在各种培养基中生长或进行基因敲除 (KO) 的生物体的定性和定量表型。

该研究以「A neural-mechanistic hybrid approach improving the predictive power of genome-scale metabolic models」为题,于 2023 年 8 月 3 日发布在《Nature Communications》。

图片

可用于生物研究的数据量不断增加,给数据与机器学习集成以加速发现过程带来了挑战。维数灾难,即拟合许多参数可能需要非常大的数据集,这可能是阻止使用机器学习构建细胞模型的最大障碍。细胞比单个蛋白质复杂得多,并且由于 ML 训练所需的数据量随着维度呈指数增长,截至目前,ML 方法尚未单独用于在基因组规模上对细胞动力学进行建模。

在过去的几十年里,MM 方法已经被开发来模拟全细胞动力学。这些模型涵盖新陈代谢、信号转导以及基因和 RNA 调控和表达。细胞动力学极其复杂,MM 方法通常基于强有力的假设和过度简化。因此它们缺乏做出超出假设和用于构建假设的数据的预测的能力。

通量平衡分析 (FBA) 是研究给定生物体(例如大肠杆菌)营养吸收与代谢表型(即代谢通量分布)之间关系的主要 MM 方法,其模型在过去 30 年来不断迭代完善 。尽管如此,FBA 仍然难以做出准确的定量表型预测。

将 MM 和 ML 结合的优势

MM 和 ML 方法基于两种看似相反的范式。前者旨在通过物理和生化细节来理解生物现象,但在处理复杂系统方面存在困难;后者即使不了解潜在机制也可以准确预测复杂生物过程的结果,但需要大量训练集。一种方法的优点是另一种方法的缺点,这表明这些方法应该结合起来。特别是,MM 可用于解决 ML 方法的维数灾难。

但是,混合建模的训练存在一些问题,例如难以使 MM 适合训练。为了克服这一困难,在生物学中以不同名称提出了信号通路和基因调控网络(知识启动神经网络、生物信息神经网络)的解决方案,其中最近的解决方案基于循环神经网络(RNN)。

物理学领域也开发了混合模型来求解偏微分方程,例如物理知情神经网络 (PINN),可在 SciML.ai 等开源存储库中找到。这些新兴混合建模解决方案的目标是生成与通过 ML 观察或实验结果良好相符的模型,但也使用 MM 的机制见解。

图片

图示:FBA、替代机制模型、AMN 和 AMN-Reservoir 的计算和学习框架。(来源:论文)

混合模型的优点有两个:它们可用于通过直接训练对 MM 方法进行参数化,从而提高 MM 的可预测性,并且由于 MM 带来的约束,它们使 ML 方法能够通过在较小的数据集上进行训练来克服维数诅咒。

MM-ML 混合方法

巴黎萨克雷大学的研究团队提出了一种 MM-ML 混合方法,其中 FBA 嵌入到人工神经网络 (ANN) 中。该团队的方法通过使用可嵌入 ML 的不同方法计算稳态代谢表型,弥合了 ML 和 FBA 之间的差距。所有这些方法都依赖于替代 FBA 约束的自定义损失函数。他们的 AMN 是由化学计量和其他 FBA 约束决定的机械模型,也是 ML 模型,因为它们被用作学习架构。

图片

图示:使用不同的训练集和机制层对 AMN 进行基准测试。(来源:论文)

研究人员展示了如何使用神经网络方法(将代谢网络嵌入学习架构)来解决代谢建模问题。之前用于解决约束优化问题的 RNN 和 PINN 的研究被重新使用和修改,开发了三个模型(AMN-Wt、-LP 和 -QP),从而在代谢网络中实现梯度反向传播。这些模型在 FBA 生成的训练集上表现出优异的性能。而且,这些模型可以直接在实验性大肠杆菌生长率数据集上进行训练,具有良好的预测能力。

同样,他们的 AMN 具有经典 FBA 的关键限制,它阻碍了定量表型预测,即培养基成分到培养基吸收通量的转换。事实上,培养基摄取通量的现实和条件依赖的界限对于生长速率和其他通量计算至关重要,但是没有从细胞外浓度(即受控实验设置)到摄取通量的这种界限的简单转换。利用 AMN,神经预处理层旨在有效捕获特定实验环境中转运蛋白动力学和资源分配的所有影响,预测代谢模型的足够输入,以提供最准确的稳态表型预测。

因此,AMN 为表型预测提供了一种新的范例:而不是依赖于针对每种条件执行的约束优化原则(如经典的 FBA),研究人员对一组示例通量分布使用学习程序,试图概括最佳模型,以准确预测生物体在不同条件下的代谢表型。结果表明,MAN 预处理层还可以捕获代谢酶调节,特别是预测基因 KO 对表型的影响。

图片

图示:大肠杆菌基因 KO 突变体的 AMN 生长速率预测。(来源:论文)

AMN 可以改进基于约束的机械模型和黑盒机器学习模型,也可以用于工业应用。事实上,由于可以设计任意目标函数并且可以直接根据实验测量训练 AMN,因此 AMN 可用于优化目标化合物生物生产的培养基,或在典型代谢工程项目中找到最佳基因删除和插入策略。在后一种情况下,反应将通过可训练层关闭,该可训练层将添加在 AMN 的机械层之前。

另一个潜在的应用是基于微生物的决策装置的工程,用于代谢生物标志物或环境污染物的多重检测。在这里,AMN 可用于搜索内部代谢物产生通量,使人们能够区分含有生物标志物或污染物的阳性样本和阴性样本。这种装置已经在无细胞系统中进行了设计,AMN 可用于在体内构建类似的设备,方法是在机械层后添加一个可训练层,其目的是选择最能将阳性样本与阴性样本分开的代谢物产生通量。

论文链接:https://www.nature.com/articles/s41467-023-40380-0

注:头图来自网络


产业
暂无评论
暂无评论~