Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

一种基于图注意神经网络的新方法,可准确预测基因组中的致病因子

编辑 | 萝卜皮

准确预测破坏性错义变异对于解释基因组序列至关重要。尽管已经开发了许多方法,但它们的性能受到限制。机器学习的最新进展和大规模群体基因组测序数据的可用性为显著改善计算预测提供了新的机会。

在这里,哥伦比亚大学的研究团队描述了图错义变异致病性预测器(gMVP),这是一种基于图注意神经网络的新方法。它的主要组成部分是一个带有节点的图,这些节点捕获氨基酸和边的预测特征,并通过协同进化强度加权,从而能够有效地汇集来自局部蛋白质上下文和功能相关的远端位置的信息。

对深度突变扫描数据的评估表明,gMVP 在识别 TP53、PTEN、BRCA1 和 MSH2 中的破坏性变异方面优于其他已发表的方法。此外,它实现了神经发育障碍病例中从头错义变异与对照组病例的最佳分离。同时,该模型支持迁移学习以优化钠和钙通道中的功能获得和损失预测。

该研究以「Predicting functional effect of missense variants using graph attention neural networks」为题,于 2022 年 11 月 15 日发布在《Nature Machine Intelligence》。

图片

错义变异是导致癌症和发育障碍遗传风险的主要因素。错义变体与蛋白质截断变体一起被用来暗示新的风险基因,并负责许多临床基因诊断;然而,大多数罕见的错义变异可能是良性的或仅具有最小的功能影响。

由于功能影响的不确定性,临床基因检测中报告的大多数罕见错义变异被归类为意义不确定的变异,导致歧义、混乱、过度治疗和错过临床干预的机会。在通过稀有变异识别新风险基因的人类基因研究中,基于计算预测预先选择具有破坏性的错义变异是提高统计能力的必要步骤。因此,计算方法对于解释临床遗传学和疾病基因发现研究中的错义变异至关重要。

已经开发了许多方法,例如 Polyphen、SIFT、CADD、REVEL、MetaSVM、M-CAP、Eigen、MVP、PrimateAI、模型预测控制(MPC)和正确分类率(CCR)来解决这个问题。这些方法在例如预测特征、特征在模型中的表示方式、训练数据集以及模型的训练方式等方面有所不同。序列保守或局部蛋白质结构特性是早期计算方法(如 GERP 和 PolyPhen)的主要预测特征。MPC 和 CCR 方法从大量人群测序数据中估计亚基因编码约束,提供过去方法未捕获的额外信息。PrimateAI 使用深度表示学习从序列和局部结构特性中学习蛋白质上下文。许多研究报告了功能破坏性错义变体聚集在三维蛋白质结构中的证据。协同进化捕捉位置之间的功能相关性。近期的研究表明,协同进化有助于提高预测准确性。

图片

图示:gMVP模型概述。(来源:论文)

哥伦比亚大学的研究人员提出了图错义变异致病性预测器(graphical missense variant pathogenicity predictor,gMVP),旨在有效地表示或学习所有信息源的表示,以改进对错义变异的功能影响的预测。

gMVP 使用注意力神经网络,通过经过大量精心策划的致病变异训练的监督学习来学习蛋白质序列和结构上下文的表示。图结构允许协同进化引导的远端氨基酸位置的预测信息汇集,这些位置在三维空间中功能相关或可能接近。

研究人员展示了 gMVP 在临床基因检测和新风险基因发现研究中的实用性。具体来说,基于深度突变扫描研究的功能读出数据,gMVP 在识别已知风险基因中的破坏性变异方面取得了更高的准确性。

此外,gMVP 在自闭症或 NDD 病例中优先考虑 DNM 方面取得了更好的性能,这表明它可用于预先选择破坏性变异或体重变异,以提高新风险基因发现的统计能力。另外,通过迁移学习技术,即使在没有额外预测特征的有限训练集的情况下,gMVP 模型也可以准确地分类离子通道中的 GOF 和 LOF 变体。

图片

图示:使用癌症体细胞突变热点和人群中的随机变体评估 gMVP 和已发表的方法。(来源:论文)

gMVP 从训练数据中学习蛋白质上下文的表示,而以前的集成方法(如 REVEL、M-CAP、MetaSVM 和 CADD)使用来自其他预测变量或其他人工工程特征的分数作为输入。随着机器学习在蛋白质结构预测方面的最新进展,神经网络表示可以捕捉潜在结构,而不是理解生物物理和生化特性的常见线性表示。

研究表明,表示学习允许 gMVP 捕捉氨基酸替代对蛋白质功能的上下文相关影响。PrimateAI 是近期发布的一种方法,它也使用深度表示学习。gMVP 在识别已知疾病风险基因中的破坏性变异方面取得了比 PrimateAI 更好的性能,在使用功能读出数据的比较以及优先考虑 ASD 和 NDD 研究中的罕见 DNM 方面。

尽管两种模型都使用进化守恒和蛋白质结构特性作为特征,但这两种方法具有完全不同的模型架构和训练数据。gMVP 使用图注意力神经网络来汇集来自具有协同进化强度的远端和局部位置的信息,而 PrimateAI 使用卷积神经网络从蛋白质上下文中提取局部模式。

对于训练数据,gMVP 使用专家策划的变体和群体中的随机变体分别作为训练的正面和负面。相比之下,PrimateAI 使用灵长类动物中的常见变体作为阴性,使用群体中未观察到的变体作为阳性。

图片

图示:评估 gMVP 和已发表的方法以识别已知疾病基因(如 TP53、PTEN、BRCA1 和 MSH2)中的破坏性变异。(来源:论文)

基于四个众所周知的风险基因的功能读出数据,只有 15-25% 的随机变异对蛋白质功能有明显的影响。因此,在 PrimateAI 训练中使用的阳性结果可能包含很大一部分误报。PrimateAI 的训练策略确实有优势,它避免了人为解释偏差和病原变异数据库中的错误,这是 gMVP 训练中使用的阳性结果。它还可以涵盖几乎所有人类蛋白质编码基因,而诸如 ClinVar 之类的精选数据库仅涵盖数百个基因。此外,灵长类动物中的常见变异可能都是真阴性,而在人群中随机观察到的罕见变异可能具有不可忽略的破坏性变异部分。制作一个可以在训练中使用所有这些数据集的新模型可以进一步提高预测性能。

图片

图示:评估 gMVP 和已发表的方法,以区分神经发育障碍病例与对照组的罕见 DNM。(来源:论文)

之前的几项研究表明,错义变异的功能影响在三维邻居之间是相关的。因此,汇集来自 3D 邻居的信息可以改进对功能影响的预测。然而,直接考虑三维距离受到以下事实的限制:大多数人类蛋白质没有可解决的具有相当大覆盖范围的三级结构。gMVP 通过获取大部分蛋白质上下文来解决这个问题,其中包括作为折叠蛋白质中潜在邻居的局部和远处位置,然后使用协同进化强度有效地汇集来自潜在三维邻居的信息。

在图注意力模型中用作边特征,协同进化强度允许比没有先验结构的卷积层更精确地汇集来自远处残差的信息。协同进化信息已被以前的方法用于预测错义变体的功能影响,例如PIVOTAL,一种有监督的集合预测因子。它结合了现有方法的得分和EVmutation,是一种无监督的方法,它使用多序列比对(MSAs)中的马尔可夫随机场来学习协同进化和保守。

此外,协同进化信息已广泛用于从头算蛋白质结构预测。CASP14 中 AlphaFold 的非凡性能表明,它包含有关物理残基 - 残基距离的关键信息,可用于准确预测人类蛋白质组中大多数蛋白质的结构。语言模型 Transformer 最近已应用于蛋白质序列和 MSA,以提高协同进化强度估计和蛋白质残基 - 残基接触预测的性能。通过在模型中集成 Transformer 和蛋白质三维结构的组件,可以进一步改进 gMVP。另一方面,基于 MSA 的方法仅限于没有或几乎没有同源序列的蛋白质,并且可以通过使用序列语言建模将学习的表示整合到大规模未标记序列数据上来改进。

图片

图示:用保守、蛋白质结构和遗传编码约束解释 gMVP 预测。(来源:论文)

通过迁移学习,经过训练的 gMVP 模型可以针对遗传研究中更具体的任务进行进一步优化。这个想法是将从大型训练数据集中学到的一般知识转移到只有有限训练数据的新的相关和更具体的任务中。训练后的模型可以设置模型中权重的初始值,通过进一步的训练来更新模型,只探索整个参数空间的一个子空间。哥伦比亚大学团队已经证明了,它在使用有限数量的训练数据点而没有额外的预测特征的情况下,对离子通道基因中的 GOF 和 LOF 变体进行分类的可行性。研究人员预计,通过迁移学习,gMVP 可以通过训练基因家族特异性模型和识别疾病特异性破坏性变异来潜在地改善变异解释。

来自深度突变扫描的功能读出数据提供了将变异分类为破坏性或中性的有力证据。然而,这些体外功能读数分析通常仅揭示蛋白质在有限数量的细胞类型中的一个方面的功能。因此,它们通常与体内变体的功能影响不完全相关。研究人员期望更全面的深度突变扫描分析将变得可用,并促进计算方法的训练和评估的实质性改进。

尽管进化守恒仍然是计算方法中信息量最大的来源之一,但人类的选择可以为预测提供补充信息。选择系数与等位基因频率相关,特别是对于强负选择下的变体。更大的群体基因组数据集可以进一步改进对稀有变异等位基因频率的估计。该团队负责人表示,未来发布的大量和多样化的人口基因组数据将改善对人类选择效应的估计,进而提高 gMVP 的性能。

论文链接:https://www.nature.com/articles/s42256-022-00561-w

理论
暂无评论
暂无评论~