Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

具有受控变量选择的深度神经网络,可高精度识别推定的因果遗传变异

编辑 | 萝卜皮

深度神经网络(DNN)因其高预测精度已成功用于许多科学问题,但由于其可解释性差,它们在遗传研究中的应用仍然具有挑战性。

在这里,斯坦福大学的研究团队考虑了 DNN 中可扩展、稳健的变量选择问题,用于识别基因组测序研究中推定的因果遗传变异。研究人员发现 DNN 中的特征选择具有明显的随机性,因为它具有随机性,这可能会阻碍可解释性并导致误导性结果。

于是,他们提出了一种可解释的神经网络模型,该模型使用集成进行稳定,并具有用于遗传研究的受控变量选择。

该方法的优点包括:灵活建模遗传变异的非线性效应以提高统计能力;输入层中的多个仿制品,以严格控制错误发现率;分层层以大幅减少权重参数和激活的数量,并提高计算效率;以及稳定的特征选择,以减少识别信号的随机性。

该研究以「Deep neural networks with controlled variable selection for the identification of putative causal genetic variants」为题,于 2022 年 9 月 15 日发布在《Nature Machine Intelligence》。


全基因组测序(WGS)技术的最新进展,引领了探索编码和非编码区域中常见和罕见变异对复杂性状风险的贡献的方式。WGS 研究的一个主要主题是了解疾病表型的遗传结构,并且至关重要的是,为基因组驱动医学的发展提供一组可靠的、定义明确的新靶点。

然而,由于遗传变异的数量庞大、信噪比低以及遗传变异之间的强相关性,在这些数据集中识别因果变异仍然具有挑战性。迄今为止发表的大多数结果都来自边缘关联模型,该模型将感兴趣的结果回归到基因中单个或多个遗传变异的线性效应。

边际关联测试以其简单性和有效性而闻名,但它们通常识别仅与真正的因果变体相关并且可能无法捕捉非线性效应的代理变体,包括但不限于非加性和相互作用(上位)效应,它们被认为代表了与当前全基因组关联研究(GWAS)相关的缺失遗传力的重要组成部分。

最近对阿尔茨海默病(AD)遗传学的研究已经确定了其影响受 APOE 基因型(相互作用效应)调节的基因,例如 GPAA1、ISYNA1、OR8G5、IGHV3-7 和 SLC24A3。此外,Costanzo 团队和 Kuzmin 团队采用系统的方法来绘制基因对之间的遗传学相互作用和高阶相互作用。

结果突出了复杂遗传相互作用影响遗传生物学的潜力;然而,非线性效应的系统分析在过去受到限制,这主要是由于在显式测试全基因组非线性模式中所固有的能力不足和大量的多重测试负担。

为了弥合差距,斯坦福大学的研究人员着重于开发一种新方法来识别给定表型的假定因果变体,同时允许非线性效应以提高功率。


图示:工作流程概述。(来源:论文)

深度神经网络(DNN)可以通过在其框架中使用隐藏层,来有效地学习数据对感兴趣结果的线性和非线性影响,而无需明确指定它们。深度神经网络因其在许多科学问题中的卓越性能而广受欢迎,在许多领域显示出卓越的预测准确性,包括图像研究中的对象检测、识别和分割。尽管现在有大规模的遗传数据可用于潜在地着手进行遗传数据分析深度学习方法,但 DNN 方法在 WGS 研究中的应用受到限制。将 DNN 广泛应用于遗传数据的一个障碍是它们的可解释性。

线性回归逻辑回归不同,由于其多层非线性结构,通常难以确定遗传变异的变化如何影响 DNN 中的疾病结果。尽管已经开发了几种方法来提高神经网络的可解释性并量化输入特征的相对重要性,但大多数方法缺乏对所选特征的错误发现率(FDR)的严格控制。此外,现有方法易受噪声影响且缺乏稳健性。Ghorbani 团队已经证明,小的扰动可以改变特征的重要性,这可能导致对同一数据集的显著不同解释。在最新的研究中,斯坦福大学的研究团队考虑了 DNN 中可扩展的、稳健的变量选择问题,用于识别 WGS 研究中推定的因果遗传变异。

仿冒框架是统计领域的最新突破,专为具有严格 FDR 控制的特征选择而设计。基于仿制品的推理的想法是生成原始特征的合成、嘈杂的副本(仿制品)。在具有原始特征及其仿制品的学习模型中,仿制品用作特征选择的负控制。Model-X 仿制品不需要任何将基因型与表型联系起来的关系,并且对与样本大小相关的特征数量没有限制。因此,它们可以自然地为任何学习方法带来可解释性,包括但不限于边缘关联测试、Lasso 等联合线性模型和非线性 DNN。

值得注意的是,Sesia 团队为基于线性 Lasso 回归的遗传研究提出了 KnockoffZoom。对于非线性 DNN 中的特征选择,Lu 团队提出了基于仿冒的 DeepPINK,而 Song 和 Li 提出了使用概念上相似的代理变量的 SurvNet,但都没有针对当前的基因研究进行优化。

此外,仿冒副本/代理变量是随机生成的,为已经脆弱的 DNN 的解释增加了额外的随机性。He 团队提出了 KnockoffScreen 利用多个仿冒品来提高特征选择的稳定性,但它是建立在遗传研究中传统的边际关联测试之上,没有考虑到遗传变异的非线性和交互作用。

在最新的研究中,斯坦福大学的研究人员将分层 DNN 与多个仿制品(HiDe-MK)相结合,以开发一种可解释的 DNN,用于在具有严格 FDR 控制的基因组测序研究中识别推定的因果变异。除了对增强功率的非线性效应建模和使用多个仿制品来提高稳定性之外,还有三个额外的贡献。

首先,他们提出了一种分层 DNN 架构,该架构适用于分析测序研究中常见和罕见的变体,它还允许调整潜在的混杂因素。与完全连接的神经网络(FCNN)模型相比,新架构所需的参数和激活次数要少几个数量级。

其次,该团队确定了由于测序研究中存在低频和稀有变异而导致的梯度消失问题,并提出了使用指数整流线性单元(ELU)激活函数的实用解决方案。与流行的整流线性单元(ReLU)激活函数相比,这种修改导致功率大幅增加。

第三,研究人员发现 DNN 中的特征选择具有明显的随机性,因为它们具有随机性,这可能会阻碍可解释性并导致误导性结果。

研究人员观察到,具有相同超参数的 DNN 的不同运行会产生不一致的特征重要性得分(FI),尽管预测准确度的差异可以忽略不计。

研究人员通过在 HiDe-MK 的所有 epoch 和超参数中聚合 FI,提出了一种稳定的特征选择。FI 的这种聚合使得对 HiDe-MK 的强大解释成为可能并稳定了特征选择。该团队使用来自 10,797 名临床诊断的 AD 病例和 10,308 名健康对照的数据将所提出的方法应用于 AD 遗传学分析。

通过对模拟数据集进行彻底的实验,验证了回归和分类,在常见和罕见的变体上,研究人员凭经验表明,所提出的方法通过受控的 FDR 提高了功率,并显著提高了 FI 的稳定性。

对于真实数据分析,研究人员将稳定的 HiDe-MK 应用于两个任务;GWAS 的确认阶段,以及 pQTL 的功能知情分析。Stabilized HiDe-MK 确定了线性模型遗漏的几个遗传变异(Lasso with multiple knockoffs,Lasso-MK)。这可能有助于在未来的基因研究中使用复杂的 DNN 发现其他风险变体。


图示:与单次 HiDe-MK 运行相比,Stabilized HiDe-MK 提高了 FI 的稳定性。(来源:论文)

目前,该团队的分析基于假设同质种群的 SCIT 仿制品生成器。扩展到其他血统,特别是少数民族人口或混合人口,尤其具有挑战性。先前的实证研究表明,对于混合种群,可以通过以下方式实现有效的 FDR:(1)根据相应的混合种群数据生成仿制品和(2)将祖先主成分调整为协变量。然而,已经表明,需要考虑人口结构的新仿制生成器才能更好地解决人口分层问题。未来结合这种直接考虑种群结构的新仿冒生成器可以进一步提高所提出方法的性能。

如果目标是特征选择,研究人员观察到预测精度本身不足以作为模型训练的单一标准。具有相似预测精度但 FI 不同的模型在特征选择方面可能具有不同的能力。例如,Lasso 和 Ridge 回归都是线性模型,可以产生相似的预测精度,但 FI 可能有很大不同,因此功率可能会非常不同。目前,研究人员将神经网络中的梯度定义为 FI。未来对神经网络中 FI 的最佳选择的研究将非常有趣。


图示:功率和 FDR 比较。(来源:论文)

最后,研究人员发现将 DNN 拟合到包含基因组中的所有遗传变体仍然具有挑战性,尽管与通常的神经网络相比,提出的架构已经取得了实质性的改进,以提高计算效率。因此,当前的分析侧重于使用复制数据集的方法比较。


图示:分层层提高了计算效率。(来源:论文)

开发分布式学习,在未来进一步优化内存使用和计算时间将是有意义的;这样 DNN 可以有效地应用于大规模全基因组分析,以发现全基因组的因果变异。

论文链接:https://www.nature.com/articles/s42256-022-00525-0

理论线性回归神经网络
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

梯度消失问题技术

梯度消失指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞,直到梯度变得足够大,而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文:「Learning long-term dependencies with gradient descent is difficult」,目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

协变量技术

协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。 协变量(covariate)在心理学、行为科学中,是指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

Zoom机构
暂无评论
暂无评论~