Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

可在数据限制下训练高维因果结构,德国DZNE团队提出一种深度神经架构

编辑 | 萝卜皮

因果学习是科学人工智能的一个关键挑战,因为它使研究人员能够超越纯粹的相关或预测分析,学习潜在的因果关系,这对于科学理解以及广泛的下游任务非常重要。

受新兴生物医学问题的启发,德国神经退行性疾病中心(German Center for Neurodegenerative Diseases,DZNE)的研究人员提出了一种深度神经架构,用于从高维数据和先验因果知识的组合中学习变量之间的因果关系。

该团队将卷积神经网络神经网络结合在因果风险框架内,提供了一种在高维、噪声和数据限制条件下明显有效的方法,这些条件是许多应用(包括大规模生物学)的特征。

在实验中,研究人员发现所提出的方法可以有效地识别数千个变量中的新因果关系。结果包括广泛的(线性和非线性)模拟(其中基本事实是已知的并且可以直接比较),以及真实的生物学示例,其中模型应用于高维分子数据,并将其输出与完全看不见的验证实验进行比较 。这些结果支持了深度学习方法可用于大规模学习因果网络的观点。

该研究以「Deep learning of causal structures in high dimensions under data limitations」为题,于 2023 年 10 月 26 日发布在《Nature Machine Intelligence》。

图片

因果关系仍然是人工智能(AI)研究中的一个重要的开放领域,识别变量之间的因果关系的任务是许多科学领域的关键。学习因果结构方面的丰富工作包括 PC、LiNGAM、IDA、GIES、RFCI、ICP 和 MRCL 等方法。

通过将因果结构学习重新表述为连续优化问题,促进了将因果结构学习扩展到更大的问题,并且最近的神经方法(例如 SDI、DCDI、DCD-FG 和 ENCO)已经展示了最先进的性能。

然而,从数据中学习因果结构仍然很重要,并且继续带来挑战,特别是在许多现实世界问题中出现的条件下(例如高维度、有限的数据大小和隐藏变量)。

在生物医学中,代表基因或蛋白质等实体之间相互作用的因果网络发挥着核心概念和实践作用。人们越来越多地认识到这种网络是依赖于环境的,并且被认为是疾病异质性和治疗反应变化的基础。

表征这种异质性的一个关键瓶颈在于大规模学习因果结构的挑战性,因为一般的方法论问题以及生物领域的相关方面,例如高维度、复杂的潜在事件、隐藏/未测量变量、有限数据和噪音水平的存在。

在最新的研究中,DZNE 的研究人员提出了一种因果学习的深层架构,该架构特别受高维生物医学问题的推动。该方法在新兴的因果风险范式中运作,使研究人员能够利用人工智能工具并扩展到涉及数千个变量的非常高维度的问题。

学习者提出允许整合有关因果关系子集的部分知识,然后寻求超越最初已知的知识以学习所有变量之间的关系。这对应于一个常见的科学用例,其中一开始就可以获得一些先验知识(来自先前的实验或科学背景知识),但希望超越已知的知识来学习涵盖所有可用变量的模型。

图片

图示:新的学习方案概念概述及其在大规模生物实验中的应用。(来源:论文)

因果结构学习文献的很大一部分涉及学习模型,这些模型允许明确描述相关数据生成模型(包括观察分布和干预分布),并且在这个意义上是「生成的」。采用不同的方法,最近的一系列工作,考虑了变量之间因果关系的学习指标,这可以被视为与因果风险的概念相关。例如,这样的指示符可以编码,对于一对变量 A 和 B,A 是否对 B、B 对 A 有因果影响,或者两者都没有。

DZNE 团队提出的方法称为「深度判别因果学习」(deep discriminative causal learning,D2CL),属于后一种风格。该团队考虑因果结构学习问题的一个版本,其中期望的输出由观察变量之间因果关系的二元指标组成,即具有用变量标识的节点的有向图。可用的多元数据 X 被转换以向神经网络 (NN) 提供输入,其输出是因果指标的估计。D2CL 在底层框架(基于因果风险而不是生成因果模型)和利用神经网络方面都不同于经典的因果结构学习方法。

图片

图示:D2CL 架构、训练和推理概述。(来源:论文)

该方法的假设本质上也不同于经典因果结构学习中的假设,并且涉及数据生成过程(方法)中的更高级别的规律性。最近的许多研究也利用神经方法来学习因果结构,并引入基于有向无环图(DAG)框架的连续优化框架的基础。

相比之下,D2CL 使用不基于 DAG 的基于风险的方法。DZNE 团队利用因果风险的概念来提出新的学习者。与 D2CL 一样,近期其他团队提出的 CSIvA 方法寻求将输入数据直接映射到图形输出。

从某种意义上说,这两种方法都追求数据输入到图形输出的「直接」映射,关键区别在于 CSIvA 使用元学习并寻求跨系统泛化,而 D2CL 使用监督学习来推广给定系统的新干预措施 (例如,感兴趣的生物系统)。

未来工作的一个重要方向可能是结合这两种方法,例如使用 CSIvA 为 D2CL 提供初始输入;这将结合一般的、基于模拟的学习和数据高效、针对特定系统的训练。

研究人员证明,特定情境的训练使 D2CL 能够成功学习一系列场景中的结构,包括具有挑战性的现实世界实验数据。此外,D2CL 显然可以扩展到大量变量(该团队展示了高达 p = 50,000 个节点的示例),并且适用于无法使用非常大的样本数据或强大的模拟引擎的情况。

图片

图示:大规模模拟数据的结果。(来源:论文)

但是,目前仍然缺乏严格的理论和对该研究中方法的理论特性的理解。未来理论工作的一个关键方向将是了解底层系统的精确条件,以确保直接映射方法能够保证特定因果结构的恢复。

一个有趣的现象是,所提出的方法可能会受益于「维度的祝福」,因为随着维度 p 的增长,学习问题通常会享受到更多的例子。相反,与已建立的统计因果模型相反,DZNE 团队的方法(在当前阶段)不能在小 p 体系中使用,因为示例的数量对于深度学习来说太少了。

论文链接:https://www.nature.com/articles/s42256-023-00744-z

理论深度学习DZNE 团队统计因果模型
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

结构学习技术

结构化预测是监督学习,分类和回归的标准范式的一种推广。 所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

有向无环图技术

在图论中,如果一个有向图从任意顶点出发无法经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~