Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、蛋酱报道

异构表格数据的挑战,深度神经网络如何解?

来自图宾根大学等机构的研究者进行了首个深入研究基于表格数据的深度学习方法的工作,为该领域内的研究者和从业者提供了一份宝贵的指南。

异构表格数据是最常用的数据形式,对于众多关键和计算要求高的应用程序至关重要。深度神经网络在同构数据集上往往性能优异,然而涉及建模表格数据(推理或生成)方面的应用仍然极具挑战性。

近日,来自图宾根大学等机构的研究者进行了一项表格数据 SOTA 深度学习方法的调查研究。该研究首先将这些方法分为三组:数据转换、专用架构和正则化模型,然后全面概述了每个组中的主要方法。

图片


论文地址:https://arxiv.org/abs/2110.01889

通过解释表格数据上的深度学习模型,该研究对生成表格数据的深度学习方法展开了详细的讨论。主要贡献包括对领域内的主要研究流派和现有方法进行分类,同时突出相关挑战和开放型研究问题。这是领域内首个深入研究基于表格数据的深度学习方法的工作,可作为表格数据深度学习研究者和从业者的宝贵指南。

深度神经网络的成功是借助大量计算和存储资源和可用的大型标记数据集(Schmidhuber,2015;Goodfellow et al.,2016),特别是基于卷积、循环深度学习机制(Hochreiter and Schmidhuber,1997)或 transformer 网络(Vaswani 等,2017)。

尽管深度学习方法在同类数据(例如图像、音频和文本数据)上的分类或数据生成任务上均表现出色,但表格数据仍然对这些模型构成挑战(Arik and Pfister,2019;Popov et al.,2019); Shwartz-Ziv and Armon,2021)。Kadra 等(2021)将表格数据集命名为深度神经网络模型最后一个「未征服的城堡(unconquered castle)」。

与图像或语言数据相比,表格数据是异构的,导致其具有密集的数值特征和稀疏的分类特征。此外,这些特征之间的相关性也比图像或语音数据中的空间或语义关系弱。变量可以相关也可以独立,特征也没有位置信息。因此,在不依赖空间信息的情况下发现和利用相关性(Somepalli et al.,2021)是很有必要的。

异构数据是最常用的数据形式(Shwartz-Ziv and Armon,2021),它在许多关键应用中无处不在,例如基于患者病史的医学诊断(Ulmer et al.,2020;Somani et al.,2021;Borisov et al.,2021),金融应用的预测分析(Clements et al.,2020)、点击率 (CTR) ) 预测(Guo et al.,2017)、用户推荐系统(Zhang et al.,2019)、客户流失预测(Ahmed et al.,2017;Tang et al.,2020)、网络安全(Buczak and Guven,2015) 、欺诈检测(Cartella et al.,2021)、身份保护(Liu et al.,2021a)、心理学(Urban and Gates,2021)、延迟估计(Shoman et al.,2020)、异常检测(Pang et al.,2021)等等。在所有这些应用程序中,预测性能和稳健性的提升可能对最终用户和提供此类解决方案的公司都有相当大的好处。但其中需要处理许多与数据相关的陷阱,例如噪音、不精确、不同的属性类型和值范围,或者值的不可用。

同时,深度神经网络与传统机器学习方法相比具有多种优势。它们非常灵活(Sahoo et al.,2017),并允许进行高效的迭代训练。深度神经网络对 AutoML 尤其有价值(He et al.,2021;Artzi et al.,2021;Shi et al.,2021;Fakoor et al.,2020;Gijsbers et al.,2019;Yin et al.,2020)。使用深度神经网络可以生成表格数据,例如,可以帮助缓解类不平衡问题(Wang et al.,2019c)。最后,神经网络可以用于多模态学习问题,其中表格数据可以是许多输入模态之一(Baltrušaitis et al.,2018;Lichtenwalter et al.,2021;Shi et al.,2021;Pölsterl et al.,2021;Soares et al.,2021),用于表格数据蒸馏(Medvedev and D'yakonov,2020;Li et al.,2020a),用于联邦学习(Roschewitz et al.,2021)以及更多场景。

由于数据收集步骤,特别是对于异构数据,成本高昂且耗时,因此有多种方法可以生成合成表格数据。然而,对表格数据中行的概率分布进行建模并生成真实的合成数据具有挑战性,因为异构表格数据通常包括离散和连续变量的混合。连续变量可能有多种模式,而离散列通常是不平衡的。所有这些缺陷与缺失值、噪声值或无界值相结合,使得表格数据生成问题变得相当复杂,即使对于现代深度生成架构也是如此。第 5 章讨论了 SOTA 表格数据生成方法。

另一个重要方面是对表格数据的深度神经网络的解释(Grisci et al.,2021)。许多用于解释深度神经网络的流行方法源于计算机视觉领域,其中突出显示像素组,创建所谓的显著图。尽管如此,对于表格数据集,突出显示变量关系也是必不可少的。许多现有方法,尤其是那些基于注意力机制的方法 (Vaswani et al., 2017),是通过设计突出显示关系,并且它们的注意力图可以很容易地可视化。

基于本研究,数据科学从业者和研究人员将能够快速为用例或研究问题确定起点和指导。

图片


下图 1 是基于表格数据的深度学习模型的概览:

图片


下图 2 是基于表格数据的生成模型的概览(按时间排序)。

图片


该论文 2-8 章的主要内容如下:

第 2 章讨论相关工作。为了向读者介绍该领域,在第 3 章描述了领域内的数据形式、该领域历史的简要概述、列出了通常遇到的主要挑战,并提出了使用表格数据进行深度学习的可能方法的统一分类法。第 4 章详细介绍了使用深度神经网络对表格数据进行建模的主要方法。第 5 章概述了使用深度神经网络生成表格数据。第 6 章概述了表格数据深层模型的解释机制。在第 7 章总结了该领域的状态并给出了未来的观点。第 8 章论文列出了一些开放型研究问题。

感兴趣的读者可以参考论文原文了解更多研究细节。
理论异构数据
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

推荐文章
暂无评论
暂无评论~