Flytxt作者李海明、王欣校对黄继彦编辑张恬钰翻译

在时间关系数据上AutoML:一个新的前沿

本文介绍了AutoML的发展历史及其在时间关系数据上的应用方案。

现实世界中的机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。自动化机器学习(AutoML)由于在构建和维护机器学习工作流中的关键步骤中所展现出的广泛适用性,使得该领域的研究前景一片光明。它减轻了人类专家的工作负担,使他们能够专注于复杂、非重复和具有创造性的学习问题。

AutoML的最新进展主要包括从时间关系数据库中自动发现有意义的表间关系的复杂功能合成(例如,深度特征综合),使用模型自动调整进行概念漂移(例如,AutoGBT),以及深度学习模型的自动设计(例如,神经结构搜索),如图1所示。这些研究进展提高了数据科学家的生产力,从而显著提高了AutoML系统的实用性,并使得非机器学习专家也能够处理现实中不同领域的数据科学问题。

图1 AutoML进化史

在时间关系数据库中使用AutoML

在诸如在线广告,推荐系统,自动与客户交流等机器学习应用中,数据集可以跨越多个具有时间戳的相关表来显示事件的时间安排。而传统方法则需要专家们通过繁琐的试错法手动组合表格来获取有意义的特征。用于处理时态关系数据的AutoML考虑了相关关键字段的临时连接,并通过自动发现重要的表间关系来自动进行特征合成。

在没有域信息的情况下,实现基于时态关系数据的真实世界的AutoML案例包括自动生成有用的时态信息和跨多个子表格有效合并特征,且不会导致数据泄露。除了这些困难外,还需要自动选择最佳的学习模型和受资源约束的参数集,以使解决方案足够通用,并且符合时间和内容预算。

有趣的是,今年的KDD杯开展了以AutoML为主题的挑战赛,邀请了全世界AI / ML领域的研究和从业人员为时态关系数据库开发最新的AutoML。

我们的解决方法

我们的工作流程包括预处理,跨关系表的自动特征合成,模型学习和预测这些步骤。预处理包括对于偏斜校正的特征变换以及平方和三次特征的增强。它还包括分类特征的频率编码,而特征是使用子表中聚合指标的时间联接自动合成的。多数类的实例将进行下列采样以保持1:3的比率。渐进式决策树(GBDT)的Catboost实现可用于学习算法,交叉验证则可用于参数调整来决定最佳树的数量。图2概括地描述了我们的工作流程:

图2 我们的模型管道

时态数据聚合

当时态关系数据跨越多个表格时,找出表间的重要关系然后以最佳方式执行数据聚合将有助于特征提取。为了提取正确的特征表示,可对数字特征使用均值、求和等聚合运算,而对分类特征则采用计数、众数等运算。求频率,聚合指标的计算需要在适当的时间窗口上使用交叉验证完成。

特征处理

连接多个数据库的表会产生高度偏斜的特征。我们的特征预处理步骤包括偏斜校正以及特征变换和增强。特征增强包括添加具有周期性的数字特征的平方和三次方变换以及正则或余弦,日期时间特征的变换(例如,月,时和分)来丰富特征空间。还可对分类特征进行频率编码来进一步扩大特征空间。

模型选择

在计算和存储方面,尝试几种线性和非线性模型的成本可能会非常昂贵。由于梯度增强决策树在处理分类特征和可扩展性方面的鲁棒性,我们将模型组合限制在CatBoost的实现上。同时使用交叉验证参数(例如树的数量)进行调整,以避免过度拟合。

我们的解决方案拓展了现有的AutoML研究项目组合,允许使用涉及时态关系数据库学习的用例。可以访问Github存储库来查看我们的解决方案。

AutoML趋势

随着行业越来越关注从AI中快速获取价值并减少机器学习模型从原型到生产部署的周期时间,能够降低AI准入门槛并实现AI工作流程自动化的AutoML已成为重要推动力。AutoML社区越来越关注于支持真实案例的使用,包括从结构化和非结构化数据、时态关系数据库以及受概念漂移影响的数据流中学习。

尽管AutoML最初专注于最佳机器学习管道的自动构建,随着时间的推移,对此类管道自动维护处理它的范围正在扩大,模型自治性进一步增加。AutoML的进步和强大的计算基础设施的可利用性将推动人机智能的融合,使得人类专家能够更好地将精力集中在学习复杂的,非重复和创造性的问题上,从而获得更优的解决方案。

原文标题:

AutoMLfor Temporal Relational Data: A New Frontier

原文链接:

https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论AutoML
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

神经结构搜索技术

神经结构搜索(NAS)表示自动设计人工神经网络(ANN)的过程。

推荐文章
暂无评论
暂无评论~