现实世界中的机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。自动化机器学习(AutoML)由于在构建和维护机器学习工作流中的关键步骤中所展现出的广泛适用性,使得该领域的研究前景一片光明。它减轻了人类专家的工作负担,使他们能够专注于复杂、非重复和具有创造性的学习问题。
在时间关系数据库中使用AutoML
在诸如在线广告,推荐系统,自动与客户交流等机器学习应用中,数据集可以跨越多个具有时间戳的相关表来显示事件的时间安排。而传统方法则需要专家们通过繁琐的试错法手动组合表格来获取有意义的特征。用于处理时态关系数据的AutoML考虑了相关关键字段的临时连接,并通过自动发现重要的表间关系来自动进行特征合成。
有趣的是,今年的KDD杯开展了以AutoML为主题的挑战赛,邀请了全世界AI / ML领域的研究和从业人员为时态关系数据库开发最新的AutoML。
我们的解决方法
我们的工作流程包括预处理,跨关系表的自动特征合成,模型学习和预测这些步骤。预处理包括对于偏斜校正的特征变换以及平方和三次特征的增强。它还包括分类特征的频率编码,而特征是使用子表中聚合指标的时间联接自动合成的。多数类的实例将进行下列采样以保持1:3的比率。渐进式决策树(GBDT)的Catboost实现可用于学习算法,交叉验证则可用于参数调整来决定最佳树的数量。图2概括地描述了我们的工作流程:
时态数据聚合
当时态关系数据跨越多个表格时,找出表间的重要关系然后以最佳方式执行数据聚合将有助于特征提取。为了提取正确的特征表示,可对数字特征使用均值、求和等聚合运算,而对分类特征则采用计数、众数等运算。求频率,聚合指标的计算需要在适当的时间窗口上使用交叉验证完成。
特征处理
模型选择
在计算和存储方面,尝试几种线性和非线性模型的成本可能会非常昂贵。由于梯度增强决策树在处理分类特征和可扩展性方面的鲁棒性,我们将模型组合限制在CatBoost的实现上。同时使用交叉验证对超参数(例如树的数量)进行调整,以避免过度拟合。
AutoML趋势
随着行业越来越关注从AI中快速获取价值并减少机器学习模型从原型到生产部署的周期时间,能够降低AI准入门槛并实现AI工作流程自动化的AutoML已成为重要推动力。AutoML社区越来越关注于支持真实案例的使用,包括从结构化和非结构化数据、时态关系数据库以及受概念漂移影响的数据流中学习。
原文标题:
AutoMLfor Temporal Relational Data: A New Frontier
原文链接:
https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html