Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

数据管理顶会VLDB EA&B最佳论文奖公布,SFU王健楠等人获奖

刚刚,数据管理顶会 VLDB 公布了今年的 EA&B 最佳论文奖项,本次的获奖论文为西蒙弗雷泽大学和腾讯合作的《Are We Ready for Learned Cardinality Estimation(通过机器学习的基数估计技术成熟了吗?)》。

VLDB 是数据管理领域两大顶会之一,面向数据管理数据库研究人员、供应商、从业人员、应用程序开发人员等群体。VLDB 2021 大会以线上、线下两种方式举行,于当地时间 8 月 16 日在丹麦哥本哈根开幕。EA&B(Experiment, Analysis and Benchmark,实验、分析与基准)最佳论文奖每年颁发一次。
  • 论文地址:https://arxiv.org/pdf/2012.06743.pdf

  • 项目地址:https://github.com/sfu-db/AreCELearnedYet

基数估计是查询优化中一个基本但长期未解决的问题。在获奖的这篇论文中,研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些 learned 的基数模型?」研究包括三个主要部分:
  • 首先,关注静态环境 (即没有数据更新) 并在统一的工作负载设置下,对四个真实世界的数据集比较了五种新的 learned methods 和九种传统方法。结果表明,learned models 确实比传统方法更准确,但是它们往往需要较高的训练和推理成本;

  • 其次,探索这些 learned models 是否适用于动态环境 (例如频繁的数据更新)。研究发现,它们无法跟上快速数据更新并返回由于不同原因造成的重要错误。对于不太频繁的更新,它们可以表现得更好,但它们之间没有明确的赢家;

  • 第三,更深入地研究了 learned models,并探索它们何时可能出错。结果表明,learned methods 的性能可以很大程度上受到变化的影响,比如偏斜或领域大小。更重要的是,其行为很难解释,而且常常难以预测。

这篇论文的合著者主要来自西蒙弗雷泽大学王健楠团队。王健楠是SFU计算机系的副教授,2013 年在清华大学获得博士学位,2013 年 - 2015 年间在加州大学伯克利分校AMPLab进行博士后阶段的研究工作。所领导开发的数据准备工具dataprep.ai 目前已经有近 20 万的下载量。他所获奖励包括:加拿大计算机协会授予的杰出青年奖 (2020),IEEE授予的数据工程新星奖(2018),ACM SIGMOD 最佳演示奖(2016),CCF最佳博士论文奖(2013),Google PhD Fellowship (2011)。他是VLDB 2023大会共同主席,VLDB 2021副主编。

王健楠表示:「learned methods 是目前数据库很火的领域,但是目前的研究工作太关心模型的准确度了,而没有考虑其它把他部署到实际系统会遇到的挑战。我们这篇论文其实想给这个领域的研究中心扭转过来,让大家更多的关心如何降低模型的 cost,以及让模型更可信。」

ML for DB(ML4DB)是近年来很热门的领域,在今年的 VLDB 会议上,该研究方向分别有 1 个 Keynote、1 个 Workshop、1 个 Tutorial 和数篇相关论文。但相对于其他领域来说,ML4DB 是一个新领域,基本是从 SIGMOD 2018 的 MIT 论文《The Case for Learned Index Structures》开始受到关注的。从研究现状来看,通过机器学习的基数估计方法现阶段还无法投入实用。

图灵奖得主 David Patterson 曾说过「For Better or Worse, Benchmarks Shape a Field.」 ImageNet 是帮助图片识别问题前进了一大步的 benchmark,目前 ML4DB 也在等待这样的 benchmark。「我们的论文沿这个方向走出了第一步,这可能是我们的论文获奖的一个很重要的原因。」王健楠表示。

研究团队介绍说,虽然目前无法直接投入使用,但是这一领域的研究非常有潜力,尤其是在准确率方面可以比传统方法取得更优越的效果。而这篇论文可以帮助大家指出一些更有潜力的「升温」方向。新技术刚出现的时候,往往都伴随巨大的优势与劣势,这才使得完善劣势的部分变得重要。比如自动驾驶的可靠性问题让它在目前阶段很难实用,但是自动驾驶节省人力的优势,驱使大家去努力解决它的劣势,所以关于自动驾驶技术的研究才能一直「升温」。ML4DB 也是类似的,机器学习的方法展现了很多优势,但是同时也有劣势,这才会让相关研究「升温」。
 
出于实用目标,具体而言,团队今后的研究将从两方面入手:
  • 不用黑箱模型,而是选择一些可解释的模型。可以尝试经典的 ML 模型,比如一些树模型,从而避开这个问题;

  • 用黑箱模型,但是要提高 debug 能力。比如该实验室的相关工作《Complaint-driven Training Data Debugging for Query 2.0》通过 debug 训练数据的方式,从而提升模型的效果。这篇论文已经发表在 SIGMOD2020 上,领域内也有很多这方面的工作。

Learned Method 工作流程。

获奖论文中也提到,基于 ML 的基数估计法在动态环境表现不佳的一个主要原因,是模型训练速度跟不上数据库的更新频率。如果模型训练速度足够快(训练成本也可以接受),基于 ML 的基数估计法在实际部署中会有多大的发挥空间?
 
团队表示,如果模型训练速度足够快,的确可以让一些 ML 的方法向实际部署迈进一大步,不过仍有其它的 cost 需要考虑,比如 Inference time(推断时间)。以 OLTP 场景举例,OLTP 往往会要求很快的查询响应时间,可能某应用要求查询响应时间低于 100 ms。传统的基数估计方法可能只需要占用其中的 1 ms,而现有方法可能直接就占了 200 ms。这对用户而言是不能接受的。
 
同时,获取训练数据也有 cost。一些基于 ML 的基数估计方法需要查询的结果作为训练数据的标签,而在动态环境里,这些标签随时都会失效,所以获取足够多的新训练数据也可能花费很多时间。

在论文中,研究者也讨论了 learned methods 不 work 的情况,比如在一些简单直观的逻辑规则上,这些 learned models 经常违反这些规则。具体不足如下:
  • 所有新的 learned 估计都倾向于在更相关的数据上产生更大的误差;

  • 不同方法对于更倾斜的数据或域更大的数据有不同的反应,这可能是由于在选择模型、输入特征和损失函数方面的差异;

  • 研究者提出了针对基数估计器的五条规则,发现除了 DeepDB 以外的所有新 learned models 都违反了这些规则;

  • 在新的 learned 估计器中使用的模型的不透明性,在可调试性、可解释性、可预测性和可重现性方面可能会带来麻烦。

此外,学术界 DB 研究还会存在一些挑战。一方面是数据规模,另一方面是很难与真实用户直接进行沟通。开源可以在一定程度上缓解这个挑战。DataPrep (http://dataprep.ai) 是该团队近两年领导的一个数据准备的开源项目,目前已经有近 20 万的下载量,得到了很多真实用户的需求反馈,并且也吸引一些业界的关注。
 
王健楠介绍,团队近期围绕的研究方向主要是增强 ML 的可信度,也做了一系列 ML debugging 的工作,相关论文发表在 SIGMOD 2020,VLDB 2021 和 VLDB 2022。在 Benchmark 方面,团队也已经构建了基数估计的 Benchmark,在 Github 上开源供大家使用:https://github.com/sfu-db/AreCELearnedYet。
理论最佳论文奖SFU王健楠VLDB 2021数据管理领域两大顶会之一
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章
暂无评论
暂无评论~