Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CMU专家团队创业,OtterTune让数据库插上AI的翅膀

CMU专家团队创业,OtterTune让<mark data-type=concepts data-id=700f9c0f-1e8b-4fde-8bae-6de39c13f022>数据库</mark>插上AI的翅膀

当AI遇上数据库,可以碰撞出怎样的火花?

撰文 | shanshan

近日,人工智能驱动的数据库管理初创公司OtterTune宣布完成了1200万美元A轮融资,本轮融资由Intel Capital和Race Capital领投,并得到了Accel的跟投。

OtterTune成立于2021年,主要产品是通过使用机器学习来分析和优化数据库系统中的数百个配置设置,从而使其管理更加高效和经济。这个产品本身是基于几位创始人在卡内基梅隆计算机科学学院(CMU)的同名研究项目而来。

“现在是创业非常好的一个时间点。数据库上云,颠覆了很多玩法,它虽然解决了数据库管理方面的问题,但是还没有解决优化方面的问题。如果能够开发出真正好用的产品来自动优化数据库,市场体量非常大。”OtterTune联合创始人张伯翰向机器之心表示。

CMU专家团队创业,OtterTune让<mark data-type=concepts data-id=700f9c0f-1e8b-4fde-8bae-6de39c13f022>数据库</mark>插上AI的翅膀

01 让数据库自己解决繁琐调参

数据库是一个非常复杂的系统,它包含大量的配置参数,而且对于不同的硬件配置,不同的工作负载,对应的最优参数文件都是不同的。

通常情况下,DBA(Database Administrator,即数据库管理员)不能简单地重复使用之前调好的参数文件,主要基于自身经验和对当前环境的理解去调整参数,往往需要花费大量时间,而且调整过程中存在大量不确定性。

“在跟客户沟通的过程中,我们发现很多创业公司内部并没有DBA这个职位,也没有太多有数据库经验的工程师,需要花大价钱来雇佣资深DBA。OtterTune可以帮助成千上万这样的公司,帮助他们优化数据库。”OtterTune联合创始人张伯翰向机器之心表示。

OtterTune是利用机器学习寻找最优的数据库配置,这一研究成果最早发表在了2017年的SIGMOD。

当时,卡内基梅隆大学数据库小组的教授、学生和研究人员开发了一个数据库自动调参工具OtterTune,它能利用机器学习数据库参数文件自动化的调优,能利用已有的数据训练机器学习模型,进而自动化的推荐最优参数

OtterTune希望解决数据库长期存在的一些痛点,包括对管理人员专业性要求高;管理成本高;无法实现配置资源最优化等问题。

数据库上云是大趋势,像亚马逊这样大型云厂商的出现以后,越来越多的公司更容易建立自己的数据库,但是,大部分数据库上云之后,并不是在最优状况下运行,比如很多人不知道如何配置数据库,通常会选用默认配置规格或者较高配置规格。这种分配方式造成了严重的资源浪费,存在很大的优化空间。”张伯翰说。

CMU专家团队创业,OtterTune让<mark data-type=concepts data-id=700f9c0f-1e8b-4fde-8bae-6de39c13f022>数据库</mark>插上AI的翅膀

OtterTune能够让数据库部署和调优更加容易,让技术人员甚至不需要专业知识也能顺利完成。当用户配置好OtterTune时,它能自动持续推荐参数文件并把所得结果上传到服务端可视化出来,大大简化DBA的工作。由于OtterTune和数据库的交互只是一个参数文件,这使得该工具更加通用,甚至可以用于其他系统的调参。

张伯翰坦言,“创业不只是技术那么简单,发论文的成功不代表创业的成功,科研和产品落地之间有很大区别,这是学术圈创业的普遍挑战。产品的落地需要根据客户需求不断改变、调整,这是一个艰难的过程。”

虽然创业面临各种挑战,但整个过程同样充满了乐趣。“在创业公司,你要做各种不同的工作,个人的成长是飞速的。看到自己的产品能够解决别人解决不了的问题,真正帮助到客户,成就感非常大。”张伯翰说。

02 从0到1,数据库的生存法则

对于数据库来说,有很多部分都能尝试与机器学习结合。比如预测数据库一段时间的工作负载,如通过挖掘数据库的日志来做自动预警,再到更核心的部分,如学习数据库索引,甚至帮助优化器查询优化。

参数文件调优只是其中的一部分。新一轮融资完成之后,OtterTune希望能够实现从参数调优扩展到更多的领域。

数据库是一个慢行业,建立一个可靠的数据库不是容易的事情,一定要看准需求。”张伯翰说。

回顾传统数据库走过的路,主要分为闭源数据库与开源/云数据库两个阶段,其中闭源数据库主要包括集中式集群、单机数据库,主要面临的挑战为价格昂贵、人员稀少等问题。

张伯翰认为,数据库上云是大趋势。OtterTune会将所有用户尝试的参数文件和对应的性能数据存下来进行利用。这意味着用OtterTune的人越多,用的时间越长,它收集的训练数据越多,推荐效果越好。

数据库是用出来的,需要很多用户,开源之后可以让更多用户使用,发现问题更快迭代;同时,也让更多客户证明数据库的可靠性,有助于拿到更好的企业订单。”

从行业整体发展趋势看,相对闭源商业软件,开源软件的生命周期也显得更有生命力。1996年,Postgres因SQL标准的引入及功能的完善,获得了新生。

PostgreSQL的兼容性是很多系统的一个显著特征。这种兼容性是通过支持PostgreSQL的SQL方言、通信协议或整个前端来实现的。时至今日,国内外很多优秀的数据库产品都与PG有着直接或间接的关系。

OtterTune首先支持调优的数据库就是开源的MySQL和PostgreSQL。目前,OtterTune的产品能够自动优化Amazon Aurora和Amazon RDS上运行的MySQL和PostgreSQL。

CMU专家团队创业,OtterTune让<mark data-type=concepts data-id=700f9c0f-1e8b-4fde-8bae-6de39c13f022>数据库</mark>插上AI的翅膀

数据库自动化和优化不仅需要机器学习的知识,还需要数据库的知识,团队的重要性不言而喻。

Andy Pavlo、Dana Van Aken、Bohang Zhang是OtterTune的三位联合创始人。其中,Andy Pavlo是卡内基梅隆计算机科学学院(CMU)的副教授,他的研究重点是数据库管理系统,特别是内存系统、自动调优(autonomous)架构(OtterTune和NoisePage项目)、事务处理系统和大规模数据分析。多年来,Andy通过在线和面对面的系列讲座以及为数据库技术研究会议提供服务为数据库研究和教育做出了贡献。

OtterTune计划在今年年底前将工程师团队从目前的15人扩大到30人。“学习的能力,是我们非常看重的一点,能在团队中快速成长。其次是团队之间的合作,能够进行良好的沟通合作,快速推进项目。另外,能够对新的知识充满热情,对新的技术充满兴趣,遇到新的挑战能迎难而上。”张伯翰说。

产业机器学习数据库
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~