通常,数据科学家们建立模型,来解释和预测当今世界“大数据”中的模式。这些数据科学家目前相当稀缺,人工智能可能会缓解这个问题。最近一个麻省理工学院创业公司的计算机软件,在同数据科学家们竞争时,比大部分科研人员能更好地建立预测模型。
到现在,数据科学家还是依靠他们的直觉塑造和测试计算机模型,来解释和预测数据中的模式。但是,MIT的“
数据科学计算机”软件(Data Science Machine software)通过鉴别原始数据中的相关特性,能够全自动地建立预测模型。这个工具能够帮助数据科学家更有效率地建立和检测预测模型,节省大量开发时间。在没有数据科学家的帮助下,它也能够帮助个人和企业,利用大数据的力量。
Max Kanter, 一位来自MIT计算机科学和AI实验室的数据科学家,同时也是“数据科学计算机”软件的联合创始人,他在IEEE会刊的报道中指出:“我认为它的最大潜能在于增加了掌握数据科学人的数量。数据科学人才的需求量,远远超过了现今数量”。
基于最近的2~12个小时的原始数据集,“数据科学计算机”能自动完善预测模型;同样的工作,可能要花费数据科学家几个月的时间。在10月19日到21日的巴黎IEEE数据科学和先进分析方法的国际会议上,有关“数据科学计算机”软件的论文将会发表。
受过训练的数据科学家,虽然薪水高达10万美金,但对于Facebook和Walmat等各行业公司,仍然是一个稀缺的资源。2011年,麦肯基全球研究院估计,仅仅美国,就面临着14万到19万有数据科学相关分析能力的人才空缺。2012年,《哈佛商业评论》曾报道,数据科学家是21世纪最有魅力的工作。
对数据科学家的需求如此之高的原因是由于大数据革命性的愿景。利用巨大的数据集合解释和预测模式——无论是社会媒体用户的网上行为,金融市场的价值数万亿美元资金流动,或 望远镜发现的数十亿天体。这样的模型可以帮助企业预测个人客户的未来行为,或者用来帮助天文学家自动识别一个繁星夜空的物体。
但如何将原始数据转换成信息,帮助企业或研究人员识别和预测模式?数据科学家们通常要花费数周或数月来准备他们的计算机预测算法。首先,他们筛选确定原始数据的关键变量帮助预测相关行为。然后在一系列的计算机模型,他们使用机器学习技术,不断测试和完善这些变量。
正是这个数据科学家工作的耗时部分,启发了一位麻省理工学院的研究生Kanter和他的导师Kalyan Veeramachaneni(麻省理工学院计算机科学和人工智能实验室研究员)。他们尝试创建了一个计算机程序,自动来找出数据科学中的最大瓶颈。
以前的计算机软件程序,旨在一个维度上去解决一些数据科学问题。所谓一个维度,也就是指一些特定行业或领域的特定问题。但是Kanter 和Veeramachaneni希望他们的“数据科学计算机”软件能解决任何数据科学的通用问题。特别是Veeramachaneni,他利用自己的经验,看到了许多行业的数据科学问题类似地方,而这些问题是他曾在麻省理工学院研究的方向。
上述这些研究经验,有助于第一台“数据科学计算机”的研制成功。“数据科学计算机”完成了从原始数据中,识别和提取相关变量这一“功能自动化”过程。MIT新软件的第二部分专注于自动调谐:从数据中找出最佳的一组参数,来生成的最佳预测。这种情况下,软件根据变量之间的关系和模型预测,选择一个最相关的子集变量和最好的机器学习技术。
“数据科学机器”软件完成后,Kanter和Veeramachaneni在三个不同的数据科学竞赛上测试了软件:KDD Cup 2014,IJCAI和KDD Cup 2015。
最终在这些比赛中,“数据科学计算机”软件打败了906支队伍中的615支。它分别在每场竞争中实现了预测准确度,分别为94%,96%和87%,被当作获胜的模型。这也意味着“数据科学计算机”背后的人工智能,可能还没有击败人类数据的顶级科学家,但它可以相当容易就能达到许多数据科学家的工作量。
“通常,数据科学计算机比许多人类确实很好,但有些人能打败它,”Kanter指出,“所以说人类数据科学家没有任何价值的话,这也太天真了”。
Kanter和Veeramachaneni将“数据科学计算机”视为一个自动化的工具,它可以使数据科学家更有效率,而不是让科学家们完全置身事外。Kanter和Veeramachaneni已经开始调整软件,允许更多的人类控制,而不是简单地无人化操作。
例如,数据科学家可以运行“数据科学计算机”,使用它的结果作为基准,来构建一个更好的预测模型。或者数据科学家可以更加关注工程特性方面,让“数据科学计算机”学习优化软件。
但“数据科学计算机”可能更具破坏性的一面,可能来自授权所有的公司还没有在工资单方面,训练数据科学家。无论大小公司,都可以从大数据中获益,但没有数据训练的科学家团队,除非是一些著名的科技公司,如谷歌或亚马逊。“数据科学计算机”的效率对于一个在大学实验室工作的天文学家,或着一个尚未真正建立一个数据科学团队营销部门的传统零售业务,可能已经足够好。Kanter 指出:
在未来的世界,每个公司都会伴随数据驱动的决策,你不能让现有的数据科学家更有效;你还必须增加可以成为数据科学家人的数量。我认为,训练每个人使其成为数据科学家,这并不是解决问题的办法。而是通过建立新的工具,让机器和人类各自发挥其所长。
某种意义上,“数据科学计算机”可以把任何一家公司变成“科技公司”,使其关键业务的决策和新产品都基于大数据,Kanter 说。软件可能蔓延跨部门大数据之间的影响,如电子商务,集资,零售,教育,金融服务和政府等方面。为此,Kanter 和Veeramachaneni已经通过一家名为FeatureLab的公司,来吸引客户。网站起始页向访问者展示了一条信息:“你的数据处理越多,数据科学家需求量就会越少”。
来自
IEEE,作者 Jeremy Hsu,机器之心编译出品。编译:黄志臻。