顾晨波、笪洁琼、Aileen编译

数据科学即将迎来“无代码”时代

我们正在进入数据科学实践的新阶段,即“无代码”时代。 像所有重大的变化一样,这个变化还没有在实践中清晰地体现,但这个变化影响深远,发展趋势非常明显。

现在,每一周都会有一些自动代码行业的最新进展。创业公司的集成产品是有一些进展的,不过更多见的是基于现有分析平台供应商新添加的功能或模块。

自从自动化机器学习(AML)平台出现以来,我一直在关注它们的成长。

我在2016年春天,撰写了一篇关于它们的文章,题目是“数据科学家将被自动化机器学习平台取代并在2025年失业!”。

当然,我的预测不是绝对准确的,但在过去的两年半里,自动化功能在我们机器学习行业中的发展确实非常引人注目。 

不需要人工写代码的数据科学

无代码数据科学(即不需要人工写代码的数据科学),或自动机器学习,或者可以称为简单易用的 “增强型”数据科学产品,范围包括:

  • 附带指导的平台:具有高度指导功能的建模程序平台(当然还是需要用户完成一定步骤,这样的平台有BigML,SAS,Alteryx)。经典的简易操作平台(drag-and-drop )是这一代的基础。

  • 自动机器学习(AML):全自动机器学习平台(例如DataRobot)。

  • 会话分析:在最新版本中,用户只要提出可以通过常用英语解决的问题,平台就会提供最佳答案,选择数据,特征,建模技术,甚至可能是最佳数据可视化。

不仅仅为了先进的分析

我们工具的智能扩展从预测和规范建模,已经扩展到了数据混合和数据准备领域,甚至扩展到数据视觉设计的领域。这意味着无代码智能功能可提供传统商学院的商业智能分析师(BI business analysts)使用,当然也可以为公民数据学者(又名Citizen Data Scientists)提供支持。

这种演变的市场驱动因素众所周知。在高级分析和人工智能中,核心的困难在于精英数据科学家的短缺,以及其高昂的成本和迫切的需求。在这个领域,最需要的是洞察力,效率和一致性。简而言之,就是效率高,速度快。

然而,上述工具在数据准备,混合,特征识别领域,对数据科学家来说也很重要,但是这些工具真正吸引的是有着更多数据分析师/ BI从业者的世界。在这个世界中,经典静态数据的ETL仍然是一个巨大的负担和时间的延迟,它正在从IT专家的功能迅速转向自助服务。

简易平台->写代码->回到简易平台

我在2001年开始从事数据科学研究时,SAS和SPSS是主要的工具,并且已经从他们的专有代码转向简易操作平台,这便是机器学习自动化的最早形式。

在这之后的7~8年,学术界转向R语言教学,因为虽然SAS和SPSS向学生免费开放,但是他们仍然向教师收费(尽管给学术界的折扣很大)。但是,R一直是免费的。

然后我们就到了这样一个时代,一直持续到今天。在这个时代里,成为数据科学家意味着成为程序员。用代码作业,这就是当前这一代数据科学家受到教育的方式,也是他们在数据科学实践的方式。

人们有着一个并不正确的误解:在简易操作系统平台中,不允许微小超参数的调试,而这应该被允许。如果你曾经使用过SAS Enterprise Miner或其竞争对手的平台上,那么您知道这个想法并不对,事实上,微调非常容易做到。

在我的脑海里,总需要写代码是一个不必要的弯路—这往往会让新的数据科学实践者忽视基础知识,而致力于学习另一种编程语言。

模型质量怎么样

我们倾向于将“提高模型的准确性”视为高级分析是否成功的标准。有一种观念认为,依靠自动化的无代码解决方案会丢失部分准确性。事实并非如此。

像DataRobot,Tazi.ai和OneClick.ai这样的AutoML平台不仅支持并行运行数百种模型类型,还包括超参数,而且它们还可以执行变换,特征选择甚至进行一些特征工程。在准确度上击败这样的平台是很困难的。

需要注意的是,应用特征工程领域的专业知识仍然是人类的优势。

也许更重要的是,你在开发上花费几周时间得到的结果和这些AutoML平台提供的几天甚至几小时的结果相似,那到底哪个更值?

无代码化带来更深远的影响

在我看来,无代码化的最大受益者实际上是传统数据分析师和数据学者,他们仍然最关注BI静态数据。独立的数据混合和准备平台,对这个群体(以及工作量将大大减轻的IT工作者)来说,是一个巨大的好处。

这些无代码化数据准备平台,例如ClearStory Data,Paxata和Trifacta正在迅速将机器学习功能纳入它们的流程,帮助用户选择合适的数据源进行数据混合,判断哪些数据项有价值,甚至它们的功能扩展到了特征工程特征选择

现代数据平台正在使用嵌入式机器学习技术,作为智能数据自动清洗或异常值处理的典范。

其他公司,例如Octopai公司,刚刚被Gartner评为“5大酷炫公司”之一,专注于让用户通过自动化技术快速查找可信数据,使用机器学习和模式分析来确定不同的数据要素,创建的背景数据,以及数据的预使用和转换之间的关系。

这些平台还通过强制执行权限以及保护PID和其他类似敏感数据来实现数据安全的自助服务。

甚至数据可视化技术的领导者Tableau也正在使用自然语言处理(NLP)和其他机器学习(ML)工具推出会话分析功能,允许用户以简单的英语提出查询要求,并收到最优可视化效果。

这对数据科学家而言究竟意味着什么

Gartner认为,在两年内,即到2020年前,公民数据学者(即citizen data scientist)所完成的高级分析将在数量上和价值上超越数据科学家。他们建议数据科学家专注于专业问题,并将企业级模型嵌入到应用程序中。

我不同意此想法,这似乎会使数据科学家降级去做QA和产品实施(Implementation)的工作。这不是我们的本职工作。

我的看法是,由于较小的数据科学家团队能够处理越来越多的项目,这将迅速将高级分析的使用范围扩大到更深入的项目组织层次。

在一两年之间的我们的技术已经整合了数据科学家必备的数据混合以及数据清洗功能,以及选择最适合某个项目的预测算法的能力。这正是自动无代码化数据科学工具正在取代的领域。

需要创建,监控和管理成百上千个模型的公司是这种技术最早的采用者,特别是保险和金融服务行业。

那还剩下了什么?剩下了分析优化师的高级角色。麦肯锡最近认为这是任何数据科学项目中最重要的角色。简而言之,分析优化师的工作如下:

1、引导并识别在公司业务中,在哪里数据分析可以发挥作用。

2、优化分析的流程排序。

3、在项目中,能够胜任项目经理。

4、积极采用有效优化成本效益解决方案。

换句话说,将业务问题转化为数据科学项目,并引导优化各种类型的风险和成果,使这些项目优先化。 

那所谓的人工智能呢?

是的,我们最近在图像,文本和语音处理中使用卷积神经网络(CNNs)和递归神经网络(RNNs)的最新进展中,也正在促进迅速推广自动化无代码化的解决方案。它们发展的速度还不够快,是因为缺少具有深度学习技能的数据科学家,这个问题比普通的数据科学行业还要严重。

微软和谷歌都在去年推出了自动深度学习平台。这些平台从迁移学习起步,正朝向完整的AutoDL平台进发。详细请参阅微软 Custom Vision Services和Google的类似条目Cloud AutoML。

还有一些研究集成AutoDL平台的初创公司。我们今年早些时候关注了OneClick.AI。它们包括了完整的AutoML和AutoDL平台。 Gartner最近提名DimensionalMechanics称其拥有AutoDL平台的“5大炫酷公司”之一。

曾经有一段时间,我试图持续更新和整合无代码化AutoML和AutoDL的供应商列表,并提供有关其功能的更新。但因为该行业的快速发展,使得这个整合的工作量急速上升。

我希望Gartner或其他一些团队能够继续全面的对这个领域进行关注。在2017年,Gartner做了一个相当详细的报告,名为“未来数据和分析的深度分析技术”。这是一个非常棒的供应商总结报告,虽然有一些我留意的供应商并没有被囊括其中。

报告链接:https://www.gartner.com/doc/3773164/augmented-analytics-future-data-analytics

据我所知,当前没有全面整合所有完全自动化或基本全自动化功能平台供应商的统计表格。然而,Gartner的报告中,你可以看到,从IBM和SAS这些大企业,到小型的初创公司都在提供类似服务。

关于作者:Bill Vorhies是Data Science Central的编辑总监,自2001年以来一直从事数据科学工作。

相关报道:https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science?from=singlemessage&isappinstalled=0

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业代码AutoML数据科学
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

推荐文章
暂无评论
暂无评论~