当自动化遇上机器学习,会给世界带来什么?

说起AutoML,谷歌显然是一个绕不开的话题。虽然AutoML并不是谷歌创造的单词,但它的确是因为谷歌而进入大众视野。

2017年在谷歌开发者大会上,Sundar Pichai(谷歌CEO)首次公布了AutoML项目,他在博客中这样写道,“Today, designing neural nets is extremely time intensive, and requires an expertise that limits its use to a smaller community of scientists and engineers. That’s why we’ve created an approach called AutoML, showing that it’s possible for neural nets to design neural nets.” 

如果我们要给这段话划个重点,那就是神经网络神经网络,还是神经网络

紧接着在2018年1月,李飞飞(曾任谷歌首席人工智能科学家)在Twitter上发布了谷歌云AutoML Vision,这次发布迅速引起了全世界范围内的大量关注,甚至被业内人士认为是一直面向ML和AI开发者提供服务的谷歌云的战略转型。其产品背后依赖的是两种核心技术,一种是迁移学习,另外一种则是神经架构搜索。

不用担心,即使你对神经网络迁移学习、神经架构搜索这些单词一点也不了解也没有关系,它们的背后其实都是同一件事情,那就是深度学习,这恰恰也是谷歌最擅长的事情。再加上由于谷歌对AutoML的大量宣传,大众很自然地在潜意识中将AutoML与深度学习捆绑在一起。

虽然深度学习在图像识别(这也是AutoML Vision最初面向的对象)领域有着更突出的表现是事实,但是我们也在之前的博客中说过,深度学习并不是万能的解药,AutoML作为一种自动化的方法更不是只为深度学习服务的。

谷歌提供的ML“神奇配方”也不只是AutoML,还有更强大的运算能力。Jeff Dean在2018年3月举办的TensorFlow Dev Summit大会上宣称,未来谷歌可能会用100倍的运算能力取代机器学习专家。

这一声明显然引发了很多讨论,有博客做出了这样的评价,“在评估谷歌的声明时,应当牢记,如果我们被说服,相信有效使用深度学习技术的关键是提高计算能力,谷歌将从中利益,因为在这一领域,谷歌明显遥遥领先。如果这是真的话,我们可能都需要购买谷歌的产品。就其本身而言,这并不意味着谷歌的说法都是错误的,但很好地了解他们的声明背后隐藏的经济动机是有必要的。”(链接:https://www.fast.ai/2018/07/23/auto-ml-3/)

所以,当我们审视AutoML这项技术的时候,就有必要全面看待所有的信息,重新作出理性的判断。

为什么会出现AutoML这种技术?

在典型的机器学习应用程序中,机器学习专家必须应用适当的数据预处理,特征工程,特征提取和特征选择方法,执行算法选择和超参数优化,来最大化机器学习模型的预测性能。由于其中许多步骤通常都需要大量的专业知识,所以只有专业人士才能完成。但为了让更多的普通用户可以使用机器学习,同时也为了帮助机器学习从业者简化流程,提升工作效率,AutoML就出现了,而且成为了眼下应对这一挑战的最佳解决方案。

AutoML旨在创建让用户可以”开箱即用“的软件,帮助缺乏机器学习专业知识的用户完成机器学习流程中,包括数据预处理,特征提取和选择,模型选择超参数优化,模型验证等步骤,用户甚至只需要在电脑上使用一些拖拽之类的操作就能够实现自己想要的功能。

“就好像 C 语言的发明,让程序设计者从此不用懂太多底层电脑的架构就可以写程序。”

---LIVEhouse共同创办人程世嘉

AutoML的优势有哪些?

显然,AutoML最大的优势就是让更多的人可以使用机器学习来解决问题(也就是近些年被提及很多的“AI民主化”),不过我们还是希望将其他所有的优势也都分享出来,在综合了不同渠道和不同专家的分析之后,我们得出了以下几点:

1. 通过自动执行的重复性任务来提高工作效率。

2. 自动化机器学习有助于避免可能因手动引入的错误。

3. 自动化机器学习能够帮助机器学习应用拥有更好的一致性和可规模化能力。

4. 将机器学习流程自动化让快速迭代开发成为可能。

5. 可以缓解不断增长的对数据科学家,机器学习工程师,和机器学习应用的需求。

6. 有了AutoML,许多想要使用机器学习但又不愿意花费重金或者大量的时间成本的公司就可以做出自己的尝试了。

7. 对于企业来说,即便是最贵的机器学习专利解决方案,也比咨询费用或者给机器学习专家的全职工资要更容易负担。

目前有哪些AutoML产品?

谷歌AutoML Vision在上面我们已经介绍过了,除此之外,谷歌还发布了针对视频图像,自然语言处理等领域的多款AutoML产品。

2017年底,微软也发布CustomVision.AI,涵盖图像、视频、文本和语音等各个领域,2018年1月,该公司又推出了完全自动化的平台 Microsoft Custom Vision Services。

国内的百度、阿里等巨头也都推出了自己的AutoML产品。当然还有很多像Qeexo这样的创业公司进入了这个充满潜力的领域。

但值得注意的是,大多数AutoML产品针对深度学习开发,多应用于图像、视频、声音识别,自然语言处理,文本识别,在很多更边缘化的问题上,并没有优势。例如,对于很多移动、物联网行业的企业来说,高度受限的环境和针对传感器数据的解决方案恰恰才是他们面临的问题以及所需要的答案。

所以,在某些特殊的领域,例如轻量化AutoML的领域,创业公司的产品可能才是更好的选择,例如Qeexo所开发的Qeexo AutoML。

(至于Qeexo AutoML到底能够帮助企业解决什么问题,我们会在之后的博客中再详细讨论。)

如今,无疑几乎所有企业都将目光投向了机器学习,但并不是所有企业都可以义无反顾地投入巨大成本来进行无法预知结果的尝试。但有了AutoML的帮助,就能让更多中小型公司获得试错的机会,同时,也会让机器学习有机会发挥出更大的作用。

Qeexo
Qeexo

Qeexo是第一家为嵌入式边缘设备(Cortex M0-M4级别)提供自动化端到端机器学习服务的公司。在Qeexo AutoML的支持下,Qeexo已经将机器学习部署到全球范围内超过2.1亿台消费者设备上。

http://www.qeexochina.cn
专栏二维码
产业AutoML边缘AI机器学习
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

超参数优化技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~