机器之心发布

提供免费计算资源,开发平台AI Studio零门槛实现AI能力

2018 年 7 月 4 日-5 日,百度在国家会议中心举办第二届 AI 开发者大会。在今年的开发者大会上,百度发布了 PaddlePaddle3.0,既升级了核心框架,又提供了 EasyDL 快速应用平台、AutoDL 网络结构自动化设计,以及 AI Studio 在线实训平台。本文从功能简介,实战建模及 AI 能力应用等角度介绍了 AI Studio。

AI Studio 是百度推出的一站式开发平台:一个囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算的一体化编程环境。用户不必纠结于复杂的环境配置和繁琐的扩展包搜寻,只要打开浏览器输入 aistudio.baidu.com,就可以在 AI Studio 开展深度学习项之旅。

据介绍,运用 AI Studio 开发者可以实现自定义的 AI 建模能力而无需考虑硬件成本、运维成本、人力成本。相比于在其他云平台上花钱买计算资源和存储空间跑模型来说,AI Studio 提供全套免费服务(计算资源免费,空间资源免费,项目托管免费,视频教程也免费)。

1.    功能简介

第一次进入主页,首先的感觉是这是个类似 Kaggle 的数据竞赛平台,但是仔细看来,AI Studio 强化了工程项目的概念,一大亮点就是 AI 学习项目这个版块,里面包括大量真实场景的工程项目(图像识别,情感分析,个性化推荐等);另一个重要组成就是比赛了,众所周知构建良性循环的产、学、研社区是行业发展的重要组成部分,不过目前 AI Studio 组织的比赛还刚起步,希望后续比赛多多,大家在这里都能学到知识,交到朋友,最重要的是,可以在学习的同时给自己赚点零用钱花花。

Figure 1 AI Studio 特性

AI Studio 主要功能有项目类的项目大厅,创建项目,样例项目,共享项目等四大部分,有数据科学比赛,有各种经典数据集和自定义数据集,有详尽的机器学习深度学习的教程及视频公开课等。下面就简单的来介绍一下:

Figure 2 AI Studio 主要功能

1.1. 菜单栏

1.1.1.项目大厅

作为 AI Studio 的主页,集成百度积累的经典 AI 学习项目,自我的项目管理及共享项目列表。整个平台都是以项目为核心的,也凸显了 AI Studio 的定位,就是以技术及资源输出帮助个人开发者,中小企业快速拥有 AI 能力以更好的服务自身业务。

1.1.2.数据集

数据集包括一些经典的公开数据集, 像 MNIST,IMDB,CIFAR10,Penn Treebank,MovieLens 等;也包括一些开放的百度数据(中文短文本语料,信息抽取数据)。不过相比 Kaggle 近万份数据集来说,仍然有很大的发展空间,但是个人感觉 AI Studio 的数据集还是要比 Tianchi 的数据集规整很多的。当然,用户也可以上传自定义数据进行模型开发。

1.1.3.比赛

这个模块应该是所有玩数据的人最感兴趣的了吧。我之前在 Kaggle 参加过一些项目,总的来说,Kaggle 在比赛这块做的真的很好,赛制清晰,社区完善,每次参加比赛都能有很大的提高。相较 Kaggle,AI Studio 的比赛数量还不多,不过以上提到的功能都有,另外就是 AI Studio 提供云端训练平台,这样大家的武器库相对平衡,能够更公平的进行竞赛。

Figure 3 AI Studio 比赛页面

1.2. 创建项目

AI Studio 以项目为单元进行开发。创建项目,添加数据集,运行开发环境(notebook kernel),就可以开始构建自己的模型进行开发生产了。目前,环境仅支持 Python2.7(期待更多的环境,Python3,R 等),算法框架包括 PaddlePaddle 和 sklearn 等。

Figure 4 AI Studio 创建项目页面

1.3. 教程&资讯

关于教程,PaddlePaddle 关于机器学习的教程应该是中文里最好的教程之一,不仅有机器学习深度学习的视频公开课和教程文档(获取),而且包含了大量的各个方向的深度学习实例,比如图像分类,词向量,个性化推荐,情感分析,语义角色标注以及机器翻译等,不仅从原理层面进行深入浅出的讲解,更提供模型代码逐行进行实操,可以说为 Everyone can AI 提供了强大的后盾。

1.3.1.样例工程

样例工程即是提供的机器学习经典应用场景及历届比赛的 notebook,我们可以把各个项目 fork 到自己的项目下进行开发学习。对于急于构建 AI 能力的中小企业,这个模块是最大福音了,很久之前看过 Tensorflow 的文档,只有几个典型问题的教程及代码,而这里包括了大量的基于不同场景的 AI 模型可供拿来即用。

1.3.2.共享项目

顾名思义,AI Studio 也提供项目共享功能供大家互相学习。在开源的时代,能够培育成熟活跃的社区是平台发展的必要因素,这也是 Tensorflow 能够在深度学习领域中快速推广的重要原因。

1.3.3.我的项目

这里是开发者自己的项目列表,不再赘述。

2.实战建模

AI Studio 以项目为核心,创建项目的同时可以自定义上传数据,也可以选取平台已有数据集;目前,环境仅支持 Python2.7,算法库包括 sklearn 和 PaddlePaddle。不需要费心在开发环境上,能够安心构造模型,将建模工程云服务化应该是未来趋势(能够方便中小企业快速构建 AI 能力)。在 AI Studio 各项目之间是独立分配资源的,可以同时调试多个项目模型,这点还是非常赞的。

我这里创建了两个共享项目,查看代码直接 fork 项目开箱即用(需百度账号登录:Titanic 项目,个性化推荐项目),代码详见附录及共享项目。第一个项目是最最基础的数据科学的入门问题 titanic 预测是否生还(自主上传数据,调用 sklearn 随机森林模型);第二,利用已有数据(MovieLens)及 PaddlePaddle 构建个性化推荐模型。一个小问题就是创建项目后进入项目页面,进入运行状态还需要点击运行项目,这里感觉有点冗余;运行的项目就是一个简洁的 notebook 开发环境,该有的功能都有,个人感觉速度比 Kaggle 要好很多(不知是不是我的网速渣)。

Figure 5 AI Studio 项目界面

开发环境主体是由 notebook 形式组成,熟悉 jupyter 的同学可以无缝衔接,比 notebook 好的一点就是项目的数据集都会形成列表,简单一键获取数据路径。菜单栏更简洁,基本功能都有,可以保存 notebook,有个有意思的地方是在创建项目的时候环境只能选 Python2.7,但这里 kernel 选择会出现 Python3。

Figure 6 AI Studio 开发页面

3.    群雄逐鹿

作为一站式 AI 建模开发平台 AI Studio,如何在强手如云的 AI 开发平台市场杀出一条血路呢?最重要的途径就是完善比赛社区的理念,通过 PaddlePaddle+AI Studio 的方式抢占数据科学竞赛这个领域,这里就简要比较一下几家数据竞赛平台(AI Studio、Kaggle、天池、DataCastle 等)。以下将从对开发者的能力提升,平台比赛的公平性和比赛收获等三个方面阐述。

3.1. 能力提升

可以说参加数据建模比赛是最好的提升自身能力的方式了,在比赛中,不但能够了解各行各业的业务形式,数据结构,也能真实的验证我们对特征和算法的不同理解,而良好的社区环境和代码共享机制为自身能力的提升提供了温床。在这方面,Kaggle 因为成立最早有很强的人才和代码沉淀,投靠 Google 后,更是愈发的体现了其中的优势。天池和 DataCastle 在社区建设上也投入了大量的精力,但是与 Kaggle 还是有较大的差距,不过在中文社区中应该算是佼佼者。AI Studio 显然有后来者的劣势,不过看过他们的样例项目,还是很佩服他们在教程和文档方面的思考,可以说在 AI 中文教程里 AI Studio 大踏步的跨入了第一梯队。

3.2. 比赛的公平性

这里的公平性体现在两个方面,第一是赛题的数据量要有一定的规模以防止数据量过小导致的模型稳定性问题;第二则是计算资源的公平性,举个栗子,假如阿里组队以 P100 GPU 集群的算力来参赛的话,恐怕其他人的胜算只能寄托于奇迹了,而对于 ImageNet 那样量级的数据,我们只有 PC 机的话恐怕连一次迭代也完成不了,更不要说模型调优了。

在这方面,AI Studio 具有极大的优势,平台不仅免费对参赛选手给予计算资源上的支持,更是提供最新版本的 PaddlePaddle 供选手调用。而天池在初赛阶段是没有集群算力支持的,只有进入复赛的选手才会有机会使用数加平台。Kaggle 和 DataCastle 更是没有平台的支持。相比来说在比赛资源的公平性上 AI Studio 的优势巨大。

3.3. 比赛收获

这里的收获是只除了能力以外的物质方面的获得,比如现金奖励和简历背书。这两点对于初入职场的新人还是非常重要的。客观来讲,国际影响力的话 Kaggle 绝对是 No.1,致力于进入 Google、facebook 的同学最好还是在 Kaggle 上挑选优质的比赛;针对国内的话,AI Studio、天池和 DataCastle 在奖金方面相差不大,由于 AI Studi 推出最晚,所以奖金相对来说高一些。

综合来看,AI Studio 作为数据科学竞赛中的新人,背靠百度资源,凭借更加公平的平台资源输出,奖励制度和完善的教程文档体系将会在未来大规模的抢占数据竞赛市场。对开发者来说,免费使用 GPU 资源,更简单的开发流程已经是很大的诱惑了。

4. 总结

AI Studio 是一个基于 PaddlePaddle 的集成了大量数据集、经典样例项目及比赛项目的云计算建模平台,也是一个机器学习深度学习的交流社区。AI Studio 最大限度的解放了数据科学家需要环境配置的烦恼,在云端集成计算资源,项目管理,代码管理,比赛等多种功能,形成一站式兼顾学习和工作的建模平台。而且 AI Studio 提供计算资源,空间资源,视频公开课都是免费的。最后,期待一下的更多比赛的推出。

产业AI Studio开发者大会百度
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

推荐文章
暂无评论
暂无评论~