专访 | 腾讯云机器学习平台技术负责人黄明,详解 DI-X 深度学习平台

3 月 28 日,腾讯云宣布推出深度学习平台 DI-X(Data Intelligence X),为机器学习、深度学习用户提供一站式服务,为其在 AI 领域的探索降低门槛并提供最流畅的体验。DI-X 平台基于腾讯云的大数据存储与处理能力,集成 Caffe、TensorFlow、Torch 主流深度学习框架,主打行云流水的拖拽式操作,具备强大的业内开源及腾讯自研算法库和模型库。DI-X 平台的推出是腾讯在 AI 领域长线布局中不可缺少的一环,也宣告腾讯云在 AI 布局的全面加速。


人工智能学习平台已然成为巨头公司的必争之地。在 3 月 29 日的云栖大会上,阿里云也正式推出了升级版机器学习平台 PAI 2.0。那么,DI-X 平台可以为用户带来哪些便利,有怎样的战略意义,在激烈的商业竞争和技术竞赛中如何突出重围?机器之心对腾讯 T4 专家、腾讯云机器学习平台技术负责人黄明进行了采访,从中得到了答案。


机器之心:深度学习平台不是一个新鲜概念,国内外一些公司早已尝试研发深度学习平台,部分公司已见成效。能否介绍一下为什么选择在这个时候推出这款基于腾讯云的深度学习平台 DI-X 吗?


黄明:与腾讯云许多优势产品与能力一样,DI-X 平台经历了由内而外的输出过程。随着机器学习与人工智能的发展,腾讯内部需要一个平台,支持内部算法工程师和数据科学家的迫切需求,DI-X 应运而生,并成为主要机器学习平台,每天有上万的机器学习任务流,在上面运行各种算法,并训练出各种各样的模型。历经一年多的实战。随着系统的成熟和外部需求的增加,腾讯云决定对外开放这一能力。


机器之心:腾讯云一直致力于降低人工智能云服务的使用门槛,曾推出大数据服务平台数智方略,并于去年年底发布万象优图服务。推出腾讯云深度学习平台的战略目标是怎样的?


黄明:随着 DI-X 平台的发布,腾讯云在 AI 领域的全线布局也浮出水面:从 IaaS 基础设施、AI 平台服务、AI 基础服务、AI 应用服务,到垂直行业解决方案,均有完善的产品及服务覆盖。马化腾曾表示:「人工智能、物联网,甚至未来的无人驾驶、机器人等等,它的后台的核心一定有一颗在云端的大脑。」DI-X 平台的推出,为企业构建「云上大脑」提供最强助力,此举也宣告腾讯云在 AI 的布局全面提速。特别是腾讯云的中小用户,可以快速接入 AI 的快车道。


unnamed (1).jpg

腾讯云 AI 产品服务矩阵图(2017 年 3 月)


机器之心:能否介绍一下 DI-X 的研发团队?整个研发历经了怎样的过程?在技术层面来说,深度学习云平台的研发难点在哪里?又是如何解决的


黄明:DI-X 项目是由腾讯云的数据产品团队和腾讯数据平台部的机器学习团队联合而成,人不多,就十几个。我们相信小团队比较进行适合快速的迭代,产品现在还很年轻,需要快速的成长。整个项目是在腾讯内部先锻炼了 1 年多,快速迭代了 3 个大版本,十几个小版本,有了一定的用户基础和不错的口碑后,再到云上来的,我们希望把腾讯的 AI 能力开放给更多的中小公司。


这个平台是一开始就是要服务内部用户的,所以会面对很多用户奇奇怪怪的需求,而这时如何去将这些需求,化解为真正对平台有通用意义的功能,是需要有很强的理解力和把控力的,这个是对这个产品最大的挑战之一。


这个平台面对的另外一个挑战,就是机器学习,尤其是人工智能和深度学习发展太快了,很多新的功能和需求,不停的出现,也有新的更好的平台值得借鉴。我们需要更快的走完前人走的路,还要跟上后来者的节奏,这个对团队的快速迭代能力,也有很高的要求。


机器之心:有一个用户非常关心的问题:目前 DI-X 平台支持哪些深度学习模型框架?平台兼容性如何?


黄明:DI-X 第一个版本支持 TensorFlow,Caffe,Torch 这三个深度学习框架,都会是和开源的最新版本一致和兼容,主要的改动是无缝对接了腾讯云的对象存储 COS,可以将其之上的图片,语音,视频等作为输入数据源,供组件和算法直接训练,生成模型,释放用户的数据资源潜力。另外第一个版本,不会支持多机多卡的并行化,预计会在第三个版本支持。


机器之心:可否介绍一下此次推出的腾讯云深度平台 DI-X 具备怎样的亮点?在激烈的行业竞争中,DI-X 平台具备哪些优势?可以实现哪些功能?解决哪些问题?


黄明:DI-X 平台目前有这样的产品特点:


  1. 深度学习支持:目前支持 TensorFlow,Caffe,Torch 三种框架组件,后续会提供更多深度学习框架和针对性优化

  2. 易用性:可视化的拖拽式任务流设计界面,配备了输入,组件,算法,模型,输出五类模块,灵活组合,可以做到无须任何编码而完成复杂机器学习任务

  3. 灵活性:用户既能使用内置的机器学习算法,也能在各种深度学习组件上提交自己算法

  4. 集成性:与腾讯云的对象存储(COS),计算(GPU 计算平台)无缝对接,公有云用户可轻松闭环

  5. 全流程:集模型训练,预测,部署的功能于一体,并提供公共数据集和业界模型,帮助用户快速释放数据价值


我们希望,用户可以在这个平台上,完成深度学习的模型训练,调优,部署,预测等各种功能,体验一站式的深度学习服务


机器之心:DI-X 平台面向什么样的用户群?如何满足不同领域用户的需求?


黄明:DI-X 面对的是有一定深度学习基础知识的用户,有一定的门槛。用户可能在对象存储 COS 上,已经存了很多的非结构化数据(图片,语音,视频),这些都是宝贵的资产,想要进行一些人工智能方面的研究和工作,这时,用户可以先购买腾讯云的 GPU 计算平台,然后通过 DI-X,非常快速的开始跑深度学习的算法,完全跳过繁琐的配置过程。


另外,DI-X 当然内置了一些常用的深度学习算法,公开数据集和业界模型,方便用户直接拖出来,简单配置即可运行,这样可以更加快速验证一些有趣的想法。这些都是不限制领域的,通用的,相信能够满足大部分用户的需求。


机器之心:能否具体阐述一下用户在使用 DI-X 平台的过程中,会带来哪些不同于使用以往云平台的体验?


黄明:DI-X 是个比较新的平台,所以参考了很多现有平台的设计。其中有一些是之前的产品就有的,例如拖拽式的可视化设计,这个整体理念是一致的。但是有一些特色功能,是目前其他平台没有或者做得比较弱的,例如:


1. 比较灵活


各种框架组件都支持用户上传自己的脚本和模型网络结构,不过多的约束用户。在任务流的设计上,也主张让用户有更多的自主权,不做过多的约束。当然,数据流我们是支持的。


2. 支持多实例运行


每个任务流都可以多实例运行的,当然了,会有实例数的约束。实例的启动支持周期性调度和指定时间调度等多种方式,而且每个实例都有一个快照页面,能方便的查看各个实例的运行情况和结果。


3. 能进行自动化参数调节


支持多个参数(目前最大五个)按照一定的初始值,步长,终值进行循环组合,动态替换输入框和模型网络文件中的参数,自动化跑多个实例,并能同时展现多个模型的最终效果,方便用户比较。


4. 模型的训练和使用


算法和模型上,DI-X 有个「小尾巴」的设计,不同于现有的平台,对深度学习的算法和模型,有更好的可用性和扩展性,能更好的用于模型的预测。


以上的体验,都是在内部反复打磨过,在细节上花了很多的心思,希望能够给外部用户,带来一些不一样的感觉。


机器之心:云平台安全问题一直是用户关注的焦点,DI-X 平台为保障数据和代码机密性做出了怎样的努力?


黄明:DI-X 的底层是基于 Docker 改进的,所以用户之间的进程和访问,有着良好的隔离,对象存储 COS 的数据访问也是独立的,不会有代码泄漏和数据泄漏的风险。


机器之心:深度学习作为近年来的主流人工智能算法,是国内外互联网巨头公司争相部署的重点领域。在 2014 年,腾讯就曾推出了一款深度学习平台 Mariana,包括针对 DNN 的 GPU 数据并行,CNN 的 GPU 数据并行和模型并行,DNN GPU 集群的三个框架。那么这次所推出的基于腾讯云的深度平台与 Mariana 平台有什么联系?对于腾讯在深度学习领域的战略布局有什么意义?未来在这个领域又有怎样的推进计划?


黄明:Mariana 是在内部 DI-X 上,也是深度学习的一个组件,后续我们会整合到之前宣布要开源的 Angel 框架中,一起发布。DI-X 在腾讯的深度学习领域布局中是重要的一环,它让中小用户可以在腾讯云之上,轻松自主的开发和部署他们的深度学习算法和模型,接入 AI 的快车道。而腾讯云后续也可以在这个平台上,进一步开放更多的优秀算法和模型,提供全面的 AI 服务。


机器之心:这款深度学习平台还有哪些需要优化和改善的地方?未来打算如何解决?


黄明:DI-X 是很新的一个平台,深度学习和人工智能也都在飞速发展中,有很多的东西需要改进,例如可视化的定义模型的网络结构等。未来我们会快速的迭代和更新,来满足用户的需求。


机器之心:今年 1 月 20 日,腾讯就看中 FPGA 在实现深度学习技术的巨大潜力,推出国内首款 FPGA 云服务器,从底层加速云计算在各场景中的应用,引起业内热议。目前,用户对于 FPGA 云服务器的使用效果及反响如何?


黄明:用户的反响非常好,主要来自几个方面:首先,试用成本低,可以按需购买 FPGA 云服务器,不用再投入大量资金购置物理服务器;其次,部署时间短,以前部署开发的时间从数年或数月缩短到数天;最后,运维成本低,由腾讯云负责了运维的工作,用户降低了维护 FPGA 的人力和成本。


机器之心:腾讯云的企业客户可以按需付费使用 FPGA,那么一个典型客户一年大概需要花费多少钱?相比以往,有成本优势吗?


黄明:通过 FPGA 云服务器,企业可以进行 FPGA 硬件编程,可将性能提升至通用 CPU 服务器的 30 倍以上,而只需支付相当于通用 CPU 约 40% 的费用。腾讯云是国内首家在云端开放 FPGA 计算服务的云服务商。


机器之心:开放 FPGA 使用申请的进展如何?


黄明:当时这则消息在腾讯与公众号发布后的几小时,腾讯云就收到了数百名开发者的试用申请以及一些大客户的咨询。目前客户非常多,主要来自高校、研究所、基因计算、金融分析等行业。


机器之心:腾讯云将 FPGA 部署时间从数月缩短到数分钟,能否分享一下这样的一个突破性进展背后解决了哪些技术难题?


黄明:腾讯云主要解决了 FPGA 的 3 项技术难题:


  1. 将 FPGA 设备规格精简到几种,减少用户部署时的移植开发。

  2. FPGA 开发可分为平台和业务两部分内容。腾讯云提供通用、可靠的平台部分。平台部分包括 PCIE、DMA、DDR 访问等硬件逻辑,驱动和应用软件编程 API 等软件部分。用户只需要关注业务部分的软件实现,减少了平台部分的工作和调试时间。

  3. 用户可以在腾讯云上将部署好的环境打包成镜像,借助腾讯云的平台一键部署。 

入门深度学习腾讯黄明腾讯云产业专访
高静宜
高静宜

我很懒,什么也不会留下

返回顶部