参与李泽南

从「鸿鹄」到模型自动压缩:详解百度大脑5.0,软硬一体AI大生产平台

7 月 3 日下午,「Create 2019」百度 AI 开发者大会百度大脑论坛如期举行。在上午的大会主论坛中,百度首席技术官王海峰正式发布了百度大脑 5.0。在算法突破、计算架构升级的基础上,百度大脑实现了 AI 算法、计算架构和应用场景的融合创新,成为了软硬一体 AI 大生产平台。

在上午「机械臂倒盖碗茶」、「中英自由 Rap」、智能语音芯片「鸿鹄」给人们留下深刻印象之后,「技术范儿」的百度大脑论坛向我们详细解读了其中细节。

首先是百度大脑语音团队研发的远场语音交互芯片——「鸿鹄」。据百度介绍,鸿鹄芯片的设计与传统芯片设计方法相反,遵循了「软件定义芯片」的全新设计思路。

「百度鸿鹄芯片是我们最近实现的突破。目前这款芯片已经流片成功,开发板也已到位,这是百度语音提出的第一种解决方案,」

百度语音技术部高级总监高亮在活动中表示。「百度我们希望推出一款超低功耗、低成本,但保证高精度的芯片。在芯片出现之前,百度先行设计了算法和唤醒方式。我们要做的是要让芯片的架构适应算法,在有限的芯片资源里发挥最大的效果。」

该芯片采用双核 HiFi4 架构,2.8M 内存,采用台积电 40nm 工艺,在此硬件规格上,仅使用 100mw 左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时,按照车规级标准打造使鸿鹄芯片可满足极严格的需求,将为车载语音交互,以及智能家居等场景带来更大想象力。

百度的视觉技术在 2019 年各大国际赛事中获得了不少冠军,在前不久结束的 CVPR 2019 上分别在视频理解、人脸活体、车辆 REID 等领域获得第一,上半年在 NTRIE2019、ICME2019、ICDAR2019、DWAN2019 等比赛中也屡屡夺冠。百度视觉技术部、增强现实技术部总监吴中勤介绍,5G 时代,越来越多物理设备将连接到高可靠、低延时的网络空间,这将彻底改变人们与环境及设备的交互方式。本次全新发布视觉语义化平台 2.0,正在推进视觉技术由「看清看懂」向「交互」进行升级。视觉语义化平台 2.0 在交互升级和软硬件结合两个方面实现突破。

百度视觉技术部、增强现实技术部总监吴中勤

交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言,一体化人机交互系统是人与机器、虚拟环境的自然交互与融合,该系统适用于实现 AR 特效的直播、小视频、特效小程序等场景,已应用于百度多款视频 APP。大场景物理世界交互系统是将视觉定位与 AR 技术突破性结合,实现大范围的虚拟信息与物理世界的精准叠加,从而建立起 AI 时代全新的交互系统。目前,软硬件结合可以满足应用场景更高效的视觉计算,以及更低延时的体验,同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台 PaddleSlim、多模态 FaceID 开发组件以及软硬件一体解决方案 AI 相机三部分。FaceID 覆盖设备量已超 1200 万台。

视觉语义化平台 2.0 更新了许多先进的感知技术,也让机器人技术实现新突破。百度三维视觉首席科学家杨睿刚介绍,机器人就是一个智能体,除了感知技术,智能体需要决策和动作相关的技术,实现从环境感知到主动感知。目前,百度研究的智能体技术主要集中在自动驾驶 Apollo、工程机械和服务机器人三大方面。上午主论坛中引人关注的机械臂「茶博士」不仅能说会道,还完成了传统的长嘴壶倒茶工作,其背后依靠的正是服务机器人方案。基于百度 3D 视觉,机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制,机械臂可以对工作空间进行碰撞检测,避开障碍物;实时规划运动后,可自动生成倒茶轨迹;随后,感知水流变化,实时调整倒茶位置。语音语义联动技术解析,更是让机器人像「人」一般,听得懂,说得好,做得准。

百度副总裁侯震宇为现场观众分享了百度新一代 AI 计算架构。面对 AI 计算的挑战,需要能够从端到端来提供 AI 计算能力,这要求计算系统从旧有的对海量数据处理能力、对 IO 高峰值的追求,转变为满足 AI 训练功能方面 IO 密集、计算密集、通信密集的需求,和 AI 推理功能方面大吞吐和低延迟的需求。

侯震宇认为,面对即将到来的 AI+5G 时代,计算将无处不在。真正的计算会发生在设备(Device)、边缘(Edge)和云(Cloud)中,因而 D-E-C 场景将会是接下来需要重点研究的问题;与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。

底层的芯片和上层的应用之间,还需要操作系统承接。王海峰认为,深度学习框架就是智能时代的操作系统。百度自研的国内唯一功能完备的深度学习平台「飞桨」就是中国自己的「AI 操作系统」。主论坛中,正式宣布百度飞桨与华为麒麟芯片深度对接,全球领先的端侧 AI 芯片和深度学习平台,将联合为端侧 AI 提供最强劲算力、打造最好的深度学习运行效率。

最后,最重要的内容当然是百度的深度学习框架飞桨(PaddlePaddle),百度深度学习技术平台部总监马艳军详细介绍了飞桨的最新特性。在核心框架层面,飞桨同时支持动态图与静态图,兼顾了灵活性与效率;飞桨目前可以提供 70 余种工业级应用效果的模型;飞桨支持大规模的分布式训练以及端到端的部署;对于中国开发者,飞桨提供系统的深度学习技术服务,有非常全面的中文支持。

在论坛上,百度相继介绍了 PaddleHub、PaddleCV、Light-NAS 等近期部署到飞桨上的新工具。其中 PaddleNLP 是面向工业应用的中文 NLP 开源工具集。其中加入了很多目前流行的 baseline 方法的实现(均来自于 ACL、IJCAI、EMNLP 等人工智能顶会论文),并开放了数据集。而 Light-NAS 轻量级模型结构自动搜索功能可以帮助开发者对模型进行自动剪枝,并实现专家级优化效果。马艳军表示,Light-NAS 已在 OCR、人脸关键点的检测上有了应用实例。

为了降低建模的成本,提高建模的效率,并降低对大数据的依赖,减少人工的干预,百度开发了 AutoDL 自动化建模技术。论坛上,百度大数据实验室主任浣军正式发布 AutoDL 3.0,从设计、迁移和适配三方面进行全面升级,并分享了多个实际案例,目前已通过飞桨正式开源。

AI 算法、计算架构和应用场景的融合创新的百度大脑 5.0 已成为软硬一体 AI 大生产平台。百度大脑目前已经开放 210 余项 AI 技术能力,平台的调用次数同比增长 108%,定制化平台模型数量也在快速增长中,平台上的开发者数量已经达到了 130 万。王海峰表示,「授人鱼不如授人以渔」,百度研发顶尖的 AI 技术,也致力于开放顶尖的 AI 技术。百度大脑 5.0,助力各行各业的产业开发者,加速产业智能化。

产业PaddlePaddle百度
相关数据
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~