Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

李泽南报道

百度大脑首次发布AI硬件:「蓄谋已久」向终端发力

在不断开发新技术、推动人工智能服务的同时,百度大脑也推出了自己的硬件。本周三,百度在深圳一口气发布了 12 个计算板卡、硬件平台等产品。如此「硬核」的发布会开了整整两个小时。

百度在发布会上推出了视觉计算卡、多款视觉分析模组、语音开发套件等硬件,甚至还有一套硬件评测与认证服务。其中,百度赛灵思英特尔等厂商合作推出的板卡引人注目。这些硬件面向端侧设备,可帮助开发者快速设计出自己的产品。

「此前,百度大脑的技术很多是以 SDK 的方式推出的,」百度 AI 技术生态部总经理喻友平表示,「但还有更多的场景,如安防和物联网设备非常依赖新型硬件才能实现 AI 的真正落地。」这是自 2016 年百度大脑启动开放以来,首次集中发布硬件平台与产品。

目前人工智能的应用主要集中于计算机视觉和自然语言识别领域,这也是此次百度发布硬件产品的两大方向。

视觉计算模块 EasyEdge

「AI 的应用过程很长,对于开发者来说,要设计高性能、低功耗的深度学习模型,搭配高效率的硬件,再结合实际场景才能最终成功。」喻友平介绍道。百度希望通过自己的产品来解决大部分环节中的难点。

百度大脑首先推出的是基于 Paddle Mobile 打造的「零代码」端计算模型生成平台 EasyEdge。与之相配的是两款 AI 加速计算卡。

第一款是主打小型化、低功耗的 X-eye 计算卡,其只有一元硬币大小,支持人脸识别、手势、商品识别等多种高性能视觉算法,搭载 Intel Movdius AI 加速芯片,算力超过 1Tops。同时,这块计算卡还带有百度独创的 Xos 加速技术,可使神经网络算法平均提速 15%,核心模型如人脸识别算法则可以提升 200%。这款计算卡可灵活搭配多种视觉模组,形成完整的解决方案。

针对需求较高的任务,百度推出了适用于大计算量、可自定制模型的 EdgeBoard 计算卡。EdgeBoard 的解决方案中包含模型嵌入工具包、AI 加速工具包、嵌入式计算卡参考设计,其软硬一体的完整架构可为端侧人工智能负载提供强大算力。在芯片上,百度选择了赛灵思的 FPGA,可提供 2.4Tops 的 AI 算力,性能 3 倍于终端 GPU、10 倍于终端 CPU。百度称,EdgeBoard 在运行 Resnet50 模型推断任务时可达到 55FPS 的处理速度。

深度学习模型通过集成 EdgeBoard 可大大提升推断任务时的性能表现,解决终端算力发展相对不足与低延迟需求之间的矛盾。

为了展示计算卡的实力,百度与合作伙伴们共同打造了两款人脸识别抓拍一体机。据百度介绍,这些设备可以实现 98% 的人脸识别准确率,适用于营业厅、便利店等场景,可帮助店铺快速完成智能化改造。

百度表示,EasyEdge 支持 4 种深度学习框架、13 种神经网络结构,适配 5 款芯片与 3 种操作系统。。该产品允许用户在没有人工智能应用开发能力的情况下通过可视化操作进行深度学习模型的开发。针对不同的场景,EasyEdge 的用户只需 3 步、最快 2 分钟即可生成端计算模型 SDK,可节省 90% 的开发时间,并兼顾性能与能耗,可大大降低端计算模型的开发成本。

百度远场语音开发套件

语音识别方面,百度打算将智能音箱上最为重要的远场识别麦克风阵列的软硬件技术开放出来,供所有厂商使用。

「我清晰地记得在 2017 年,百度曾预测大量科技公司都会发力远场麦克风阵列。」百度语音技术部产品与架构负责人谢延在发布会上表示,「去年智能音箱领域的发展印证了我们的预测。今天 DuerOS 激活数量超过 2 亿,和百度大脑的语音识别技术进步是分不开的。」

百度在发布会上介绍了近期的一些技术突破,包括一次唤醒多次交互技术,以及刚刚推出的 SMLTA 模型。其中,流式截断多层注意力建模(SMLTA)方法可将在线语音识别精度提升 15%,是全球首次实现的基于 Attention 技术的在线语音识别服务,已大规模部署在了百度输入法中。现在,人们在手机上就可以获得人工智能带来的高精度语音识别体验了。

百度认为,在远场语音识别时代开发者有四个需要重点注意的地方:信号处理、软硬结合、端到端(在 AI 建模上)以及唤醒技术(整词的唤醒词进行建模)。为了方便更多公司开发属于自己的产品,百度发布了远场语音开发套件。

百度远场语音端到端解决方案从用户交互端到云端识别模型全链条定制,解决了远场语音交互识别不稳定、错误率高等应用问题。

新发布的开发套件使用安卓系统,搭载了远场语音端到端技术,其硬件可以选择高性能或高性价比的两种板卡,麦克风阵列则有三种:包括环形 6+1 麦、线形 4 麦和车载 3 麦的多形态麦克风阵列套件方案。百度远场语音开发套件基于端到端方案,按照最佳技术实践指导生产,可解决语音交互产品研发过程中无可用设备选型、选型调试成本大、调试效果不佳等问题。该方案支持回声消除、声源定位、波束形成、噪声抑制等处理算法。百度称,目前使用这些套件落地的产品已达 150 余款。

百度的远场语音开发套件自 2017 年就开始研发了,直到今天才发布了公版。」谢延表示。百度也在做自己的 DSP 解决方案,以期进一步降低硬件成本,降低门槛。

认证 AI 硬件

在硬件之外,百度大脑还发布了一些针对 AI 硬件的服务,包括硬件端云协同技术及评测认证。或许在未来,想知道一种硬件是否适用于人工智能应用,得看它有没有通过百度的评测了?

百度大脑新推出的硬件评测认证是国内首个 AI 硬件评测认证体系。百度为 AI 技术周边的硬件产品如传感器、计算卡等进行标准化的评测和认证。例如,百度会评测摄像头输出的图像质量是否符合场景需求、图像和算法是否匹配等等。百度认为,通过评测和认证机制可以减轻厂商在集成产品过程中选型、评测的成本及工作量,帮助 AI 硬件产品标准化。

硬件的接入与售卖是百度大脑 AI 硬件生态的最后一环。「从端侧硬件的数据采集到整个项目的系统集成,在常规情况下需要冗长的对接开发工作。」喻友平表示,针对这一痛点,百度大脑推出了硬件接入与端云协同平台 EdgeCloud,该平台连接 AI 端硬件与 AI 云服务,提供设备管理、数据管理等功能。百度称,使用该平台的用户无需任何代码就可以完成端到端的项目集成。这种形式有效降低了硬件接入与系统集成开发门槛。

目前,百度大脑已有 100 多家硬件生态伙伴,百度大脑的 AI 能力已有超过 150 项能力开放,社区内聚集了超过 80 万开发者,而行业应用的方向达到了 20 个。从模型开发到硬件产品,百度大脑已经形成了完整的人工智能产品链。

现在百度大脑硬件已经有 100 家以上的合作伙伴。

产业百度大脑AI百度计算机视觉
1
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
Xilinx机构

赛灵思作为FPGA、可编程SoC的发明者,一直坐稳全球最大的FPGA芯片供应商头把交椅。赛灵思的产品线覆盖45/28/20/16nm四个系列的FPGA以及Zynq SoC,旗下拥有着超过4400项技术专利、60多项行业第一的技术产品,服务着全球超过60000的客户。赛灵思耗时4年,超过1500名工程师的研发参与,超过10亿美元的研发投资,推出高度集成的多核异构自适应计算加速平台——ACAP!10月赛灵思发布了统一软件平台Vitis,成功“打破软硬件壁垒”。

https://china.xilinx.com/
相关技术
推荐文章
暂无评论
暂无评论~