Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

国内首个支持华为NPU在线编译,百度Paddle Lite重磅登场

百度深度学习平台飞桨(PaddlePaddle)再放大招!端侧推理引擎全新升级,重磅发布Paddle Lite,旨在推动人工智能应用在端侧更好落地。该推理引擎在多硬件、多平台以及硬件混合调度的支持上更加完备,是飞桨在Paddle Mobile的基础上进行的一次大规模升级迭代。通过对底层架构设计的改进,拓展性和兼容性等方面实现显著提升。目前,Paddle Lite已经支持了ARM CPU,Mali GPU,Adreno GPU,华为NPU以及FPGA等诸多硬件平台,是目前首个支持华为NPU在线编译的深度学习推理框架。

随着技术进步,手机等移动设备已成为非常重要的本地深度学习载体,然而日趋异构化的硬件平台和复杂的终端侧的使用状况,让端侧推理引擎的架构能力颇受挑战。端侧模型的推理往往面临着算力和内存的限制,为了能够完整的支持众多的硬件架构,并且实现在这些硬件之上人工智能应用性能的性能优化,百度飞桨基于Paddle Mobile预测库,融合Anakin等多个相关项目的技术优势,全新发布端侧推理引擎Paddle Lite,通过建模底层计算模式,加强了多种硬件、量化方法、Data Layout 混合调度执行的能力,从而保障了宏观硬件的支持能力,满足人工智能应用落地移动端的严苛要求。 

Paddle Lite在架构上全新升级,并重点增加了多种计算模式(硬件、量化方法、Data Layout)混合调度的完备性设计,可以完整承担深度学习模型在不同硬件平台上的的推理部署需求,具备高性能、多硬件、多平台、扩展性强等优势。不同于其他一些独立的推理引擎,Paddle Lite依托飞桨训练框架及其对应的丰富完整的算子库,底层算子计算逻辑与训练严格一致,模型完全兼容无风险,并可快速支持更多模型。

Paddle Lite架构由四层次组成:第一层model 层直接接受Paddle训练的模型,通过模型优化工具转化为NaiveBuffer特殊格式,以便更好地适应移动端的部署场景;第二层Program层是operator序列构成的执行程序;第三层是一个完整的分析模块,主要包括TypeSystem、SSA Graph和Passes等模块;第四层是执行层,由Kernel序列构成的Runtime Program。

Paddle Lite具有以下重要特性:

与其他端侧引擎相比,Paddle Lite扩展性更高,框架层硬件抽象层次的描述能力强,容易对新的硬件进行集成,可以模块化地对硬件和模型进行更细致的分析和优化。

在模型支持方面,Paddle Lite现已支持Paddle图像分类、检测、分割及图像文字识别等领域的模型预测,官方发布了18个模型的benchmark。此外,可以通过X2Paddle工具将由Caffe和TensorFlow训练的模型转换后进行预测。

在硬件支持方面,目前Paddle Lite已支持ARM CPU, ARM GPU、华为NPU和FPGA等硬件平台,正在优化支持的有寒武纪、比特大陆等国产AI芯片,并会兼容支持的Intel、NVIDIA等主流云端芯片,与硬件厂商的广泛深入合作使得lite具有高性能表现,并可紧跟新硬件发展步伐提供先于其他框架的性能表现领先优势。

模型支持和硬件平台支持的广泛性,整体保证了框架的高通用性。

在性能方面,Paddle Lite针对不同微架构,进行了kernel的深度优化,支持INT8量化计算,在主流移动端模型上展现出领先的速度优势。值得一提的是,在“国货”华为 NPU上也具有很好的性能表现。

与此同时,Paddle Lite可针对端侧设备特点进行深度定制及优化,无第三方库依赖,让部署过程更轻量化。整个推理过程分为模型加载解析、计算图的优化分析及设备上的高效运行。移动端可以直接部署经过优化分析的图,执行预测。Android平台上,ARMV7 动态库只需要800k,ARMV8动态库仅有1.3M,也可以根据需要,进行更深度的剪裁。

此外,还进一步完善提供了Web前端开发接口,支持javascript调用 GPU,可在网页端快捷运行深度学习模型。

端侧推理引擎人工智能应用落地环节有着重要影响,直接关系到用户的体验,在自动驾驶等人工智能应用领域,端侧推理引擎甚至关乎用户的生命财产安全。百度飞桨推出Paddle Lite对端侧推理引擎性能进行大幅优化提升,对于人能智能应用的落地起到关键的推动作用。未来,Paddle Lite将支持更多硬件,覆盖更广泛的应用领域。

项目地址:

https://github.com/PaddlePaddle/Paddle-Lite

产业百度Paddle Lite
相关数据
Qualcomm机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

http://www.qualcomm.com/
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
寒武纪机构

寒武纪科技是一家AI芯片研发商。致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,同时还为用户提供IP授权、芯片服务、智能子卡和智能平台等服务。

www.cambricon.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
推荐文章
暂无评论
暂无评论~