手机上的 NPU 推出了四年,时间已不算短,人工智能应用得怎么样了?
现在很多手机芯片上都有 AI 计算单元,每个人都可以有自己的答案。不过用华为手机的人,获得的体验经常比其他用户好一点:他们的手机有更强的信号,均衡的能效比,还有融合在系统中,提供便利的各种 AI 功能。华为的产品还支持最新 AI 算法,你也许会发现,同样的 App 在华为手机上多了一些专属的能力,如实时视频超分辨率、视频风格迁移、本地化的输入法预测等等。今天,人工智能不是「元宇宙」这样遥不可及的概念,而是已被每天数亿人大量使用的普遍技术,它甚至改变了很多人打开 App 的方式。我们对于「视频超分辨率」的印象,大多还停留在英伟达 GPU 对于游戏大作的帧率加成上。自从 RTX 系列显卡诞生以来,深度学习超采样技术 DLSS 大幅提升了玩家的游戏体验。这种技术可以通过深度学习把低分辨率图像自动「脑补」成高分辨率,输出 4K 分辨率的画面时,只需生成 1080P 的画面再用 AI 来转化,可以减小显卡负担,提升效率。打游戏有这么大的提升,在手机上看短视频和直播能不能加入超清效果呢?HUAWEI HiAI Foundation 已经让很多应用实现了这个能力。「在超分辨率任务上,传统算法需要 CPU 和 GPU 对图像进行二次加工计算,功耗极高,效果就像是『调亮了一点』,并不明显,」华为技术专家表示。「若想解决算力、IO、功耗等问题需要结合 HUAWEI HiAI Foundation 和 NPU 来完成。我们与很多厂商合作,在当前主流的 App 上集成了画质增强功能。」
原画面、AI 超分辨率算法和低分辨率 + 锐化处理的对比。
今年 3 月,在爱奇艺 App 最新发布的版本中,爱奇艺与 HUAWEI HiAI Foundation 合作,在带有 NPU 机型的应用上率先提供了「增强画质」功能。该功能可让视频在 480P 分辨率播放过程中,保持相同流量消耗的情况下体验到更高清品质的视觉效果。这项功能适配了从 Nova 6 到 Mate 40 系列等多个华为机型。开启画质增强功能后,480P 及以下清晰度的视频可以秒变高清,大致相当于 1080P 的水平。「增强画质」是基于爱奇艺自研超分算法部署在麒麟芯片 NPU 引擎(神经网络处理器)和 HUAWEI HiAI Foundation 上的功能,可以在画面轮廓清晰度、画面通透性、色彩饱和度等方面实现明显提升。通过这一能力,手机可以在本地完成视频实时增强画质处理,在不影响帧率的情况下把清晰度提升两倍,有效解决了视频播放卡顿问题,在地铁或高铁等信号弱,网络不流畅的场景下,也能看高清视频。在爱奇艺、优酷等主流视频 App 平台上,HUAWEI HiAI Foundation 加持的超分辨率性能最高可以提升 80%,功耗最高可降低 45%。除了图像技术,手机上还能直接跑一个完整的输入法预测模型。譬如,在百度输入法华为版中,其使用的 AI 算法结构复杂,但通过任务拆分,工程师们把模型推理的计算工作分配到 NPU 和 CPU 上进行异构计算,并进行了极致的优化,把输入法预测任务从云端完全转移到了手机上。百度语音语义的模型技术较新,结构也很复杂,最近的很多 AI 应用都是如此。从最早的 CNN、LSTM,再到近期流行的 Transformer 结构,人们对 AI 专用计算单元的算力需求正在快速提高。另一方面,不同厂家硬件的差别明显,AI 计算的架构也在不断演进,如何充分利用好算力是开发者面临的挑战。让芯片上的 CPU、GPU 和 NPU 协同参与 AI 计算,是目前发展的趋势。「在语音语义类业务上如果用异构方式运行模型推理,其性能要比单 NPU 或单 CPU 运行提升超过 40% 以上,很多业务适合通过异构方法运行,」华为技术专家表示。「NPU 善于处理 CNN 等经典神经网络,但业界近期获得应用的网络类型变化较快,很多新模型使用 CPU 加 NPU 联合计算可以获得更高效率。」华为提供的工具可以大幅提升 AI 算法的运行效率,快手和抖音也因此受益:两家短视频应用在接入 HUAWEI HiAI Foundation 后模型精度得以提高,通过充分利用算力实现了更加真实的 AI 特效,增加了业务场景。对于应用开发者们来说,给应用接入异构计算能力并不需要训练专用的算法,也不需要重新构建一个 App,只需调用几个接口就可以完成了,如果开发者使用的机器学习平台接入了 HUAWEI HiAI Foundation,这个过程甚至可以是无感的,开发者无需进行操作即可获得麒麟芯片 AI 算力的优化。为开发者打开新世界大门的 HUAWEI HiAI Foundation 是麒麟芯片 AI 计算能力的开放平台,其目标是全面开放 NPU 能力。它可以自动把开发者手中的 AI 模型轻量化成移动版,集成到 APP 上,并获得手机芯片异构算力的原生优化加速。2017 年 9 月,华为发布了首款自带神经网络计算单元 NPU 的移动芯片麒麟 970。2018 年 3 月,HUAWEI HiAI Foundation 随之发布。经过几年发展,HUAWEI HiAI Foundation 已经从仅支持手机扩展到了全场景硬件,还可以做到一次开发多端运行。计算能力上看,则可以协同 NPU/CPU/GPU/DSP 实现异构计算,大幅提升了效率。在 HUAWEI HiAI Foundation 的最新版本上,新增的能力主要有三个方面:提供 AI 模型性能优化快速升级的端云协同;开放为开发者提供更多可选模型结构的 Model Zoo;还有模型量化工具包,可以快速压缩 App 中 AI 模型的体积。经过多代持续打磨,HUAWEI HiAI Foundation 的兼容性和易用性已经相当成熟。人们熟知的鸿蒙 OS 的用户已经超过了 1.5 亿,是史上发展最快的终端操作系统。而作为麒麟芯片计算能力的开放平台,HUAWEI HiAI Foundation 的应用范围也是前所未有 ,它现在的日调用量高达 600 亿次。相比 TensorFlow Lite GPU、Android NN 等端侧 AI 计算生态,HUAWEI HiAI Foundation 已经成为了业内最流行的 AI 架构,而且领先幅度正变得越来越大。每天百亿调用量意味着海量的智慧业务正在端侧应用,充分发挥了麒麟芯片的 AI 算力,为用户带来了前所未有的体验。随着 AI 生态的不断演进,技术应用的经验也会为未来的改进打下基础,助力下一代芯片的研发。仅仅方便开发,体验好还不够。与高通、联发科等公司提出的工具相比,华为的优势在于「端云协同」。深度学习算法由很多计算单元组成,我们称这些计算单元为算子(Operator,简称 Op)。从广义上讲,对任何函数进行某一项操作都可以认为是一个算子。在深度学习框架中,算子对应层中的计算逻辑,例如:卷积层(Convolution Layer)中的卷积算法,是一个算子;全连接层(Fully-connected Layer)中的权值求和过程也是一个算子。对于构建 AI 应用来说,算子提升了效率,然而大多数手机中的算子库集成于系统中,加入新功能要等手机系统几个月一次的更新,这是很多 AI 新算法难以落地的原因。HUAWEI HiAI Foundation 选择把算子库放到云端,当有新开发的算子时,只需要对比一下旧的算子库,把更新算子下载到手机端里就可以让所有手机支持新技术了。这种端云协同的方式既提高了开发者工作效率,又扩大了应用范围,算子更新的频率可以和 App 更新的速度同步。相比之下,其他厂商发布的深度学习框架,其算子更新速度通常是以年为单位的。作为连接底层硬件算力和应用之间的桥梁,HUAWEI HiAI Foundation 目前支持超过 300 个通用算子,TensorFlow、PyTorch 等主流深度学习框架,国内开源深度学习平台,以及很多厂商的自用框架。硬件支持从麒麟 810 到麒麟 9000——内置华为自研 NPU 的所有芯片。从一篇顶会论文到手机上的 App,AI 新技术的引入是一个复杂的工程化过程,需要保证性能、功能要求,进行多轮优化。由于海思和华为终端联合运作的方式,在 HUAWEI HiAI Foundation 上芯片厂商与开发者直接进行合作,在一些关键问题上能真正做到效果最优,这是其他竞争对手无法比拟的。HUAWEI HiAI Foundation 未来的发展方向,是让移动端 AI 模型更简单、更安全、能效更优,构筑全面开放的智慧生态,让开发者能够快速地利用华为强大的 AI 处理能力,为用户提供更好的智慧应用体验。机器学习模型在最初的研究阶段可能需要泰坦 GPU 进行训练,A40 进行推理,谷歌能让机器学会「阅读理解」的 BERT 模型在刚刚发布时体积达到了 500MB 但手机 App 上,自然语言处理模型只有 50 到 100MB 的空间,模型必须被大幅压缩。HUAWEI HiAI Foundation 推出的 NAS 模型搜索技术,能让开发者只需要将自己的模型、数据集作为参数提交给工具,随后就能通过自动搜索获得能在端侧运行,效果与原模型效果相当的模型出来。该技术目前主要面向图像识别、分类、检测等任务,在指定任务中可以自动搜索出效率最优的模型,且搜索结果能够实现在 NPU 上性能、功耗比最优。另一方面,HUAWEI HiAI Foundation 提供的端侧算力让很多原先必须部署在云端的算法落在了本地,所有数据形成闭环,业务数据、照片、语音信息等敏感内容不离开用户,保证了数据安全。越来越多的端侧 AI,会持续强化这一趋势。未来,各类应用对 AI 的需求会越来越拥挤,华为还在继续努力,让麒麟芯片带来更大价值。2021 年,我国网民人均手机 App 安装总量是 66 款,每人每天使用 App 的时长已超过 5.1 小时,这是一个前所未有的数字。人工智能技术带来的便利,是手机承担起越来越多任务的原因之一。还记得 2017 年,华为发布第一款带有 NPU 的芯片麒麟 970 的时候,有很多人会问「它能做什么?」现在,问题已经变成了「这件事,麒麟芯片能不能也来做?」昨天人们还在开的脑洞,已经被 HUAWEI HiAI Foundation 一步步实现了。