云知声副总裁李霄寒:面向物联网的 AI 芯片的设计与思考

人工智能与物联网技术和应用在过去几年飞速发展,诞生了大量的创新,为人们的生活和工作带来了前所未有的体验和可能性。当前我们正在历经一个以人工智能和物联网为核心的全新科技浪潮,它将在不久的未来见证数以万亿计的智能设备的互联。 ARM 作为全球内唯一一个能够覆盖从端到云的计算架构,无疑将在万亿智能物联时代扮演赋能者角色。

10 月24 日,2018 ARM 技术研讨会在北京成功召开。今年大会主题为“ ARM 助力 创新科技”,作为 ARM 重要的生态合作伙伴,云知声副总裁李霄寒博士受邀出席大会并发表《面向物联网的 AI 芯片的设计与思考》主题演讲。

云知声和 ARM 有诸多合作的地方,今年五月,云知声正式推出基于 ARM 通用核的全球首款面向物联网的 AI芯片——UniOne。本次研讨会现场,李霄寒博士结合云知声公司实际情况向在场行业人士详细解读了 UniOne 芯片的设计思路以及芯片系统方案特点,同时探讨了物联网 AI 芯片的未来应用及发展趋势。 

云知声物联网 AI 落地历程

作为国内顶级的语音方案供应商,云知声从 2012 年创始至今,一直致力于将人与机器的语音交互能力从晦涩的机器算法,逐步封装成可以调用的产品,并且落地到大众消费的场景中。

云知声创造过不少行业先例,包括推出国内首家免费的语音云平台、首个实现 IVM (智能硬件模组)在白电领域大规模出货的 AI 公司、国内首家提出医疗语音系统解方案并拥有最多合作医院的公司,以及发布首款面向物联网的 AI 系列芯片 UniOne 。

李霄寒博士用“从算法到芯片”概括了云知声公司的发展历程:

  • 2012 年-2013年,云知声创立之初,移动互联网方兴未艾之际,云知声主要通过纯软件方案(如语音助手 APP 、公有云平台)向行业提供服务;

  • 2014 年-2015 年,伴随物联网的兴起及发展,对于 AI 的需求逐渐显现,云知声开始探索基于通用芯片面向物联网和行业的软硬件一体化方案,在此期间公司正式确立了“云端芯”的产品及商业战略;

  • 2016 年,云知声 AI 芯片1.0版本——IVM  模组在格力空调产品上量产出货,医疗产品正式登陆北京协和医院。随后,搭载云知声技术方案的产品陆续在车载、教育、机器人等多领域落地。

李霄寒透露,面向不同行业提供服务,一方面打磨了云知声的技术能力,同时也让团队更加深入地了解场景。更为重要的是,在服务不同客户的过程中,建设了云知声的芯片设计能力,让云知声坚定了自主设计 AI 芯片,基于专有芯片面向物联网行业提供服务的决心。

从 IVM 到基于 ARM 核的 AI 芯

人机交互系统的更迭引发新一轮产业变革,语音已成为设备交互的最有效和最自然的方式。李霄寒指出,物联网终端设备对于语音、图像等本体交互具有天然需求,这是云知声选择从语音切入物联网的根本原因。

他认为,要实现物联网的智能化改造,意味着设备必须具备“感知、表达、思考”三个关键能力。

以智能音箱为例,首先它需要通过声源定位、远场降噪、唤醒/识别、本地识别、云端识别,听懂人声蕴藏的信息。在感知的基础上,进而通过语音、图像或其他形象化的方式将内容或信息传达给用户。不仅于此,设备仍需通过“云”深入理解用户意图,并结合多终端信息融合和决策、知识图谱以及云端能力,将用户需要的内容和信息通过恰当的渠道反馈给用户。

而要让物联网终端设备具备“感知、表达、思考”三方面基础能力,则必须有硬件载体。李霄寒介绍道,在 UniOne 芯片推出之前,云知声主要是基于通用芯片以模组( IVM )的方式来为家居、机器人等行业客户服务。 IVM 是一个多芯片方案,上面必须运行专用的 DSP 以解决降噪的问题,另需配备专门芯片来实现语音识别、唤醒等功能,方案臃肿且成本高企。

他指出,虽然 IVM 量产后的实际反馈相当不错,但对于业务的长足发展却并非最佳选择,挑战主要体现在以下几个方面:

  • 边缘算力需求

物联网终端设备的语音交互过程中,当所有的计算被放到云端时,声学计算的部分将对云端计算造成较大压力,容易造成云平台成本的增加和计算延迟。与此同时,在如家电、车载、NB-IoT 等诸多特殊场景下,人机交互完全可在无网状态完成。同样以智能音箱为例,在真正的物联网场景下,它需要精准判断用户下达的是如“问天气、听音乐”等需要联网支持的指令,还是像“打开空调、增加温度”等可在本地完成的需求。不论从客户体验还是成本控制等方面考量,都要求在设备端实现“边缘计算”能力,而 IVM 显然无法胜任。

  • 成本的挑战

在硬件尤其是家电行业,有一个约定俗成的说法,“成本每增加 1 块钱,用户需要多花 5 块钱买单”。对于以冰箱、空调等产品而言,如搭载云知声 IVM 方案,要消化掉因智能化升级的方案成本,则产品售价有可能需要增加 500 元以上,对于大众消费价格段的产品而言根本无法接受,因此 IVM 只能覆盖小部分高端产品。如果想从金字塔尖下沉到更多的产品上,必须解决成本问题。

  • 功耗的挑战

不同的硬件设备尤其是白电产品有着严格的国家及企业级功耗标准,低功耗不仅是芯片制造的事,更涉及场景、应用、算法。 IVM 模组的方式冗杂的架构,无法在功耗方面做到最优,显然不是最佳选择。

“基于从业务层面所看到的挑战,以及对势于未来趋的预判,2015 年云知声正式踏上造芯之路。”李霄寒表示。

云知声 UniOne 芯片采用了ARM 核心,同时自行设计了 DeepNet 和 uDSP 等专为深度神经网络和适量计算加速的硬件单元。相较于通用芯片,在 DSP 任务加速、miniNLP 任务加速、TTS 任务加速、内存带宽利用效率、NN 任务提升等核心指标,都能带来成倍数的提升。

李霄寒指出,之所以选择 AMR ,是因为后者拥有非常全面、成熟的 IP ,可以满足云知声这类初创公司对于性能、功耗、成本的极致平衡;其次,云知声在 AI 芯片设计之初便确定了开源的模式,即排除核心引擎之外其他应用层均可供产品商、方案商灵活设计, ARM 提供了非常好的开发生态。

新局面下物联网 AI 芯片的挑战与机遇

当前,物联网 AI 芯片边缘侧相关软硬件基础架构正在走向标准化,具体表现为网络模型标准化、 IR 标准化、IP 同质化。具体表现为:

  • 物联网AI 芯片主流应用场景所需要的网络模型已经阶段性稳定,IP 的演化路径将逐渐走向固化;

  • NNVM,ONNX 等不同模型在编译链的支持下可以运行在同样的架构上,IR 的标准化意味着行业分工的完成;

  • MAC(计算单元)的堆叠成为计算密度提升的主流手段,当前计算密度的提升对芯片产品尤其是系统的差异化影响日渐式微,标志着精细化耕作势在必行。

李霄寒认为,上述的挑战将会给AI 芯片公司带来一定程度的困扰,但挑战的同时也意味着更多的机遇。他预测, AI 芯片创业公司未来的竞争将主要集中在系统层面,即基于对不同场景的理解,从提供单一的 AI 芯片到提供完整的 AI 解决方案。

云知声
云知声

专注于物联网人工智能服务,拥有完全自主知识产权,是世界领先的智能语音识别AI技术企业之一。公司成立于2012年6月29日,总部位于北京,在上海、深圳、厦门均设有分公司。

http://www.unisound.com/
专栏二维码
入门AI芯片人机交互云知声
相关数据
云知声机构

云知声成立于2012年,是一家专注物联网人工智能服务、拥有完全自主知识产权、世界顶尖智能语音识别技术的高新技术企业。总部位于北京,在上海、深圳、厦门设有分公司。自成立以来,发展迅速,备受人工智能行业及资本市场的广泛关注,累积融资近亿美元,合作伙伴数量也已经超过2万家 。

https://www.unisound.com/
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~