Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

获高通阿里投资后,耐能推出首颗为3D人脸识别定制的AI芯片

区别于大陆AI芯片公司,耐能的风格自成一体,既保留了传统半导体人一贯的严谨保守,也敢于在架构创新上不拘一格。

撰文 | 四月

「在没有确定市场之前我们不敢贸然流片,一定是大公司合作的形式」,耐能(Kneron)创始人兼CEO刘峻诚坦言。在他看来,一家AI芯片初创公司的经营之道在于「夹缝中求生存」——资源有限,每一分钱都要用得谨慎,不能做一颗不赚钱的芯片,做就一定要做能够赚钱的芯片。

这是一家由前高通华人工程师组建的芯片团队,成立于2015年,聚焦在终端 AI 芯片解决方案,主攻智能手机、智能安防、智能物联网等领域。公司在2017年、2018年相继完成两轮融资,投资方包含阿里巴巴创业者基金、高通、李嘉诚旗下的维港投资等硬核机构。

成立三年,推出两代六款IP,基于和高通、知名家电厂商的合作经验,两代IP的开发实战,耐能终于底气十足地踏出了关键一步,基于第二代IP标准版本推出首颗自家品牌的系统级AI芯片,同时也是市面上首颗专为3D人脸识别进行优化的终端芯片。

5月16日机器之心消息,耐能发布AI芯片KL520,专为智能物联网应用所设计,兼顾语音和图像不同数据类型处理,支持2D、3D图像识别,适用于结构光、ToF、双目视觉等3D传感技术并计算不同神经网络模型,可应用于智能门锁/门禁、扫地机器人等智能家居场景,无人机、智能玩具、机器人等智能硬件产品线。

值得一提的是,该颗芯片目前已经量产,并且已经与中国大陆和台湾两地的数家客户达成合作。在深圳媒体沟通会现场,耐能宣布了与大唐半导体、奥比中光蓦然认知等厂商的合作计划。

1  独立优势决定市场覆盖面

作为一颗SoC级芯片,KL520采用常规的ARM核+自研IP架构,双核ARM M4 CPU+KDP 520NPU,其中KDP 520NPU为耐能自研IP,两核的ARM M4用于系统控制和协处理。采用SDRAM 32MB/64MB 系统级封装,LPDDR2内存技术,可接外部64MB闪存。

KL520 算力峰值为0.345TOPS (300MHz) 。相比主流AI芯片的理论算力峰值 1-2TOPS,KL520 看起来并不占优势。不过由于核心利用率(MAC利用率)达到竞品的2-3倍,使其实际效果达到与1TOPS的相近水平,同时保持极低的功耗和成本。

KL520 典型功耗为0.5W,提供MIPI、DVP等视频/音频接口,外部USB2.0、SPI等接口。

值得注意的是,KL520选用了十分成熟的40nm制程工艺,通过更低制造成本创造有竞争力的价格优势。刘峻诚表示,正是因为芯片架构和设计足够好,所以才有这样的底气。

整体而言,KL520 强调轻量化、低功耗、低成本。相比此前AI芯片明星公司的华丽参数,KL520甚至显得有些过于朴实。

但在运算架构和算法压缩上,耐能的核心技术优势却让人印象深刻。据CEO刘峻诚分析,KL520主要集成了耐能IP的三项「独门秘籍」:

1)可重组式运算架构设计:透过重构式架构,让神经网络架构中主要的卷积运算与池化运算可平行进行,以提升整体运算效率。在新的卷积层运算中,可同时支持8bits与16bits的任意切换的定点运算,让运算更有弹性。

所谓「可重组式架构」。一般情况下,不同的计算应用对应不同的神经网络,比如图像处理以CNN为主,比如ResNet、GoogleNet、VggNet;语音处理则以RNN、LSTM为主。但是耐能团队通过对同一颗芯片进行架构重组,使其同时符合语音和图像处理需求,也可以同时兼顾2D、3D图像的AI处理要求。具体到落地场景和实用性层面,则意味着将丰富芯片的使用范围,增强其通用性。

2)深度压缩技术:支持模型转移学习和压缩,支持蒸馏、修剪和量化等压缩技术。不仅能执行模型压缩,还能对运行中的资料和参数进行压缩,减少存储使用。

模型大小可压缩至50分之一以下,准确度的影响率小于1%,提供GUI NPU/CPU等工具链。

3)动态储存资源配置:让共享内存和运作内存之间可以进行更有效的资源配置,提升储存资源利用率的同时却不影响运算效能。

刘峻诚解释,基于动态定点存储技术,I/O在做每层计算时都会动态调整比特数,8bit现在已经成为主流,但到一些具体的算法可能只需要4bit、6 bit就够了,有些地方需要要10 bit,所以需要动态调整,提高其算力利用率。

此外,刘峻诚认为,可拓展性和兼容性是耐能芯片平台的最显著优势,平台能够兼容主流框架和第三方算法,包括主流深度学习框架API ONNX、TensorFlow、Keras、Caffe,支持更广泛的CNN轻量化模型,包括 Vgg16、ResNet、GoogleNet、YOLO、Tiny YOLO、Lenet、MobileNet、DenseNet等,而且针对不同CNN模型分别进行优化,在不同神经网络模型下,可达到70%~90%的运算效能。

「我们应该市面上目前资源最多的AI芯片公司之一。我们还做了一个编译器,可以支持这些框架的开发」,刘峻诚说道。

为了更好地完善软件平台,今年刘峻诚特意邀来原金蝶中间件有限公司首席架构师袁红岗加入团队,这位技术大牛曾在2004年被公推为「影响中国软件开发的20人」之一。

作为耐能最为核心的架构技术优势,目前「可重组式架构」技术已经入选新竹国立清华大学等高校课程,刘峻诚个人也作为台湾成功大学的客座教授进行讲解。刘峻诚表示,「我们的芯片在实验室课上供学生编程搭建方案,两三人一组很快就能上手,这增加了我们对其易用性的信心」。

不同于大多数AI芯片在强调芯片研发和快速迭代的能力,出身于传统半导体行业的耐能更强调芯片的通用性,尤其在分散的物联网市场。

 「我们发现IoT、机器人、无人机,都是量小但杂的市场,所以我们的打法就是用一颗通用化的芯片来支持更多应用。同时强调软件平台开放包容,让体量较小的开发者自己做开发以支持自己的量。」刘峻诚谈道。「我们不可能做一颗芯片卖无人机,再做一颗芯片卖给机器人,那公司一定会垮掉。」 

刘峻诚表示,团队都是芯片领域的老将,打从一开始就深知AI芯片的能力和局限性,当市场不是很清楚的时候,我们会先卖IP,有一定量才决定流片,再判断什么样的制程合适。

「我们是高通出来,对半导体产业非常熟悉,不能做一颗不赚钱的芯片,至少我们公司不会这样干,我们做的这颗就是一定要赚钱,所以才会打磨这么久,才会强调其通用性,可以做3D人脸支付、做语音的家电控制、可以做扫地机器人,做门禁打卡机。」

理论值不够惊艳,但实际利用率靠谱

在算力能耗比方面,耐能二代KL520对比市面上较为经典的架构,能够提升3-4倍。

MAC利用率是刘峻诚引以为豪的性能优势之一,他表示,我们找到过市面上所有能买到的AI芯片进行对比,目前还没有能达到25%以上的,「我们应该是世界最好的」。

所谓MAC,既乘积累加运算算子,目前大部分AI芯片的核心都是由MAC组成。理论上,MAC数越多,AI芯片算力会越大。但实际上还有MAC使用率的影响。如果MAC堆积很多,但如果使用率不高,也无用。一颗AI芯片的核心性能指标之一就是MAC的利用率。

为什么塞进去大量计算单元后可能利用率不高?

刘峻诚表示,MAC利用率跟I/O(进出速度)、存储数有关,需要很强的芯片设计经验。比如,一台跑车马力非常强,但轮胎不好,或者转轴算得不好,协调性不够,导致实际上跑起来速度并不快。可以说,MAC利用率更大层面考验的是团队对于芯片底层架构的设计能力。

正是基于此,刘峻诚透露,在谈客户时,因为耐能的价格能做到大厂的1/4至1/5,并且性能更优,所以具备十分强劲的竞争力。

刘峻诚认为,AI芯片不能只看算力。因为算力的提升可以简单通过MAC数的堆积、制程工艺的提升实现;但与之相对应的代价是芯片功耗和面积的提升,成本的增加。

成功的终端AI芯片应具备足够的算力、最有竞争力的成本、最高的兼容性、最低的功耗的基本条件。

3  落地开枝散叶

目前,耐能已经展开合作的客户有高通、格力、搜狗奥比中光等。此前,耐能的第二代IP,KDP系列已经落地国内知名家电品牌的空调产线中。在技术方案上,与Synopsys、钰创科技、Himax(奇景光电)展开合作。

为应对3D摄像头模组贵、芯片成本高、硬件功耗高等3D传感行业痛点,耐能通过和奇景光电、高通合作推出轻量级3D传感方案,将传统的3D传感模组ToF/结构光/双目+GPU/DSP芯片方案简化为,普通RGB摄像头+普通NIR(近红外光)+KL520,在芯片和模组两个层面降低成本。

在智能门锁市场,耐能与大唐半导体合作,将3D方案落地在轻量级AI芯片上,误识率仅为数十万分之一。同时,对室内外的光线环境均能很好适应,有效的防止多种材质的相片、显示屏甚至人脸模型的攻击。

在产品线路图规划上,耐能在2018年已经实现KDP300、KDP500两代协处理器IP的研发和落地,目前已经落定到国际大厂的产品线中。

2019年,低功耗 IP版本KDP320已经和国内前三大家电巨头之一达成合作,近期将由该大厂发布。KL520目前已经量产,KL720将在第四季度发布。

更长远地,2020年,耐能将相继推出KL330、KL530(28nm)、KL730(16nm)等三代IP,其中KL530将采用28nm制程、KL730的制程则为16nm。

产业芯片耐能
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。

http://corp.sogou.com/
Qualcomm机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

http://www.qualcomm.com/
蓦然认知机构

蓦然认知,让设备帮助人搜索和使用服务。 蓦然认知是对话式服务搜索平台的开创者,致力于让设备帮助人搜索和使用服务;专注于认知计算、自然语言理解、拥有自主的语音交互全栈技术(降噪+语音+语义+多轮对话+知识图谱)。 基于对话平台,通过构建去APP化的对话应用,以语音交互方式为轴线,多模态交互方式融合来进行服务分发,让设备具有拟人化的交互能力,构建交互式AIoT网络,并进行场景化运营,帮助客户实现新的商业模式。

http://www.xiaomor.com/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的,并在随后的两篇论文中进行了修订。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

深度压缩技术

韩松等人提出的深度压缩(Deep Compression)由剪枝、量化训练和可变长度编码(variable-length coding)组成,它可以压缩深度神经网络数个量级而没有什么预测准确度损失。「深度压缩」是一种三阶段流程,它可以在保留原始准确度的情况下减小深度神经网络的模型大小。

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
奥比中光机构

奥比中光是行业领先的3D视觉感知整体技术方案提供商。公司以“让所有终端都能看懂世界”为使命,构建起“全栈式技术研发能力+全领域技术路线布局”的3D视觉感知技术体系,。奥比中光致力于将3D视觉感知技术应用于“衣、食、住、行、工、娱、医”等领域,服务全球超过1000家客户及众多开发者。

http://www.orbbec.com.cn/
物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

结构光技术

结构光是将已知图案(通常是栅格或水平条)投射到场景上的过程。这些物体在撞击表面时变形的信息来在视觉系统中计算场景中物体的深度和表面信息,如在结构光3D扫描器中使用的。 结构光是一组由投影仪和摄像头组成的系统结构。用投影仪投射特定的光信息到物体表面后及背景后,由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息,进而复原整个三维空间。

推荐文章
暂无评论
暂无评论~