Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

云知声杀入视觉AI芯片市场,2018年营收增长三倍

“物联网时时代的AI芯片更应该像是一款成熟的‘APP’应用产品,Turnkey(交钥匙)将成为AI芯片销售的核心模式。”

1月2日机器之心消息,由语音技术方案切入芯片市场的云知声公布了2019年芯片路线图,包括推出三款芯片:一款轻量级物联网AI芯片雨燕Lite,将于Q2投产;一款面向智慧城市的多模态AI芯片“海豚”,将于Q3投产;一款面向智慧出行的车规级多模态AI芯片“雪豹”,着重本地计算和处理能力,将在Q3至Q4期间投产。

“海豚”、“雪豹”都将同时融合云知声自有的AI语音和AI视觉的能力,AI视觉能力来自于云知声的第二代神经网络处理器IP——DeepNet2.0和一款面向机器视觉的轻量级图像信号处理器ISP,AI语音能力涵盖在云知声去年发布的第一代神经网络处理器IP,将在二代中保留和升级。

云知声第二代神经网络处理器IP包含视觉和语音等多模态下的处理能力,其feature包括:支持多NPU组网,支持Int16/8/4/1数据类型,支持卷积、池化、激活等深度神经网络专用运算指令;支持系数权重压缩,算力可配置(64G—4Tops)。云知声联合创始人、芯片技术负责人李霄寒表示,2018年底已经完成DeepNet2.0在FPGA上的验证工作。

针对轻量级的图像信号处理需求,云知声推出microISP,其feature包括:可支持任意尺寸的图像缩放(4096*2160 到任何尺寸,30帧),支持宽动态自动白平衡,支持自动曝光控制以及镜头阴影纠正,无需调用内存DDR等。

在这之前,云知声在2018年5月推出首款面向语音交互场景的物联网AI芯片“雨燕”。这块芯片上集成了专门面向AI的加速器,面向语音交互、麦克风阵列降噪和处理的数字信号处理器以及通用ARM的核,相比于通用芯片,这类专用芯片可以在特定场景中提供更好的技术能力。据云知声方面表示,“雨燕”性能相比通用方案提升50倍,成本降低到通用方案的三分之一。

据介绍,“雨燕”在2018年6月正式实现规模化量产,目前已经导入美的、360、海信、奥克斯等具体客户,多款客户产品已经处于design in阶段,最早将在今年Q1面市。

不同于一般芯片设计只需要强调 PPA (Power、Performance、Area ,即性能、功耗、面积),李霄寒认为,在芯片设计层面还需要侧重考虑三个层面。一是面向场景化,芯片厂商需要帮客户做很多芯片以外的工作,从提供通用的解决方案到提供某个场景的垂直解决方案,从提供单一芯片到提供软件和应用的能力,从提供硬件本身到提供整体解决方案的能力。二是具备处理多模态数据采集分析和处理的能力,三是具备端云互动的能力。

物联网AI芯片更应该像是一款成熟的‘APP’应用产品。Turnkey(交钥匙)将成为AI芯片销售的核心模式”,李霄寒说道。

经过六年的发展,从语音识别及语言处理技术起家的云知声不再局限于软件和算法层面的创新,通过芯片领域补齐“硬实力”,从语音市场模型迁移到视觉市场的再造,转型成为人工智能服务商。除了提供芯片和终端引擎外,云知声表示还将应用部分向客户开源,同时提供相应定制化工具以及云端AI能力服务。

活动现场,中科院院士、中国科学技术大学教授陈国良出席支持,他谈到黄伟、李霄寒等云知声创始人均为中国科技大学的学生,对于云知声快节奏的芯片迭代进展表示认可。

在图像与芯片技术的产学研合作方面,云知声宣布将与杜克大学所领导的人工智能计算中心——ASIC 达成深度合作,致力于 AI 芯片算法压缩与量化技术,以及非冯新型 AI 芯片计算架构研究,将进一步为云知声多模态 AI 芯片战略的推进夯实基础。

快速迭代能力从何而来?

从宣布第一代芯片落地到现在仅半年时间,云知声快速的产品和商业化能力来自于前期的积累和布局。

创业六年,云知声创始人兼CEO黄伟颇有感慨,他回顾了历年间公司的重要技术与战略时间点,2012年首先将DNN算法引入语音技术领域;2014年,内部提出云端芯一体化,在云端提供基础技术和平台资源,以实现不同设备上提供交互能力;在2015年-2016年,云知声率先通过语音交互模组的方案切入智能家居市场。

黄伟表示,在2015年前后,团队已经意识到物联网需要将能力下沉到设备端。据公开数据显示,物联网时代设备数量将是移动互联网的5倍,达到348亿台。李霄寒认为,在物联网市场面临的挑战包括数量大规模增长,连接成本更为低廉,数据维度复杂多样化,应用场景更为垂直化。

2015年,云知声推出了基于通用芯片的IVM模组量产并出货。随后,云知声在智能家居语音交互方案市场逐步占据领先优势,目前,与海尔、美的、格力等厂商达成合作,合作伙伴数量超过2万家,覆盖设备超过9000万台。

与此同时,在接触过大量客户和具体需求后,云知声团队发现基于通用芯片方案已经不能满足要求。对外有降成本、降功耗的压力,对内有战略规划的必要性,于是在2015年开始启动芯片自研计划。2018年1月份,云知声首款AI芯片“雨燕”进入到MPW量产阶段,5月份点亮测试,6月份正式启动量产;9月12日,发布基于雨燕交钥匙的整体解决方案。

在语音交互方案已经成熟的前提下,云知声开始从视觉方向补齐多模态交互的能力。据黄伟介绍,团队在2018年10月正式转入图像IP的研发。

2018年11月,在国际权威的人脸识别标准评测数据库LFW 和 MegaFace 评测中,云知声团队研发的人脸识别 UFaceID 算法系统性能分别达到 99.80%和 98.47%。

黄伟表示,云知声能够短时间内在视觉AI方向取得重大进展来自于早年团队就在算力和算法平台能力的积累和搭建,包括云知声Atlas 分布式机器学习并行计算平台、DeepFlow算力集群。

基于Atlas算法平台可以实现语音理解、自然语言理解等算法迭代,以及帮助团队不到一年时间在人脸识别领域取得实质进展。

算力层面,云知声通过搭建以GPU 和 CPU 为计算集群的基础硬件资源,针对智能计算的需求和任务特点,使用云知声内部改进的 Kubernetes 作为资源管理和调度系统,通过计算任务容器化和图形化的任务交互,能够最大化的简化算法研究人员提交计算任务的复杂度,实现计算任务的全流程管理和一键式分布式运行。

2018年营收增长三倍

在芯片研发进展之外,云知声在过去一年里的商业化进展同样值得关注。2018年7月,云知声宣布完成6亿元人民币C+轮融资,该轮融资由中国互联网投资基金领投,中金公司旗下中金佳成、建投华科旗下中建投资本跟投,多支国家背景基金参与。至此,云知声C轮总融资额达13亿元人民币。

云知声今年有几个亿的收入,均来自来自于芯片和软件。就公司规模而言,云知声的人均产值高”,黄伟表示,公司在过去三年里营收稳步增长,2017年年增长100%;2018年营收规模年增长300%,预计在2019年实现2-3倍成长。

在商业化落地方面,云知声AI生活场景覆盖家居、车载、机器人领域,AI服务切入医疗、教育、政务等领域。他认为,不同于“分蛋糕”市场理论,云知声在车载、教育、医疗领域是在“做蛋糕”,开辟市场。

自2015年云知声提交车载交互方案,到目前维持1800万台设备激活,40款前装车型量产。2017年,云知声开始提供家庭陪伴机器人方案,目前已经落地300万台产品。2015年切入医疗AI语音领域,电子病历方案已经落地协和医院、华山医院、长海医院等,和超过500家医院合作。黄伟透露,今年云知声还将切入金融、政府领域的AI市场。 

在智能车载市场,云知声已经与吉利集团战略投资、独立运营的科技生态企业——亿咖通科技宣布成立合资公司,开展面向汽车前装市场的车规级 AI 芯片研发,合资公司落地合肥高新区。2019年将投产的“雪豹”将会是双方合作的首款产品。

产业云知声AI芯片视觉语音
相关数据
云知声机构

云知声专注于物联网人工智能服务,是一家拥有完全自主知识产权、世界顶尖的智能语音识别、语义理解等技术的高新技术企业,总部位于北京,在上海、深圳、厦门、合肥设有子公司。公司员工500余人,核心研发团队近百人,其中 45% 拥有博士学历,工程师占比78%,拥有雄厚的科研和产业化实战能力。 云知声深入探索感知智能、认知智能、通用智能三大方向,在语音、语言、知识计算、大数据分析、人工智能芯片等领域建立了领先的核心技术体系,以此构建了完整的人工智能技术图谱。并率先在国内布局大规模异构并行超算平台 Atlas 和深度学习计算框架 UniFlow ,以领跑行业发展的技术实力,助力 AI 基础设施建设,服务国家 AI 战略。 基于“云、端、芯”技术产品体系,提供跨平台、跨场景,融合云端智能和本地智能一体化的 AI 系统解决方案,已在 AI 生活(家居、车载等)和 AI 服务(医疗、教育、政务、金融等)两大核心场景广泛落地。 目前合作伙伴数量已超过 2万家,覆盖用户已超过 2亿,日调用量超 4亿次,其中语音云平台覆盖的城市超过 647个,覆盖设备超过 1 亿台。 云知声自 2012 年成立以来,发展迅猛,备受人工智能行业及资本市场关注,累积融资数亿美元,并多次创下AI语音领域单轮融资记录。云知声连续两年入选福布斯中国最快科技成长公司 50 强企业,是中国人工智能行业成长最快的创业公司之一 。

https://www.unisound.com/
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数字信号处理技术

数字信号处理(digital signal processing),简称DSP,是指用数学和数字计算来解决问题。 大学里,数字信号处理常指用数字表示和解决问题的理论和技巧;而DSP也是数字信号处理器(digital signal processor)的简称,是一种可编程计算机芯片,常指用数字表示和解决问题的技术和芯片。

图像缩放技术

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~