你能盯着天花板持续半个小时吗?
大多数人在不到十分钟便会走神、发呆或者犯困;但却能对着电脑屏幕长达数小时。这就是生物神经系统的工作原理之一——依靠电脉冲信号来驱动,而不是基于固定的频率去看世界。
通过一秒钟眨几十次眼睛来记录图像,是摄像头才有的“看法”。
基于半导体的集成电路技术来模拟上述的生物神经系统结构,仿照人脑及感官的运作规则而构建的芯片被称为类神经形态(Neuromorphic)芯片,在1980 年代晚期由与戈登·摩尔(Gordon Moore)共同定义摩尔定律的卡弗·米德(Carver Mead)教授提出。
陈守顺所创立的芯仑科技就是这套理论的忠实践行者。
「现在大家都在谈算力的问题,但从来没有人反问过算力为什么会有问题?会不会是前端有问题?
业界对于前端感知设备的迭代只是聚焦在堆积冗余的这一条路径上,比如用帧率更高摄像头,从 30 帧、60 帧到 100 帧……似乎都在不计成本地堆叠更多的数据,然后创造更多的算力,以弥补前端的不足。
有没有可能从底层原理上颠覆这套技术方案,让机器像人眼一样在前端就直接到更有效、更简洁的数据?」
采访之初,芯仑 CEO 姚楷祥便抛出了一连串疑问和思考,他和陈守顺试图挖掘出更底层的方案来解决目前人工智能应用过程中面临的算力不足问题,尤其在机器视觉领域。
姚楷祥认为,这其中的源头来自于传统摄像头所记录的数据并非适合机器间的交流,主要体现在两个方面:
一是摄像头「是否看得见」,即帧率够不够快、能不能清晰识别到高动态的明暗范围,能不能快速地进行明暗视角的切换。
二是系统「能不能算得过来」,比如我们能够从相机看到某个人像,但是机器的算法却无法识别出来,可能就是非结构数据结构化效率不足或者能效不足。
在记录运动图像中常遇到的经典问题——Motion Blur(运动模糊),即帧率不足的体现。运动模糊指在拍摄运动速度非常快的物体时出现拖影现象,其原因在于传统相机按下一个快门即需要经过重置电荷累计、曝光、读出、空闲四个流程,但它真正在记录影像的过程有且仅有曝光阶段,只占总流程的 1/4。
正是由于传统传感器数据采集存在间隔,摄像头仅在曝光阶段观察世界,不曝光时便不记录,造成对物体的追踪存在盲区,丢失了大量物体运动信息,为后端图像处理算法带来难题。
面对传统相机存在的数据量过大和运算能力不足两大难题,芯仑团队推出动态传感器芯片——CeleX,其核心技术积淀来自于陈守顺在香港科技大学、耶鲁大学、南洋理工大学等多所高校近二十年的教研成果积累。
据介绍,CeleX 能够实现每个像素都能连续并行地单独监测光强波动,并在达到阈值时激发事件被读出,从而采集到同时具备二维坐标和时间信息的三维数据集。
「我们希望教会所有的 Robotics(机器人)、UAV(无人机)、AGV(物流机器人)像人眼一样去感知这个世界。」这句话常被视为机器视觉领域研究者们的终极理想,看起来芯仑团队对其的理解更为深刻。
突破传统 CMOS 瓶颈
「一辆自动驾驶汽车每天将产生 4TB 的数据」,相信很多自动驾驶从业者对这个数字并不陌生,这是英特尔在一组报告中引述的数据。
但很多人所不了解的是,「这其中 99% 以上的信息跟安全决策无关。」姚楷祥谈道。
为了获取更为有效的数据为后端服务,同时兼容市面上现有的主流方案,芯仑在其传感器芯片上设置了三类输出码流方式:
1)图片模式,和传统图像传感器一致的全幅图像,兼容传统图像处理算法和硬件;
2)动态模式,为芯仑所特有,通过对自然光强变化的判定输出仿生的动态特征脉冲信号(X、Y、A、T),类似于激光雷达输出的点云图像;
3)光流模式,为芯仑所特有,无需降维,从芯片上得到光流向量场信息,无需后端算法处理,直接输出全分辨率运动矢量信息(方向和速度)。
据陈守顺介绍,CeleX 传感器对高速数据的采集指标可等效于:每秒 20 万帧,像素点时间分辨率 5 纳秒,动态范围超过 120dB。
关于 20 万帧的超高频率,陈守顺解释道,在传统传感器中,图像的记录存在固定的帧率,即以某个频率对阵列的所有像素点采样一次。
但在 CeleX 的动态模式下,只有光强发生变化的像素才会被读取,即「敌不动,我不动」,因此芯片的输出数据就不受帧率的影响,运动频繁的点读出次数会相应增多,可以完整记录下运动的过程,目前的接近数值为 20 万帧/秒。
陈守顺表示,曾试验过,CeleX 最快能捕捉到超过 3000 公里/小时飞过子弹。
补充一个概念,描述相机动态范围的单位「dB」(并不是声音响度的单位),指传感器能同时获取很亮和很暗的物体的能力大小。比如,当我们在背光场景下拍照,经常出现人物太黑,光线太亮,就是因为相机的动态范围不够。而在驾驶场景中,当汽车进出隧道、ADAS 面临强光直射时,则需要匹配到更宽动态范围的相机才能保证不出现「过曝」或「过黑」的情况。
陈守顺介绍,由于 CeleX 像素点单独获取数据,并以对数方式进行光电信号的转换,不再受传统的成像参数(曝光时间、白平衡等)影响,所以能够在高动态范围方面表现更好,这对自动驾驶的意义很大。
采访期间,芯仑为我们展示了基于 CeleX 摄像头的光流可视化图:不同颜色表示不同的运动方向,深浅表示运动的速度,运动轨迹通过脉冲数据格式显示。在摄像头前,笔者以不同速度和不同方向挥动手臂,摄像头均能较准确地识别。
多维度数据的价值
在原理层面,光流和动态模式等数据格式具备明显优越性,但要落地到具体产品和现场场景,与现有数据的兼容性和匹配度将成为关键。
姚楷祥介绍,因为 CeleX 的多码流格式,不光有全画幅图像,也包含动态信息;而在提取到动态特征后,我们在此基础上进行光流拆分和标注矢量信息,最大程度低做到数据的预处理。「这是我们后续商业化的保证。」
作为 CeleX 所特有的光流计算,在自动驾驶领域,诸如 KITTI.ai 之类的传统数据集都是整体系统效能中至关重要的一个维度。
一般来说,光流计算常见的思路是,运用复杂后端算法通过前后帧全幅图像的变化对比进行运算和处理,对于普通相机数据而言,计算非常低效。但在 CeleX 上,光流作为一种预先计算已经集成在传感器功能里,可直接生成时间相关数据。
在自动驾驶以及安防领域中常需要基于图像进行行为分析,而基于深度学习首先面临参数众多的前提,数据量一旦过大将对后续计算带来难题。陈守顺表示,如果时间与空间信息都存在,那将是天然刻画和描述行为分析的数据。
「我们是一家芯片公司」
芯仑第五代芯片视觉处理开发板参考设计,采用 65nm CMOS ImageSensor 工艺。
「基于我们传感器的特性,CeleX 的晶体管数相比传统芯片要高出 10 倍,所以整个芯片的电路设计需要重新设计,」陈守顺说道。
目前,第四代 50 万像素(768x640)芯片已经完全投入使用,采用 0.18um CMOS Image Sensor 工艺,单像素点尺寸为 18um x18um,100MHz 高速双读出通路,目前主要应用到驾驶员疲劳检测等领域。
像素升级到 100 万像素的第五代 CeleX-V,采用 65nm CMOS Image Sensor 车规级工艺,已经流片成功,进入到客户测试 NRE 阶段,预计到明年 6 月份实现大规模出货。
一般来说,深厚的学术派创业很容易遇到前期商业化探索经验不足的问题,找到一位互补的 Partner 很重要。
2016 年秋,一次业内线下活动,陈守顺偶然结实了还在博世新业务拓展部门的姚楷祥。姚楷祥在听过陈守顺的技术方案后十分兴奋,两人对于公司的很多问题一拍即合。
不久,姚楷祥便以合伙人的身份加入到芯仑,担任 CEO。关于两位联合创业人的分工,陈守顺说道,「我主管技术,因为我们的方案涉及到十分宽泛的技术领域,从芯片到应用算法我都能覆盖,其余的管理工作主要由 Kevin(姚楷祥)来负责」。
而关于 CeleX 传感器的故事最早要追溯到陈在香港科技大学攻读博士学位期间,当时他主要研究方向就是神经元形态的图像传感器。直到 2011 年,他终于将这个设想落实到了一颗 64×64 像素的原型芯片上。经过几年的迭代更新之后,陈守顺博士在 2015 年于新加坡创立了 Hillhouse Technology 公司,这就是芯仑科技的前身。
目前,芯仑团队约 40 人左右,分设在上海和新加坡,在今年初获得百度风投领投的 4000 万 Pre-A 轮投资。
陈守顺仍保留南洋理工大学终身教授头衔,该校同时也是芯仑重要的的人才基地,校友和同事时常有不错的人才举荐。在商务团队方面,则主要由姚楷祥组建,绝大部分来自博世中国,具备对于车企客户需求的敏锐嗅觉。
探听客户需求:「给我一个盒子」
前文中提到,动态传感器面向主流的机器视觉平台均有一定的用武之地。综合芯仑的团队背景和市场环境来看,姚楷祥表示,「作为一家底层芯片公司我们无法在所有的细分市场都提供方案」,现阶段仍以汽车市场为主,其他市场领域将争取有销售和技术能力的合作伙伴。
法国咨询公司 YOLE 将动态视觉传感器定义为 L4 和 L5 级别的自动驾驶必不可少的传感器之一。姚楷祥认为,现在 L1、L2、L2.5 级自动驾驶已经量产,L5 级更像是终极目标。但 L3、L4 的前端硬件革新势在必行,尤其中国将成为全球最大的 L3 级市场,而这正是芯仑的机会。
汽车市场作为传统产业,仍以主流厂商为主导,他们对该类新形态的传感器态度如何?目前,全球范围内拥有完整动态视觉传感器开发能力的共有三支,除芯仑科技外另一家同样具备商业化能力的是Prophesee,已经受到博世、英特尔两轮领投。对于芯仑而言这是一个明显信号——「大厂看好这项技术,正在加码。」
在商业落地模式上,芯仑提供了多种灵活方案,主要包括集成了不同程度的功能模块和裸片两类。对于头部用户而言,比如 Tier1 厂商中 ABCD(Autoliv,博世 Bosch,大陆 Continetal,德尔福 Dephi)等量级的合作伙伴,姚楷祥表示,国际大厂技术实力有保障,更乐意在深层次达成合作,包括数据和底层处理逻辑的合作。
目前,芯仑已经和国内知名 Tier-1 厂商达成互为供应商的合作关系,以切入前装市场。芯仑主要提供动态传感器芯片,而该 Tier-1 厂商可提供从产品到生产和供应链等多项丰富资源。姚楷祥表示,这种合作模式将为双方在后端功能和衍生顶层定义等多维度上产生协同效应。
「此外,对于应用算法或者技术团队不够完整的下游伙伴,交钥匙方案将是他们的首选」,姚楷祥谈道,「绝大部分客户都会表示,给我一个盒子,所有的事件驱动功能、仿生异步软件、算法、运算逻辑都在里面。」这在一定程度上对于陈守顺带领的技术团队提出了更高要求。
在产品的具体功能实现层面,陈守顺简单列举了使用场景,并表示最终的产品功能更适合由合作伙伴发布。
目前在车内监测场景中,疲劳驾驶预警系统(DMS)所涵盖的打瞌睡、打电话等行为监控功能已经十分常见。陈守顺表示,基于芯仑超高等效帧率的动态模式,针对驾驶员的眨眼频率能够进行更准确地识别。
「传统检测眨眼的相机需要匹配 40-50 帧率,但同时也会遇到处理器算不过来的矛盾,导致对算力的要求水涨船高」。而芯仑的方案则在更为有效的数据采集前提下降低了算力要求。
在车外场景下,对于采用后装模式的 ADAS 产品,由于缺少前装产品与车内方案深度结合的优势,对其灵敏度和预警功能提出了更高要求,同样能发挥出 CeleX 的应用特性。
姚楷祥介绍,将在 CES 前后发布多个跨领域下游战略伙伴及相关合作细节,尤其是在事件驱动型信号处理上已可通过中外方案联动量化十数倍的带宽节约的运算速度的提升。
要不要做 Mobileye?
对于大部分以 ADAS 为最终形态的厂商而言,Mobileye 将是他们的最终梦想——掌握这全球超过 80% 的市场份额,拥有丰富的 ADAS 视觉产品线。
但在姚楷祥看来,Mobileye 是传统路径的领跑者,芯仑在底层视觉原理上不同,并不想把自己局限在 Mobileye 的替代方案。
他补充道,Mobileye 有很多事情值得后晋厂商学习和参考的思路,比如基于传统的信号处理和运算逻辑,不光能够实现 ADAS 的基本功能;还能基于相机单品类产品上建立起丰富的商业模式,比如高精度地图、众包、LBS 等。此外,Mobileye 日臻开放的态度也同样值得借鉴。
「以往大家认为,摄像头只是个资质平平的学生,只让他处理最基本的任务」,姚楷祥表示,但我们能让它的诸多性能指标,鲜度、鲁棒性等能够做得最好,那大家可能会把更核心的任务交给他。
对于芯仑而言,两位创始人均表示,芯仑动态视觉传感器对传统的感光 CMOS 不是一个简单的成像能力的替代,而将改变的是大家对系统和顶层设计的定义。芯仑科技目标将瞄准标准的 L4、L5 级以上的系统和功能,并目标以 L3 级自动驾驶方向落地。
底层技术的双面性
整体而言,芯仑团队作为全球范围内少数掌握动态视觉传感器核心技术的团队,在技术领先性和商业灵活性上拥有更多话语权,背靠广阔的市场空间和机会。
但与此同时,更底层和新颖的技术形态预示着市场的未开化,作为第一批吃螃蟹的人,芯仑也注定需要投入更多的努力和时间来完善产品和树立标杆模式。
成熟市场已成规模但早有巨头占领,新兴市场则需要更多力量和合作才能开掘,但也蕴含更多可能——商业和技术实则在相互制约中发展。
具体落地到汽车智能化市场,摸爬滚打多年的姚楷祥深知其中的不确定性,「这个行业变化太快,留给创业者的时间并不会太多,三到五年吧。当目光从单车智能转向车路协同,窗口期将会关闭。」
但他同时相信,正是因为此,出奇招才能制胜,基于动态视觉传感器芯片的市场将在不断补缺传统 CMOS 的功能与场景中得到量化和肯定。