仿照人眼机制等效20万帧率,NTU终身教授要从源头挑战机器视觉

你能盯着天花板持续半个小时吗?

大多数人在不到十分钟便会走神、发呆或者犯困;但却能对着电脑屏幕长达数小时。这就是生物神经系统的工作原理之一——依靠电脉冲信号来驱动,而不是基于固定的频率去看世界。

通过一秒钟眨几十次眼睛来记录图像,是摄像头才有的“看法”。

基于半导体的集成电路技术来模拟上述的生物神经系统结构,仿照人脑及感官的运作规则而构建的芯片被称为类神经形态(Neuromorphic)芯片,在1980 年代晚期由与戈登·摩尔(Gordon Moore)共同定义摩尔定律的卡弗·米德(Carver Mead)教授提出。

陈守顺所创立的芯仑科技就是这套理论的忠实践行者。

「现在大家都在谈算力的问题,但从来没有人反问过算力为什么会有问题?会不会是前端有问题?

业界对于前端感知设备的迭代只是聚焦在堆积冗余的这一条路径上,比如用帧率更高摄像头,从 30 帧、60 帧到 100 帧……似乎都在不计成本地堆叠更多的数据,然后创造更多的算力,以弥补前端的不足。

有没有可能从底层原理上颠覆这套技术方案,让机器像人眼一样在前端就直接到更有效、更简洁的数据?」

采访之初,芯仑 CEO 姚楷祥便抛出了一连串疑问和思考,他和陈守顺试图挖掘出更底层的方案来解决目前人工智能应用过程中面临的算力不足问题,尤其在机器视觉领域。

姚楷祥认为,这其中的源头来自于传统摄像头所记录的数据并非适合机器间的交流,主要体现在两个方面:

一是摄像头「是否看得见」,即帧率够不够快、能不能清晰识别到高动态的明暗范围,能不能快速地进行明暗视角的切换。

二是系统「能不能算得过来」,比如我们能够从相机看到某个人像,但是机器的算法却无法识别出来,可能就是非结构数据结构化效率不足或者能效不足。

在记录运动图像中常遇到的经典问题——Motion Blur(运动模糊),即帧率不足的体现。运动模糊指在拍摄运动速度非常快的物体时出现拖影现象,其原因在于传统相机按下一个快门即需要经过重置电荷累计、曝光、读出、空闲四个流程,但它真正在记录影像的过程有且仅有曝光阶段,只占总流程的 1/4。

正是由于传统传感器数据采集存在间隔,摄像头仅在曝光阶段观察世界,不曝光时便不记录,造成对物体的追踪存在盲区,丢失了大量物体运动信息,为后端图像处理算法带来难题。

面对传统相机存在的数据量过大和运算能力不足两大难题,芯仑团队推出动态传感器芯片——CeleX,其核心技术积淀来自于陈守顺在香港科技大学、耶鲁大学、南洋理工大学等多所高校近二十年的教研成果积累。

据介绍,CeleX 能够实现每个像素都能连续并行地单独监测光强波动,并在达到阈值时激发事件被读出,从而采集到同时具备二维坐标和时间信息的三维数据集。

「我们希望教会所有的 Robotics(机器人)、UAV(无人机)、AGV(物流机器人)像人眼一样去感知这个世界。」这句话常被视为机器视觉领域研究者们的终极理想,看起来芯仑团队对其的理解更为深刻。

突破传统 CMOS 瓶颈

「一辆自动驾驶汽车每天将产生 4TB 的数据」,相信很多自动驾驶从业者对这个数字并不陌生,这是英特尔在一组报告中引述的数据。

但很多人所不了解的是,「这其中 99% 以上的信息跟安全决策无关。」姚楷祥谈道。

为了获取更为有效的数据为后端服务,同时兼容市面上现有的主流方案,芯仑在其传感器芯片上设置了三类输出码流方式:

1)图片模式,和传统图像传感器一致的全幅图像,兼容传统图像处理算法和硬件;

2)动态模式,为芯仑所特有,通过对自然光强变化的判定输出仿生的动态特征脉冲信号(X、Y、A、T),类似于激光雷达输出的点云图像;

3)光流模式,为芯仑所特有,无需降维,从芯片上得到光流向量场信息,无需后端算法处理,直接输出全分辨率运动矢量信息(方向和速度)。

上图为摄像头的常见内部结构,其中传感器(sensor)是其核心元件,决定着摄像头的分辨率、帧率等性能。

据陈守顺介绍,CeleX 传感器对高速数据的采集指标可等效于:每秒 20 万帧,像素点时间分辨率 5 纳秒,动态范围超过 120dB。

关于 20 万帧的超高频率,陈守顺解释道,在传统传感器中,图像的记录存在固定的帧率,即以某个频率对阵列的所有像素点采样一次。

但在 CeleX 的动态模式下,只有光强发生变化的像素才会被读取,即「敌不动,我不动」,因此芯片的输出数据就不受帧率的影响,运动频繁的点读出次数会相应增多,可以完整记录下运动的过程,目前的接近数值为 20 万帧/秒。

陈守顺表示,曾试验过,CeleX 最快能捕捉到超过 3000 公里/小时飞过子弹。

补充一个概念,描述相机动态范围的单位「dB」(并不是声音响度的单位),指传感器能同时获取很亮和很暗的物体的能力大小。比如,当我们在背光场景下拍照,经常出现人物太黑,光线太亮,就是因为相机的动态范围不够。而在驾驶场景中,当汽车进出隧道、ADAS 面临强光直射时,则需要匹配到更宽动态范围的相机才能保证不出现「过曝」或「过黑」的情况。

陈守顺介绍,由于 CeleX 像素点单独获取数据,并以对数方式进行光电信号的转换,不再受传统的成像参数(曝光时间、白平衡等)影响,所以能够在高动态范围方面表现更好,这对自动驾驶的意义很大。

采访期间,芯仑为我们展示了基于 CeleX 摄像头的光流可视化图:不同颜色表示不同的运动方向,深浅表示运动的速度,运动轨迹通过脉冲数据格式显示。在摄像头前,笔者以不同速度和不同方向挥动手臂,摄像头均能较准确地识别。

多维度数据的价值

在原理层面,光流和动态模式等数据格式具备明显优越性,但要落地到具体产品和现场场景,与现有数据的兼容性和匹配度将成为关键。

姚楷祥介绍,因为 CeleX 的多码流格式,不光有全画幅图像,也包含动态信息;而在提取到动态特征后,我们在此基础上进行光流拆分和标注矢量信息,最大程度低做到数据的预处理。「这是我们后续商业化的保证。」

作为 CeleX 所特有的光流计算,在自动驾驶领域,诸如 KITTI.ai 之类的传统数据集都是整体系统效能中至关重要的一个维度。

一般来说,光流计算常见的思路是,运用复杂后端算法通过前后帧全幅图像的变化对比进行运算和处理,对于普通相机数据而言,计算非常低效。但在 CeleX 上,光流作为一种预先计算已经集成在传感器功能里,可直接生成时间相关数据。

自动驾驶以及安防领域中常需要基于图像进行行为分析,而基于深度学习首先面临参数众多的前提,数据量一旦过大将对后续计算带来难题。陈守顺表示,如果时间与空间信息都存在,那将是天然刻画和描述行为分析的数据。

「我们是一家芯片公司」

芯仑第五代芯片视觉处理开发板参考设计,采用 65nm CMOS ImageSensor 工艺。

「基于我们传感器的特性,CeleX 的晶体管数相比传统芯片要高出 10 倍,所以整个芯片的电路设计需要重新设计,」陈守顺说道。

目前,第四代 50 万像素(768x640)芯片已经完全投入使用,采用 0.18um CMOS Image Sensor 工艺,单像素点尺寸为 18um x18um,100MHz 高速双读出通路,目前主要应用到驾驶员疲劳检测等领域。

像素升级到 100 万像素的第五代 CeleX-V,采用 65nm CMOS Image Sensor 车规级工艺,已经流片成功,进入到客户测试 NRE 阶段,预计到明年 6 月份实现大规模出货。

一般来说,深厚的学术派创业很容易遇到前期商业化探索经验不足的问题,找到一位互补的 Partner 很重要。

左为芯仑科技董事长兼 CTO 陈守顺,右为芯仑科技 CEO

2016 年秋,一次业内线下活动,陈守顺偶然结实了还在博世新业务拓展部门的姚楷祥。姚楷祥在听过陈守顺的技术方案后十分兴奋,两人对于公司的很多问题一拍即合。

不久,姚楷祥便以合伙人的身份加入到芯仑,担任 CEO。关于两位联合创业人的分工,陈守顺说道,「我主管技术,因为我们的方案涉及到十分宽泛的技术领域,从芯片到应用算法我都能覆盖,其余的管理工作主要由 Kevin(姚楷祥)来负责」。

而关于 CeleX 传感器的故事最早要追溯到陈在香港科技大学攻读博士学位期间,当时他主要研究方向就是神经元形态的图像传感器。直到 2011 年,他终于将这个设想落实到了一颗 64×64 像素的原型芯片上。经过几年的迭代更新之后,陈守顺博士在 2015 年于新加坡创立了 Hillhouse Technology 公司,这就是芯仑科技的前身。

目前,芯仑团队约 40 人左右,分设在上海和新加坡,在今年初获得百度风投领投的 4000 万 Pre-A 轮投资。

陈守顺仍保留南洋理工大学终身教授头衔,该校同时也是芯仑重要的的人才基地,校友和同事时常有不错的人才举荐。在商务团队方面,则主要由姚楷祥组建,绝大部分来自博世中国,具备对于车企客户需求的敏锐嗅觉。

探听客户需求:「给我一个盒子」

前文中提到,动态传感器面向主流的机器视觉平台均有一定的用武之地。综合芯仑的团队背景和市场环境来看,姚楷祥表示,「作为一家底层芯片公司我们无法在所有的细分市场都提供方案」,现阶段仍以汽车市场为主,其他市场领域将争取有销售和技术能力的合作伙伴。

法国咨询公司 YOLE 将动态视觉传感器定义为 L4 和 L5 级别的自动驾驶必不可少的传感器之一。姚楷祥认为,现在 L1、L2、L2.5 级自动驾驶已经量产,L5 级更像是终极目标。但 L3、L4 的前端硬件革新势在必行,尤其中国将成为全球最大的 L3 级市场,而这正是芯仑的机会。

汽车市场作为传统产业,仍以主流厂商为主导,他们对该类新形态的传感器态度如何?目前,全球范围内拥有完整动态视觉传感器开发能力的共有三支,除芯仑科技外另一家同样具备商业化能力的是Prophesee,已经受到博世、英特尔两轮领投。对于芯仑而言这是一个明显信号——「大厂看好这项技术,正在加码。」

Prophesee 在工业自动化和机器人市场的探索(来源:Prophesee)

在商业落地模式上,芯仑提供了多种灵活方案,主要包括集成了不同程度的功能模块和裸片两类。对于头部用户而言,比如 Tier1 厂商中 ABCD(Autoliv,博世 Bosch,大陆 Continetal,德尔福 Dephi)等量级的合作伙伴,姚楷祥表示,国际大厂技术实力有保障,更乐意在深层次达成合作,包括数据和底层处理逻辑的合作。

目前,芯仑已经和国内知名 Tier-1 厂商达成互为供应商的合作关系,以切入前装市场。芯仑主要提供动态传感器芯片,而该 Tier-1 厂商可提供从产品到生产和供应链等多项丰富资源。姚楷祥表示,这种合作模式将为双方在后端功能和衍生顶层定义等多维度上产生协同效应。

「此外,对于应用算法或者技术团队不够完整的下游伙伴,交钥匙方案将是他们的首选」,姚楷祥谈道,「绝大部分客户都会表示,给我一个盒子,所有的事件驱动功能、仿生异步软件、算法、运算逻辑都在里面。」这在一定程度上对于陈守顺带领的技术团队提出了更高要求。

在产品的具体功能实现层面,陈守顺简单列举了使用场景,并表示最终的产品功能更适合由合作伙伴发布。

目前在车内监测场景中,疲劳驾驶预警系统(DMS)所涵盖的打瞌睡、打电话等行为监控功能已经十分常见。陈守顺表示,基于芯仑超高等效帧率的动态模式,针对驾驶员的眨眼频率能够进行更准确地识别。

「传统检测眨眼的相机需要匹配 40-50 帧率,但同时也会遇到处理器算不过来的矛盾,导致对算力的要求水涨船高」。而芯仑的方案则在更为有效的数据采集前提下降低了算力要求。

在车外场景下,对于采用后装模式的 ADAS 产品,由于缺少前装产品与车内方案深度结合的优势,对其灵敏度和预警功能提出了更高要求,同样能发挥出 CeleX 的应用特性。

姚楷祥介绍,将在 CES 前后发布多个跨领域下游战略伙伴及相关合作细节,尤其是在事件驱动型信号处理上已可通过中外方案联动量化十数倍的带宽节约的运算速度的提升。

要不要做 Mobileye?

对于大部分以 ADAS 为最终形态的厂商而言,Mobileye 将是他们的最终梦想——掌握这全球超过 80% 的市场份额,拥有丰富的 ADAS 视觉产品线。

但在姚楷祥看来,Mobileye 是传统路径的领跑者,芯仑在底层视觉原理上不同,并不想把自己局限在 Mobileye 的替代方案。

他补充道,Mobileye 有很多事情值得后晋厂商学习和参考的思路,比如基于传统的信号处理和运算逻辑,不光能够实现 ADAS 的基本功能;还能基于相机单品类产品上建立起丰富的商业模式,比如高精度地图、众包、LBS 等。此外,Mobileye 日臻开放的态度也同样值得借鉴。

「以往大家认为,摄像头只是个资质平平的学生,只让他处理最基本的任务」,姚楷祥表示,但我们能让它的诸多性能指标,鲜度、鲁棒性等能够做得最好,那大家可能会把更核心的任务交给他。

对于芯仑而言,两位创始人均表示,芯仑动态视觉传感器对传统的感光 CMOS 不是一个简单的成像能力的替代,而将改变的是大家对系统和顶层设计的定义。芯仑科技目标将瞄准标准的 L4、L5 级以上的系统和功能,并目标以 L3 级自动驾驶方向落地。

底层技术的双面性

整体而言,芯仑团队作为全球范围内少数掌握动态视觉传感器核心技术的团队,在技术领先性和商业灵活性上拥有更多话语权,背靠广阔的市场空间和机会。

但与此同时,更底层和新颖的技术形态预示着市场的未开化,作为第一批吃螃蟹的人,芯仑也注定需要投入更多的努力和时间来完善产品和树立标杆模式。

成熟市场已成规模但早有巨头占领,新兴市场则需要更多力量和合作才能开掘,但也蕴含更多可能——商业和技术实则在相互制约中发展。

具体落地到汽车智能化市场,摸爬滚打多年的姚楷祥深知其中的不确定性,「这个行业变化太快,留给创业者的时间并不会太多,三到五年吧。当目光从单车智能转向车路协同,窗口期将会关闭。」

但他同时相信,正是因为此,出奇招才能制胜,基于动态视觉传感器芯片的市场将在不断补缺传统 CMOS 的功能与场景中得到量化和肯定。

入门自动驾驶传感器摄像头芯片机器视觉
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

推荐文章
暂无评论
暂无评论~