CV 界学术明星肖建雄创业了,他想让自动驾驶像电脑一样普及 | 专访

出走学界、仍是商界新人的肖建雄,正用十分之一的成本构建自动驾驶解决方案。

从教授到企业家,肖健雄对新身份适应的很快。

33 岁的肖健雄以企业家身份入选了今年 MIT Tech Review——35 Innovators Under 35,这是由美国科技媒体 MIT Tech Review(麻省理工大学科技评论,创办于 1899 年)自 1998 年创立的一项年度科技人物评选,旨在表彰全球 35 岁以内最杰出的 35 位创新人士。

肖健雄所获得的荣誉归类于榜单中的杰出创业者(Entrepreneurs),相比于同类入选者,例如美国一流生物科技公司 Caribou Biosciences 创始人 Rachel Haurwitz,亦或是市值超过 30 亿美元的柔宇科技创始人刘自鸿,肖健雄还是个商界新人,2016 年 10 月,他正式创办了研究自动驾驶技术的企业 AutoX。

2017 年 2 月,在一场由丹华资本和斯坦福华人创业者协会主办的斯坦佛 AI 活动中,肖健雄介绍了他的自动驾驶公司 AutoX。

在随后的半年时间里,AutoX 获得了加州自动驾驶牌照,其无人车已经能在硅谷的车水马龙间穿梭自如。在今年三月披露的首款测试视频中,AutoX 摒弃了市面上的主流传感设备,仅依靠低成本的摄像头,实现了无人车在不同天气情况下的路面行驶。

这是 MIT Tech Review 看好肖健雄的重要原因,也让 AutoX 成为这项榜单自创立 20 年以来的第一家自动驾驶公司。MIT Tech Review 的科技主编 Will Knight 认识肖健雄已久,他认为:「肖健雄旨在将无人车变的和计算机一样普及」。

在成为企业家之前,肖健雄拥有璀璨的学术生涯―― 2012 年世界顶尖计算机视觉大会 ECCV 最佳学生论文奖获得者;2012 年 Google Research 最佳论文奖获得者;普林斯顿计算机视觉和机器人实验室创始人;两度获得 Google Faculty Awards;美国国家自然基金委员会研究奖……

不过,入选 35 Innovators Under 35 对肖健雄有着不同的意义,「这是我第一次在商业上得到认可。」

拓荒三维深度学习

肖健雄热爱计算机科学,聊到人工智能(AI)时,他整个人都兴奋了起来,「人类能造车、造机械,什么都有,但最缺智能化,AI 是很神奇的。」

同时,他又是一个很直观、喜欢视觉的人。个人喜好引领他在十多年前就读本科期间选择了计算机视觉――一种数学和工程学的结合体。肖健雄在读博士之前就读于香港科技大学,学习三维视觉重建,师从该校计算机科学与工程学的终生教授权龙,他是三维视觉的学术权威。

在港科大分别完成本科和硕士学位后,肖健雄进入麻省理工大学(MIT)。他在 2012 年获得的 ECCV 最佳学生论文奖,是在谷歌实习期间的作品《重建世界上的博物馆》(Reconstruct the world‘s museum )。这是一篇有关室内场景重现的经典论文――用 Google 街景相机,在博物馆内部拍照,继而重现博物馆的内部三维构造。

在 MIT 的 4 年,肖健雄已经开始琢磨如何将深度学习和三维视觉结合在一起。当时,深度学习之父 Geoffrey Hinton 和他的学生 A Krizhevsky 在 NIPS(神经信息处理系统进展大会)递交的那篇经典论文《ImageNet Classification with Deep Convolutional Neural Networks》,让卷积神经网络大放异彩,深度学习也迅速地在计算机视觉领域普及,这对肖健雄的影响很大。

毕业后,肖健雄加入普林斯顿大学视觉研发团队,开始着手研究一个新领域――三维深度学习。深度学习被证明在一维(语音)和二维(图像)上有着显著的效果,但将深度学习模型应用在三维数据(点云、深度图像、网格)的深度特征表示,是在最近几年才开始慢慢流行起来。

近三年,肖健雄发起或参与了几乎所有关于三维深度学习的研究——参与发布目前最大的公共三维数据集(三维数据里的 ImageNet)ModelNet 和 ShapeNet ;创建了研究三维深度学习的基础网络框架 Marvin,为后来者做了铺垫;推出 3D 卷积网络 Deep Sliding Shapes,在 RGD-D 图像中研究三维物体的特征……值得一提的是,Marvin 的所有权如今属于 AutoX。

「这个领域是我们创建的。」提起三维深度学习,肖健雄毫不掩饰内心的骄傲。

由于该领域技术在自动驾驶中有可观的应用前景,原本相对独立的三个领域——计算机视觉、深度学习和机器人找到了应用的结合点。这种趋势在近几年愈发明显,今年,机器人学术圈正在筹办一个全新的顶级大会,取名「机器人学习大会(Conference of Robotics Learning)」,以此推广机器人和机器学习的相关研究。肖健雄受邀成为第一届大会的领域主席(Area Chair)。

不难理解,当肖健雄在 2016 年离开普林斯顿大学后,一条知乎评论写道,「肖教授走了,普林斯顿视觉岂不是又没人扛把子了。」

入局自动驾驶

「我觉得这个(企业家)可能更适合我。」对肖健雄来说,创业和做学术更像是一个数学问题。「做创业,90% 会失败;做学术,90% 会成功。」

初见肖健雄,一如照片上的样子:白衬衫,深蓝色的西装裤,棕色的尖头皮鞋,梳着整齐的飞机头,戴着一副眼镜,文质彬彬。他出生在广东潮州,和马化腾、李嘉诚是老乡。他的家里人,包括爷爷奶奶、父母、姐姐,都是商人。

早在 2013 年,肖健雄就有了创业的念头,但没有迈出那一步。在他看来,刚刚从 MIT 毕业,花 4 年时间读完计算机科学的博士学位,在技术层面还达到通透的程度。此外,当时也没有多少人真正相信无人车的前景。

学术圈有完整的体系和硬件支持。对计算机科学家而言,创新点往往在算法上,对商业模式和应用场景,甚至工程计算平台和计算,都基本不加考虑。肖健雄之前在学术界从事过 40、50 个项目,对纯发表学术论文渐渐失去激情。每个学术项目的周期都很短,能取得的进展也很有限,如同经历一个又一个小的循环,成就感自然不如自己开公司。

三年后,情况扭转。肖健雄从普林斯顿大学辞职,离开美国东海岸的新泽西州来到硅谷。知乎有人评价肖健雄创业,是典型的「学而优则商」。但真正踏出那一步,说服自己的内心,需要勇气。肖健雄是一个喜欢冒险的人,「这项创业是我一辈子做到现在最大的一件事情,也是最激动的事情。」

事实上,2016 年也是一个入局的好时间。此前,肖健雄一手创办了普林斯顿大学的计算机视觉和机器人实验室,掌握了自动驾驶的核心视觉技术。

另一方面,自动驾驶市场也日趋成熟,成为如今人工智能在应用领域里最炙手可热的一块蛋糕,传统车厂和互联网新贵都在全面押注自动驾驶。就在上周,三星也获得了加州道路上测试自动驾驶汽车的许可,正式进入这片群雄逐鹿的战场。

自动驾驶分 5 个等级区分,这是由 SAE International(美国国际汽车工程师协会)制定的行业标准(美国交通部下属的国家高速路安全管理局也制定了一套划分,从 2016 年 9 月统一使用 SAE International 的分类标准),这 5 个等级从最初级的 L1 辅助驾驶出发,到 L5 已经是完全智能化驾驶的水平。

目前,主流的自动驾驶解决方案将目标钉在 L3(高度自动驾驶,由人类负责激烈的驾驶情况)和 L4(超高度自动驾驶,由系统负责激烈的驾驶情况)。在 2020―2023 年间,自动驾驶车辆能够在特定的路段,比如城市街道、高速公路上行驶。至于 L5 什么时候来临,有业内人士预计是 2030 年,持悲观态度的人甚至认为 L5 可能永远不会到来。

「实现完全无人驾驶没有这么快,有些初创公司完全押宝在完全无人驾驶,我觉得这个商业模式非常危险,我不清楚接下来五年他们怎么生存。」肖健雄说,但他仍然希望尽快普及无人车,让自动和辅助驾驶技术在某些领域尽快造福人类,而不用等到完全无人驾驶乘用车的到来。AutoX 宣传口号也是 Democratizing Autonomy(普及无人车),而他准备从摄像头入手。

挖掘摄像头的潜力

作为重要的自动驾驶传感器,摄像头主要是用于目标识别和对象跟踪任务,如车道检测、交通信号灯检测、行人检测等。

完全基于摄像头的自动驾驶解决方案在市面上并不多见。Mobileye 算是自成一派,这家创立于 1999 年的公司致力于研究基于视觉的辅助驾驶科技,目前主要面向 L1/L2 等辅助驾驶;特斯拉也曾是 Mobileye 的用户,但因为一场事故,两家分道扬镳,现在正独立研发基于摄像头、前向雷达、超声波雷达和 GPS 数据的全自动驾驶方案。

虽然市面上真正在销售的几乎全部辅助驾驶产品都是基于摄像头,市场上常常有质疑摄像头安全的声音。相比之下,一些汽车厂商们更青睐于能够主动探测的激光雷达,后者不会受到视线的限制,通过反射光波测量反射时间来确定和物体之间距离,精度高。

肖健雄并不排斥激光雷达,但他始终认为,在目前这个阶段,摄像头应该扮演传感器中的主角。从今年三月公布的首支无人车测试视频来看,他们使用改造自林肯 MKZ 的原型车,装载 7 个单目摄像头,成功地在晴天、小雨、晚间、晚间多云这四种天气情况下行驶无人车。在肖健雄看来,「摄像头的潜力被大大低估了,理论上,摄像头可以做到比人眼还厉害。」

AutoX 种子轮投资方丹华资本的董事总经理万卉,在年初体验了最早的 Demo。她告诉记者,在创立 2 个多月的时间里,AutoX 成功让仅有两个低端摄像头的无人车在城市街道行驶,「这种强大执行能力给人留下深刻印象。」

万卉看好摄像头为主、传感器融合为辅的自动驾驶解决方案,「基于高端激光雷达与三维高清地图的解决方案始于 13 年前的 DARPA(美国国防部高级研究计划局)挑战赛,该架构有其历史包袱与局限性。人类不会发射激光,也不需要提前记录下道路上每一个细节,我们可能会迷路,但仍能安全驾驶。」

为了提高摄像头的安全性,AutoX 下了很大功夫。硬件上,装在 AutoX 无人车上的 7 个单目摄像头,是从 AutoX 团队购买的 300 多种摄像头中所甄选出来的,但依然没有完全符合要求。肖列举了一长串摄像头标准,包括符合车规硬件标准、自动化、高动态范围成像、夜视以及算法需求等。

但这不会造成太大的麻烦,伴随手机市场过去 10 年的发展,摄像头工艺也跟着突飞猛进,厂商有能力制造出满足需求的摄像头。「我们知道需要什么,我们可以让厂商提供定制。不是他们做不出来,是从来没有人和他们提过。」肖健雄说。

软件上,基于摄像头的解决方案对算法的鲁棒性要求很高。这是 AutoX 的优势,除了肖健雄外,公司 20 多人都来自美国顶级的高等院校或谷歌、微软、Facebook。

除了技术层面,成本也是一个重要的考量因素。到 2019 年,AutoX 将提供基于摄像头的 L2.5/L3 自动驾驶软件解决方案。作为创业者,肖需要盘算自动驾驶在商业上的可行性。动辄上万美元的激光雷达,直逼一辆乘用车的市场价,相比之下,几十美元的摄像头就变得无足轻重了。

「我们现在主要是以摄像头为主,然后把摄像头的软件模块提供给感兴趣的汽车厂商。」肖健雄没有披露更具体的应用场景,但提到了两种适合 AutoX 的切实可行的落地方式:第一种是特殊场景,比如物流运货、机场巴士等在限定路线和区域内的完全无人驾驶;第二种是半自动化驾驶,即在乘用车上实现 L2/L2.5/L3 的水平。

肖健雄从内心觉得,这是一件正在改变社会的事情。正如他人尽皆知的外号 Professor X 所代表的另一个人物——查尔斯教授(Charles Francis Xavier,漫威漫画 X 战警里的重要角色),「不是因为这个角色有什么超能力(才厉害),而是能集结社会中的能人异士去做一件很难但对社会有贡献的事情。」

以下是肖健雄和我们探讨关于无人车技术的内容:

机器之心:AutoX 具体使用的是哪款摄像头?

肖健雄:具体的摄像头我们没有定,我们大概买了 300 种摄像头。单目双目都有用,双目的其实就是两个单目的同步起来。RGB-D 没有看到一个特别好的,因为 RGB-D 用不了就得靠 Lidar。传统的 Kinect 和红外线不能看太远,会受到阳光的影响,白天开车阳光照射,有很大的干扰。所以基本上就没有很多选择,就用单目相机。

机器之心:你认为可以通过摄像头解决一切安全问题吗?

肖健雄:如果说不计成本快速实现无人车,当然什么传感器都上。科学上,你加多一点传感器肯定好过没有,就算它再差,但最起码多一层保险总好过没有,但这是科学上的。实际商业上,不可实现的。因为你加很多传感器,价格非常昂贵,最后没有任何经济价值。无人车比雇几个全职的驾驶员还贵的话,那就没有意义了。

第二个硬件也没有准备好。更多东西,就有更多风险,比如说有了不同的东西,每一个都可能失败,一个失败就不稳定了。做实验的时候,因为工程师在那里检测半天那可能不会有什么问题,但现在如果是真正商用,把车真正交给用户,什么千奇百怪的事情都会发生。如果质量不好,任何一个传感器失效了,那都会出事。

汽车行业这么多年一直在测试稳定性,它们做的东西其实就是刹车油门方向盘,但为了这么简单的机械工艺,它们还进化了上百年才能把将它提升到一个很高的安全系数上。今天的方向盘已经安全多了,今天的像 Abs(防抱死),提升整个系统的安全性能,也是迭代很多年才进化到今天这个地步。软件迭代升级的速度可以很快,但是硬件(传感器)升级的速度是需要一个很多年的过程。系统里如果加入了越多的东西,不完美的可能性就越高。

AutoX 无人车的测试视频截图。

机器之心:怎么克服一些摄像头中的弊端?比如说过度曝光,比如这种弱光环境,咱们只是在算法上做一些调整吗?

肖健雄:对摄像头也有一定的要求,不全是算法。当然算法要非常好,非常鲁棒,这是必须的,这是我们的技术优势。

摄像头方面,一个就是强曝光的 High Dynamic Range(高动态范围成像),HDR 的要求是非常高;其次就是夜视。其实相机理论上可以做到比人眼还厉害,但是因为现在没有大量这种需求,只有少数人用它,自然就没有生产这个。

机器之心:摄像头到处理器的带宽要求很高吗?

肖健雄:这个带宽要求挺高的。一般现在的技术都已经承受了,比方说 USB 是很糟糕,但 USB 已经非常快。比方说在工业界,大家用 GMSL 来,这个是符合车规级的一个连接。现在很多特别新的电动汽车厂,他们一直在推 automotive ethernet(汽车以太网),我觉得这也是非常好,因为自动化,以前就是用 CAN BUS,这是个非常老的、非常糟糕的 protocol bandwidth(协议带宽)。

机器之心:深度学习在 AutoX 整个决策过程中扮演什么角色?

肖健雄:我觉得深度学习非常重要,我们在各个方面、各个角落都用到深度学习。很多公司整天把深度学习当回事,把它当广告词。但我觉得深度学习有点像 C++,非常底层,不是说它不好,而是说它非常好,好到一定程度被普及,就变成了常识,所以没有必要强调了。

机器之心:AutoX 的解决方案会是端到端的吗?就是把摄像头的数据直接输入到一个模型里,然后来做决策?还是会分权?

肖健雄:我们在 ICCV 年发表过一篇文章,里面有详细比较过,说这个端到端的效果不是很好。你可以想象一下这个数据要求是非常高的,就比如同一条路的车都不一样,那么多辆车,排比组合都不一样的话,每一个都得要训练数据。下次再换条路开,我觉得可变性太大,导致端到端需要用作训练的数据量非常大,可能是整个人类开车一两千年的数据量。

机器之心:AutoX 会用哪种处理器?会用 GPU 来大量处理这些数据?

肖健雄:现在还没有定下来,因为没有一款成熟的处理器可以用。我们和各大厂商都有接触,和英特尔、NVIDIA、MTK 和高通有紧密的关系。我觉得问题就是目前这四个厂商都没有任何一个真正能可靠的、能用的处理器。但是我相信很快就会有很好的处理器面世。

机器之心:您觉得芯片定制化会是自动驾驶的一个方向?

肖健雄:不一定是定制。比如说像卷积神经网络,基本操作就是卷积。不管使用 GPU、 FPGA 还是更定制化的芯片,都是为了实现卷积。如果有芯片 ASIC 或者 FPGA 出来就是卷积,会有更好的效果,用通用芯片我认为是一种资源的浪费。关于卷积在自动驾驶中的作用,一开始大家不清楚是不是卷积,逐渐达成共识后,甚至芯片都可以定制化到卷积。

不一定是定制,比方说像卷积神经网络,基本操作就是卷积。它可以把卷积定制化。现在神经网络只有卷积,其实根本不用 GPU,GPU 是通用编程。不如在 ACIS 出来或者 FPGA 出来就是卷积,我觉得这是一种资源的浪费。所以一开始大家不清楚是不是卷积,那现在基本上大家都同意到只有几种类型的车,那这时候甚至以后的芯片都可以定制化到卷积。


机器之心:不同汽车之间,数据可以互相通用吗?比如说卡车上的视觉数据也能用在训练一个小汽车上面。

肖健雄:可以,但那不是完全通用。但是 90% 可以。

机器之心:但是,拍摄的角度包括摄像头的位置都会有很大不同。

肖健雄:所以我就说 90% 可以(通用),为什么?你的算法要够鲁棒,设计时还要多加一些变化,万一摄像头稍微动了一下,怎么办?这些数据可以增强它们的鲁棒性、独创性,但之后在某一款车型上你还是需要大量定制,所以我觉得需要通用和定制的结合。这也是我们的策略。我们未来的产品可能会有各种形式,然后有一个 centralized(集中)的 dataset(数据集),训练好之后,为每个厂商的每个产品进行定制,确保用户体验在那个环境里是最优的。既不是 one fits all,也不是说完全不共享。

机器之心:摄像头怎么和 HD Map(高清地图)一起工作?Lidar(激光雷达)和 HD Map 合作的比较多,摄像头有哪些优势或者缺点?

肖健雄:优势很明显,就是能够在几年内快速落地产品化,因为价格便宜,然后硬件制造也容易实现。我觉得称不上缺点,大家没做过,像 Mobileye 做过,其他很多厂商做得都比较少。事实上,我们内部发明了许多基于摄像头的定位技术。没人做只能说,难度比较大。还有就是盲目崇拜 Lidar。其实,Lidar 在定位方面也有局限性,比如说一个最极端的状况,试想在一个很大的操场,Lidar 只能看一百米,因为操场很大,超过一百米的半径,你的车在中心的时候,周围一圈扫起来都是平面,什么都没有,没有树也没有房子,这时候理论上就是不可能用 Lidar 做到精确定位。很多人没意识到这个极端状况,国内很多地方是大路十条道,还有交叉路,很像广场,除了地面什么形状都没看到,很难定位。我觉得美国这些居民小区、旁边有楼的还可以用 Lidar 定位。

另外,高清地图每两个月扫一下,但像山间、林间小路里,树会长大、会落叶,比如说在 MIT,东部一到秋天叶子两星期内全部落完了,然后高清地图上次扫的是有叶子,这种情况下,如何对齐就不是很清楚。我觉得高清三维地图是个很好的设想,怎么落地还有很多现实挑战。比如说在波士顿,下雪风吹,每个小时雪都是不一样的,怎么定位?我觉得用 Lidar 很难定位,长得太不像了,Lidar 是靠形状,形状都不一样就没办法定位,分辨率非常有限。大家觉得用 Lidar 就一定好,我觉得不一定。如果 Lidar 降价或者真正量产,我们会马上使用 Lidar,我以前发表过很多文章做 Lidar,只是就算用 Lidar 也需要现实一些,看清楚 Lidar 的局限,就算用 Lidar,软件也要做到非常好。

机器之心:传感器是怎么样的配置?AutoX 是以摄像头优先的解决方案,要加上一些其他的传感器吗?

肖健雄:我们现在主要是以摄像头为主软件模块,但是我们不生产摄像头,比如说各大汽车厂感兴趣,我们可以把摄像头软件模块提供给他们。像特斯拉、 Mobileye,现在真正落地的产品都是靠摄像头,奥迪 A8 也是基本靠摄像头,前面的四线 Lidar 基本上是最后一层防线扫障碍物。

理论肖建雄AutoX自动驾驶产业计算机视觉深度学习创业公司
tony.peng
tony.peng

机器之心编辑

返回顶部