一家成立不到两年的图像识别公司,如何在短时间内拿下众多银行客户?
自 2015 年 4 月成立以来,海通证券、西安银行、中国建行等多家金融机构先后应用了云从的人脸识别系统。今年 9 月,中国农业银行更是率先将云从的技术应用到 37 家分行,成为全国第一家应用人脸识别技术的四大行。
作为云从科技的创始人,周曦博士师从「计算机视觉之父」Thomas Huang(黄煦涛)教授,并在 2007-2011 年期间 6 次获得智能识别类世界大赛冠军。2011 年受邀回国后,周曦博士进入「中国科学院百人计划」,联合 UIUC(伊利诺伊大学厄巴纳-香槟分校)及新加坡国立大学成立中国科学院重庆研究院智能多媒体技术研究中心。期间带领团队研发出智能图像侦查仪、公安千万级人像检索机、人脸识别智能人员管理系统、大规模动态人群特征检测系统等产品,并作为中国科学院人脸识别唯一代表参与战略先导 A 类专项「新疆安防布控」。
多年的学科钻研和技术、实践经验积累,使得云从自诞生之初就有着不俗的竞争力。可移动式大规模数据采集阵列、双层异构深度神经网络等复杂名词的背后,是云从「希望帮助更多人」的初心。
云从科技创始人周曦
机器之心专访周曦博士,从个人经历、云从科技的技术特色、金融业的技术应用特点、图像识别的发展等多个角度,还原这家图像识别公司的不同面貌。
从语音转行图像,希望技术真正「有用」
机器之心:您为什么选择了图像这个方向?
周曦:最早我在中科大做语音。后来去北京,在微软亚洲研究院语音识别组也呆了很长时间。但这期间「做了错误的判断,做了正确的决定」——我觉得语音没前途。按照摩尔定理,语音识别每 18 个月错误率能够减半,但我感觉离实用还是很难。而图像识别的视频和图像是个大得多的领域,可以解决的问题要多得多。
从信息分析来看,语音是一维信号,图像是二维信号,视频是三维信号,从信息上看图像比语音丰富。从任务来看,Audio(声音)本身是有很多任务的,但 Speech(语音)和 Audio 是两回事儿。Speech 是人的声音,背景音等很多声音对我们意义不大。我们想要研究的就是 Speech,这造成了所有做语音这一行,能做的任务就是能把说话的内容识别准。
图像和视频是完全不同的,人脸识别大概对应着语音识别。把图像中的人找到,再识别他是谁、他的情绪、年龄、性别。这只是浩瀚的图像识别和视频识别中的一小部分,对于我们来说有用的不止这一点。
医学上应用图像处理,可以识别早期癌症等疾病。为什么体检后很多疾病没有检查出来?不是没拍到,是需要非常专业、非常资深的医生才能看出来。如果疾病尤其是癌症早期就看出来,基本能够治愈。通过图像识别和大数据,更好的把有嫌疑的部分都找到后再请专业的人确认,这样不就可以挽救很多人的生命吗?
再比如做工业视觉,生产线上的东西是不是有瑕疵,有没有裂缝?表面平不平?也可以通过图像视频看出来。又比如现在很「火」的自动驾驶,可以通过图像识别出所有路面的情况,是不是有标志等等。
对于图像来说,识别宇宙万物都很有意义,不止是识别人的脸才有意义。
图像做一点点事都可能帮助到别人。当时我看到一条新闻,国外有人在泳池下装了一个摄像头,能自动识别出游泳者是不是溺水。做图像视频可以有很多的方法帮助别人,就觉得这个还蛮有意思的。所以「做了一个错误的判断,一个正确的决定。」来到美国,开始做图像视频。
机器之心:在美国您跟从 Thomas Huang(黄煦涛)教授学习,他是怎样一位老师?
周曦:他是那种给我们营造环境的大师,给我们很大的平台和 high-level 的指导,比较轻松自由的环境,可以去做自己想做的方向。Thomas Huang 给我们很大的视野和平台。他本身是顶级教授,他指大的方向,给我们看大的视野是什么,我们自己三五成群研究自己感兴趣的东西。
Thomas S. Huang(黄煦涛)教授在图像处理、模式识别、计算机视觉领域有奠基性贡献
机器之心:那您后来为什么创业做了云从?
周曦:很多时候都是幸运。我本来做语音、后来做图像,都属于人工智能甚至机器学习这一个分支里,有一定的学科交叉,很多东西都是复用。
当时的语音识别走在图像识别前面,已经到了系统化的阶段。我到美国时,图像还没到这个阶段。从语音转到图像,让我们在方法论和做系统这件事上远远领先了所有人。当时图像领域都是「单兵作战」,在一个电脑上跑或者在一个服务器上跑任务。语音领域的人都认为必然需要 cluster 服务器阵列,分布式的提交任务。我到 UIUC 时发现还没有,马上就搞了一个。有 cluster 服务器就相当于正规军,别人是散兵游勇。
语音有很多做得很好的算法和思想,我也在图像上实践。果不其然效果很好,2006-2010 年之间拿了很多世界冠军。拿了这么多冠军我就想,总要做什么有意义的事儿吧。这个东西要「实用」,不管是检查零件还是挽救溺水的生命,在各种场合下要能帮到大家。
这时就发现,虽然能识别宇宙万物,但图像识别一定要具体到一件事上才能帮助到别人。想来想去,人脸是图像中很重要的东西,把人脸做好可以做很多事。于是我们就先选了人脸识别。
后来发现,如果没有商务推广能力也是不行。2013 年底、2014 年初,我发现芬兰有一家小公司做刷脸支付,觉得很好玩,就率先在国内做了刷脸支付。2014 年是做出来了,在手机上可以使用了,但其实是没有用的,因为没有人真的用。我只是告诉别人,可以这么玩儿,谁会真的去用呢?哪个金融机构会拿这个真的去做事呢?
如果我们永远只在学术里,还是帮助不了人,做不了什么事儿。一定要自己有个公司、自己有能力去做商务推广,把这个东西往前推动,就有了云从。
短时间搞定多家客户背后,是多年的实践积累
机器之心:云从成立一年半时间,为什么能拿到银行、公安这么多客户?
周曦:技术积累就不说了,很多年我一直在尝试怎么让技术实用。从学术到好用的系统,有很长的距离。
我们在美国拿很多世界冠军,回国就是想让技术能实用。从 2011 年回国做了好多年,我们在中科院做的很多系统已经在新疆等地使用了。产品是成熟的,只是还没在商业推广起来。虽然公司去年成立,但准备工作特别完善。如果不全力以赴、以公司这样严肃的方式运作,是没有办法得到大家的认可的。
云从科技部分应用案例,可于其官网查看具体内容
还有一点是我们做东西很集中,我觉得专注是很重要的。一个是研究的东西很集中,虽然什么都能做,但现在还是做好人脸;第二是行业上要集中,各行各业都能做,我们只做金融和安防。
机器之心:银行这个行业应用分支有什么具体特点?
周曦:银行的要求是,一定是一个严肃、认真的公司。不仅要求稳定,同时希望有非常快的响应速度。银行有严格的「2 小时、4 小时、8 小时原则」,系统宕机 2 小时,行长就要去当地人民银行喝茶;4 小时没解决,就要写报告;8 小时没解决,这就是严重事故,银行的评级一定会下降、甚至是关门,就是这么严重。
对我们这种 IT 供应商来说,能保证程序出现问题两小时之内修复吗?这是非常难的。如果人脸是其中的标准环节,恰好人脸识别的服务器宕机,银行只能关门,民众会怎么想?大家可能觉得银行是要垮了,会出现很大的金融事件,然后出现挤兑。这个就是银行的特点。
我们的系统还必须从总行部署,压力很大,需要我们非常专业。云从虽然成立时间不长,但很认真,在全国十个城市有销售服务中心,全国每一个省有自己的销售服务人员,要保证各个地方一线有云从的人。真的出现问题,我们要第一时间过得去。
银行是很看重销售服务体系的,大部分互联网模式的公司可能不太重视这个事情。
机器之心:云从的「超大规模移动式数据采集阵列」是怎样的装置?作用是什么?
周曦:这实际上是受我在了解医学过程中的影响。我们这一行,其实没有做医学那么认真。医学上做 CT 切片时,因为光线是流明,从正极白到负极白每一度都要拍摄下来。这些图片形成一个严格的表格,可以反向查表解决问题。不能做错手术、不能误判、医学是很严格的。
但我们这行经常说「情况很复杂,只能搞个大概」,光线、角度、遮挡、表情,影响因素很多。医学是值得学习的,所以当时从美国回来就做了结构化数据。采数据容易,结构化数据不容易。就算从互联网上下载 1000 万张人脸,或者在大街上安装摄像头收集行行色色的人脸,这些数据都是非结构化的。一张人脸的照片拿出来,它是什么角度?是什么光线?光源从哪儿来?有没有遮盖?是什么表情?有没有模糊?很难一张一张标回来。
所以我们花了很大力气,做了这个移动式采集阵列。横向上从负 30 度到正 30 度,纵向上从 0 度到 30 度,每隔 5 度安装一个摄像头。7 层 13 列,一共 91 个摄像头形成了一个阵列,使用的摄像头是当时我们从加拿大进口的高速摄像机元件。这个阵列结构是可拆卸的。我们自己做了同步单元,保证毫秒级触发同步采集。因为视频量非常大,我们还要保证存储跟得上,整套东西做好是个宏大的工程。
采集的空间是有标尺的,人的脸部都是固定的,加上我们自己做了光源阵列,可以获得光线和角度属性。我们还自己设计了剧本规定了表情,遮挡方面有假发、帽子、眼睛等等。获得的每一张照片,属性都是自动获得的。
但只是这样,就不需要「移动」了。实验室环境是不够的,从实验室到实用都要去做,所以这个阵列要可拆卸、可移动。银行业务很多在大堂办理,所以我们还要采集大堂情况下的数据;公安有时监控的是通道,我们就在通道采集数据看具体是什么情况。依靠这个结构化数据采集阵列,我们得到了广泛的数据。
为什么在大数据背景下,我们还要费力气做结构化数据?就像我们常说社会是最好的学校,为什么还要设立小学、中学、大学?在学校学习的是结构化知识体系,让小孩有三观和基础知识,再去接受广泛的数据洗礼,进行大量的学习。如果从最开始就随便学,最后学习的结果就不可控了。所以需要先有结构化数据,再有海量的非结构化数据,才能做出最好的模型。
机器之心:那么云从的另一项技术「双层异构深度神经网络」,是如何做到将看起来不相似、但实际是同一个人的人脸对应起来的?
周曦:双层异构是双层、异构两件事。很多时候注册的照片是证件照,比较端正;现场照往往过了好几年,现场的光线、表情、角度等等各种因素都比不过证件照,需要用复杂的网络解开。描述每个东西都是一个分布,同一个人要满足同一个分布,但因为种种因素同一个人的照片之间已经隔得很远。我们不用强行把两张照片圈在一起,而是让他们在两个层上组成分布,用线将它们连接起来。接受注册和测试时的不同,将中间的原因找出来,这个就是双层。
异构和双层是相辅相成的。大数据有一个特点,只要数据足够多就可以让它自己学习,但实际上影响因素是什么,人是知道的。人们知道原因是光线、遮挡、表情造成了差异,可以完全让它自己去学习,也可以提前告诉它可以省很多力。异构就是结构化不一样,数据是一种结构,知识是另外一种结构。要把知识簇给出,映射到一个一个簇中,让它用更少的代价解决这件事。
用「三个苹果」举例。教一个孩子认识苹果,大概三个就够了。告诉他「圆圆的」、「上面有果蒂」、摸起来是什么感觉,这就是苹果。下一次再看见苹果,问他「这是什么」,他可能知道也可能不知道。如果不知道,可以告诉他「这就是上次说的苹果」。他会问「颜色为什么不一样」,可以回答「上次是青苹果,这次是红苹果」,孩子就会知道「苹果有不同颜色」。几次之后,他就认识苹果了。
深度学习要想「搞定苹果」,需要多少个苹果?通常要 1000 或者 10000 个苹果的训练数据,训练结果达到识别率 90%。也就是说假如有 10000 个苹果,有 1000 个会识别错。我们问电脑,「这 1000 个为什么识别错了?」它不会回答「颜色不一样」,而是说「求了偏导、积分等,结果是 0.4,预置值 0.5 以上才是苹果,所以它不是苹果」。如何纠正电脑?没有办法,只能说是训练数据不够多,再找 10 万张苹果的照片训练。终于,识别率到达了 98%,效果还不错。
在我看来这并不是人工智能,和小孩子沟通的过程才叫人工智能,因为他理解我抽象出来的概念。通过颜色、形状、材质等几个抽象出来的概念,定义了一个新的事物,当他有不同的理解时,也会用同样的概念提出问题,再来纠正他的认知。我们在一个很高的层次做交互,能够举一反三。一个点一个点的求偏导、求积分,是没办法交流的。
除了基本的、初级的像素信息外,要加入上层的 concept(概念信息)和 attribute(属性信息),才能做到在更高的层面交互,快速的举一反三,迭代出问题。
机器之心:图像识别会涉及到大量运算,我们如何提升反应速度?
周曦:这又涉及到工程上的问题。为什么(图像识别)门槛很高?因为它不是搞一个模型就行的问题。人脸识别本身就有几十个模块,从检测、跟踪、分割、关键点、旋正,到质量分析、光线补偿、角度补偿、遮挡补全等等等等,对于任何一个模块又要针对每种场景做不同的适配。比如关键点提取如果应用在手机前端,供应商会要求模型大小在 1M 以下,而整个人脸识别模型在服务器端是有超过 1 亿个参数的。
同时,我们还要求很快,比如视频中有很多人,要求在 1ms 之内识别出多有的关键点。为什么是 1ms?因为还有很多的模块要运行,要满足所有的运行时间加在一起达到「实时」(30ms 之内)。有时候又要求很准,比如美妆应用对关键点的识别偏一个像素,就会让人感到不适。又要小、又要快、又要准,就要有不同的算法和模型应对不同的场景。
几十个模块、每个模块要有不同的场景、还要应对所有的硬件(不同的手机型号、服务器、嵌入式设备),这就是我们常常说的「无数的精力都放到适配上了」。研究出一种新算法,Android、iOS、Linux 等等所有的模型都要重新更新一遍,这是很累的。所以为什么像我们这样的公司都要有庞大的研发队伍,很多人不理解为什么做一个人脸识别研发团队要超过 200 人,原因就在这里。这还只是核心技术的一小块,还不算在不同的行业做闸机、迎宾等等不同的设备。
机器之心:您曾在一次演讲中提到云从能够解决「人从哪里来」的问题,现在我们已经能做到对单人实现历史轨迹提取了吗?
周曦:这个不能光靠我们,首先要将所有的监控视频结构化,先将其中的人脸数据提取保存起来。将来如果想快速得到某一个人的信息,可以从系统快速的发布请求到所有的服务器端,将得到的信息组合起来。轨迹图、甚至这个人做过什么事、和谁说过话,信息链就会整合出来。现在在技术上是可行的,但数据联动等还不能保证。
刷分的人脸识别,没有任何意义
机器之心:图像识别发展到现在,您认为有哪些标志性事件?
周曦:图像识别曾经很火过。到了 20 世纪末、本世纪初,这行变得很惨淡,大家都觉得未来遥遥无期、没有希望。直到 2001 年的 ICCV,Paul Viola 和 Michael Jones 发表了《Robust Real-Time face detection》,在现场引起了轰动。他们用摄像头对准大家,现场所有人的脸都被圈出来了。图像识别第一次有实用的东西出现,这是图像识别命运的扭转。
另一件挽救了图像识别命运的事件,是 911。911 后美国政府率先要求全部应用摄像头,海量视频出现后需要加强智能监控,客观上也让经费大幅提升。
深度学习也是一个巨大的标志性事件,深度学习在 2006 年提出,2009 年左右开始在图像中应用。一直到现在,仍是大爆发的阶段。
硬件先行、大数据也有了,云计算云存储又得到了非常好的发展,需要有算法将他们的能力表达出来。深度学习,就是炊米的「巧妇」。
机器之心:中国在图像识别研究上,大概是什么样的位置?
周曦:就图像识别而言,我们在国际上是领先的,至少没有落后美国。
在中国,尤其是人脸识别,需求是比美国旺盛的。需求推动造成企业敢于投入资金,大家的投入也很大,再加上算法基础相当,中国的数据更多,所以中国是不会落后于美国的。
机器之心:有一种声音认为,现在的图像识别每天都在参赛刷分,离解决人类视觉认知等初衷太远,您怎么看这种观点?
周曦:刷分是没意义的。我们的初心是让图像识别真的有帮助,真的能用起来。一定要有人沉得下来做基础研究,也要有人做实用的东西。
我们是偏向做有用的东西,把好的技术在银行、公安、机场等各个地方用起来,让民众觉得很好用、很舒服。为了解决这件事就会面临很多科研问题,比如晚上光线不好,就无法进自己的家门了吗?应该 24 小时每天稳定的让每个人使用,这就是实用中出现的科研问题,同样要去解决。
做原创性研究比如怎样从理论上解决大数据的问题,也很了不起。但刷分是没有意义的,因为解决的是制造出来的、不存在的问题,只是炫技。