图普科技李明强:用产品思维打造图像识别的场景化应用

作为微信创始团队成员之一的李明强在 2014 年创办了「图普科技」,这家公司为企业用户提供一个「图像识别云服务」,企业可以选择或者定制自己需要的各种图像识别服务,完成内容审核、场景识别等功能。例如在视频网站的「鉴黄」审核中,如果雇佣人工审核员的话,每天最多审核两万张图片,而图普科技能为视频网站节省 90% 的审核人力,鉴黄机器人单张图片响应时间小于 0.2s。

图普科技创始人李明强是原腾讯资深项目经理和 T4 的技术专家,跟随张小龙一起参与了 QQ 邮箱和微信等产品的研发,拥有 7 年的互联网产品项目管理、团队管理、产品设计以及运营推广经验。机器之心最近对李明强进行了专访,以下是采访实录:

机器之心:你之前在演讲中曾表示很早之前就开始关注技术,能大体讲一下这个过程吗?

李明强:我很早初中的时候就开始接触计算机和编程。那个时候还是 Apple II,286、386(90 年代计算机型号)时代,我那时就会自己去编程序,然后会看相关书籍。我有个大我 6 岁的姐姐,她当时读的是信息管理,但是她觉得我看的那些书她都看不懂。

很小的时候,我就会去看电路图、焊电路板。那时候打电话还很贵的,而且不是每家都有电话,我就跟邻楼两个小朋友搞了一个无线对讲机,通信距离有几十米。我们花了十几块钱买了一些零件出来,然后自己去用电烙铁去焊,自己做电路板,就把这个东西做出来了。电路板要配合收音机来使用,然后再调频率,接收到信号再在另一边拿收音机接收。后来我会去用汇编写一些黑客程序,做些接口,或者把更大的内存调配出来,等等。所以说我对技术的兴趣是很早就有了。

机器之心:你后来关注人工智能可能也和从小养成的这种对技术的热爱和敏感度有关吧?那你是在什么时候觉得人工智能很有趣并开始研究这个领域的呢?

李明强:我是学技术出身的,所以很早就看好人工智能这个概念了。我们在编程里面会或多或少用一些这样的方法,那个时候我对人工智能的理解就是一堆很灵活的配置的参数。当时用的是比较低维的函数去拟合,现在的神经网路是用高维函数去拟合。

到了苹果的语音识别系统 Siri 刚出来的时候,我觉得这个东西很好,就去试了一下,发现 Siri 的第一个版本有点不靠谱。当时乔布斯也是想让 Siri 做很多很牛的事情,但实际上我们不能把 Siri 当秘书一样使用。我发现它其实很傻,后来我主要想要的效果就是我要跟它说「今天晚上 8 点提醒我回家吃饭」,它就按照时间提醒我。另外还要按照地点提醒,比如说明天早上我离开家的时候提醒我要带什么东西,或者说当我到药店附近的时候,提醒我买药。我当时很想有这么一个语音助手,但是 Siri 没有实现这个功能。所以我就自己做了一个,叫 VToDo,可以在安卓系统上运行。在那个软件里我还尝试了一下人机的自然对话,那应该是 2010 年,用的是科大讯飞的接口。

机器之心:当时张小龙有没有看到这个产品?他有什么评价吗?

李明强:他说「想不到你还有冲动去做这类东西的产品经理啊。」他还是从产品的角度去分析了一下,当然其实我也是从产品这个角度上去思考这个东西。因为我是从我的需求出发,再在里面加入了一些智能化的功能,主要是为了满足我自己的需求——手机上打字太麻烦了。比如说每周一、周二、周三、周五要提醒做什么事情的话,需要去用界面来去选择,要做这个选择的话,可能要点个十几步。所以我就基于自己的需求引入了语音识别的功能。张小龙对这个产品挺感兴趣,但他说这个太危险了。因为位置提醒时需要随时都讯问地点,而且当时在 iOS 上做不到这一点,因为当时 iOS 还不对非官方的 app 都开放位置信息。他觉得这个东西太危险的另外一个原因就是考虑到用户隐私,它随时都需要用户位置共享。后来张小龙后在做那个著名的 8 小时分享时提过,我们有个叫小强的同事做了个语音助手,微信下一个版本也会有这样的功能。

机器之心:你从 QQ 邮箱开始就跟随张小龙,你觉得从他身上获得的最大收获是什么?

李明强:小龙对我影响很大,但很多年潜移默化的,一时很难说最大的影响是什么。比如「抓住核心需求」、「事情要往简单去做」,还有著名的那句「我所说的东西都是错的」,这其实说明一个很重要的问题,就是要有一个开放的心态,一个念头出来要反复的去打磨。去掉技术等一切因素,要反问一句「这个产品一定要这么做吗?」其实人工智能领域也很需要这种理念。

机器之心:是不是在这之后就开始了人工智能方面的创业?

李明强:2012 年年底离开广研,一开始做的不是 ToB 的「图像识别云服务」,但也是图像识别这方面的东西,当时一开始出来做是做一个 ToC 面向消费者的 app,叫「最美搜衣」,就是对衣服进行拍照搜索,或者是根据这个衣服的纹理上的特征进行识别并实现导购,因为衣服里面有很多特征是没法用文字很好表达的,比如说它的颜色、纹理和风格等。我们采集它的信息,然后根据用户的访问习惯来推送这个相关的信息,有点类似于垂直领域的今日头条。同样是信息的泛滥和扩展,以及需求的不明确,但是买衣服还需要相关的搭配推荐。

但后来我们发现这个事情没法做起来,因为女人买东西跟获取资讯还是很不一样的,那么微妙的东西人工智能还模拟不了,而且对用户了解的数据量也不够。

之后就做了图普科技,但一开始我们还是在原来「最美搜衣」的基础上继续做,依然不是很顺利。后来出现了快播被关停事件,这个事情对我们有了一些启发。我发现,我们积累的那些技术用来做这类事情其实挺简单的,也就是对事情进行判断——哪些是对的,哪些是错的。例如在一段视频里哪些是色情的,哪些不是色情的,(相对于推荐衣服)这个需求是很明确的。后来我们就试了一下,发现效果不错。然后我就迅雷去谈,他们之前试过很多家,但效果都不好。他们在试过我们的产品之后,发现虽然和他们的需求还是有点差距,但已经远远好过之前的那些产品。快播事件也使他们对内容审核相当重视起来,所以他们就要求我们赶快改进产品。我们当时解决这个问题是有条主线的,想循序渐进的去做好。迅雷有上百人的审核团队,我们一开始告诉他们能帮你省掉 50 个人。人工智能的好处在于可以迅速的帮你完成工作的一半,但你不知道是哪一半。所以我们告诉他们会先完成 50%,并告诉他们是哪 50%,然后再通过迭代去逐步完善。我们当时就是以这种方式来提供服务,也是这种方式来定价。在迅雷之后,我们就陆续签了其他客户,包括酷狗的直播平台、今日头条、唱吧、秒拍等。随着这些企业用户的接入,我们自己的数据量也在不断增加,现在每天处理大约 9 亿多张图片,现在应该是国内最大的图像识别云服务提供商。

机器之心:现在图普科技在「鉴黄」的应用上有没有得到用户的一些反馈或者统计?比如说节省了多少的人力,或者带来了多少效率的提升?

李明强:我们每天处理上亿张的图片,在这里如果是需要人审核的话,那你就算一个人一天看 10 万张图片,一个小时最多看 5000 张。因为一天是八万六千四百秒,相当于他一秒钟看一张,而且不吃不睡觉。而且还要考虑错误率的问题。我们现在每天处理 9 亿张图片,那就是相当于人力需要 18000 个小时,这就对企业的人力成本有很大的减少了。对于视频,我们是按照截图来审核的。如果是人工审核的话,大概一个地方需要看一分钟,但我们的算法可以快速扫描截图。

机器之心:大约是在 2011 年出现了很多做图像识别公司,那时大家好像有一个共同目标,就是做一个通用的云服务平台,但最后都没有做起来,所以他们之后又转向了细分领域。这是不是表明,对于图像识别创业公司来说,非常需求找到一个像「鉴黄」这样的点来切入?

李明强:对,我们要考虑的是,客户用他们的云服务到底来解决哪些切实问题?我觉得这就像人的马斯洛需求层次理论一样,先让他吃饱饭,先保证他安全,解决生存这种问题,再往上看他有什么精神需要。我们的这些互联网企业的客户其实也是一样的,不管是视频,直播,还是社交,他们的基础的需求就是图像审核,而这个又需要耗费很大的人力成本,我们就是帮他们解决这个问题。

机器之心:你当时能够非常敏感地发现这样一个非常有潜力的市场,以及你能看到它的每一次产品迭代,是不是和你之前做产品经理有密切关系?其他有些图像识别创业公司是不是缺少了这样一种产品思维?

李明强:我觉得是的,有些公司是从技术层面出发,盯着参数去优化。就像我们很多做技术的人,很喜欢去做优化,但如果说用户不需要,优化再多也没用,所以你需要考虑用户到底需要什么。我们在做产品时也经常受到这种挑战,产品经理首先要去假设这个产品是满足一个什么需求,然后大家对这个需求点推理一下,符合人性并且有创新的那个想法就会被采纳,然后就推出第一个版本去试一下。一个好的产品经理能够做到 10 个里面有 1 个是符合要求就非常不错。张小龙也是这样的,只是说他成功的概率更大,抓到的核心很多。

机器之心:图普科技在应用方面找到了一个非常好的切入点,那能介绍一下公司的研究思路?

李明强:我们很早就开始用深度学习了,2012 年深度学习用于 ImageNet 之后,我们就开始了这方面的研究。目前我们的部分框架是基于开源的,但我们做了很多改动,因为我们要做的是具有功能的产品。其实我们自己有一些更好的算法,但我们都没有采用,因为在成本上这不一定是合适的,而且可能会太慢。用户需要往往是性价比,我们不是学术机构,不用去研究那些最前沿的技术,所以我们使用的是比较成熟的东西。

对于比较前沿的研究,我们会选择和高校实验室合作。但作为公司的话,觉得更大的价值应该是迅速满足消费者的需求。做研究并不是我们擅长的,我们的价值在于把科研成果商业化,满足现有互联网企业的需求。

机器之心:图普科技在图片审核方面做的特别好,除此之外还提供哪些图像识别服务?

李明强:图片审核会带来其他一些相关的图像识别应用,比如说场景识别、人物识别等。视频网站除了需要我们的接口鉴别色情视频外,还要去其他视频分析发生在什么地方、里面有什么人。其他的图像识别应用我们称之为图像增值,是相对于图片审核来说,审核是帮助企业省成本,而图片增值是直接帮企业产生价值的服务,比如说通过图像识别提升产品体验,或者根据图像识别出来的内容进行精准地投放广告,等等。

机器之心:图普科技未来是不是想做一个图像识别的技术服务平台?

李明强:是这样的,创业公司其实是缺数据的,所以很多人说人工智能是大公司才有可能做的,因为他们很多数据,是它的硬盘里真真实实储存着的数据。但是很多大公司不是缺数据,而是缺对数据的管理和利用。而我们做的就是管理和应用的这个过程,市场需要一个专业的团队像我们这样不断的梳理数据。不梳理的话,不管多少数据都不是财富。而在图像识别领域,你需要不断地利用数据去训练算法,去迭代。我觉得我们经过这么长时间的积累和梳理,在数据这方面已经没有什么问题了,这就是我们做企业服务的一个优势。

机器之心:图像识别是一个非常通用的领域,比如拿人类来类比的话,我们有 80% 的信息都是通过视觉来接收的。你觉得接下来,是不是任何一个行业都会和图像识别、计算机视觉产生关系?

李明强:会的,机器人也需要去睁开眼睛去看世界并且和外部世界交互。所有的这些行业都需要图像识别,例如工业检测上,而且现在有一些机器人公司或者做智能机器的公司就会用到我们的图像识别技术。

机器之心:现在人工智能越来越热,外界讨论也比较多,你对这个领域研究了很长时间,也在这方面创业,你对这个行业有什么看法?

李明强:人工智能不像其他行业和技术,其他行业是从需求出发,但人工智能是自上而下的,最初设定了一个高高在上的技术目标,可以来解决所有问题,然后再降下来,所以它自诞生之日起就会伴随着泡沫。所以,整个业内还是要静下心来考虑一下,怎么落地和产品化,怎么满足用户需求。

入门创业公司图普科技图像识别产业应用