张倩作者

「信心」与「理性」,这是腾讯优图的 2019

「整个优图实验室在全球已经有 700 多项专利,在国际顶尖会议上有超过 200 篇论文发表。同时,我们有很多开源项目,仅仅 2019 年,就有超过 10 个项目对外开源。」在 2019 年末的媒体沙龙上,优图实验室总经理吴运声做了这样的总结。

其实,除了这些基础研究成果外,整个 2019 年,一直坚持基础研究和行业落地两条腿走路的优图实验室还有很多亮眼的落地成果,包括:找回失散儿童的跨年龄识别、解决家长辅导作业痛点的「OCR 速算」等。

今年,优图年度媒体沙龙的主题是「信心」。为什么叫「信心」?吴运声解释说,「在过去的几年里,尤其是从 2016 年以来,人工智能飞速发展。过去一年,在这个浪潮下我们听到更为理性的声音。我们发现更多有价值的研究,或者更有价值的技术落地才真正沉淀下来。所以在这样的趋势下,我们希望在这样的场合重新提起信心,对于 AI 基础研究、落地,我们对未来还有非常多的期待。」

如果是在 2016 年,以「信心」为主题展开 AI 技术的总结与展望似乎没有什么大惊小怪,但到了 2019 年,这一提法就变得别有深意。

2019 年是资本的寒冬,AI 行业也面临重新洗牌,不少人甚至开始讨论下一个 AI 寒冬的到来。那么,作为一个主打计算机视觉的 AI 实验室,腾讯优图的信心又是来自哪里?

优图 AI「飞入寻常百姓家」

2016 年,大众对 AI 的认知大多还停留在 AlphaGo 大败李世石,仿佛 AI 跟普通人没有什么关系。但到了 2019 年,我们发现 AI 离普通人越来越近了。优图的 AI 技术正在渗透普通人生活的方方面面,如远程开户的人脸核验、购物时的微信刷脸支付、给孩子检查作业的企鹅速算……

AI 正在解决我们生活中的一些痛点问题,也在改善一些弱势群体的生活。各个技术也不再孤立,而是在潜移默化中形成一个生态系统,影响各行各业。

解决普通人生活中的痛点

「优图 AI 真正在解决的是千万用户生活中的痛点问题。」优图实验室产品负责人周可菁表示,其中表现最为明显的是优图 AI 的人脸核身、刷脸支付和各种教育产品。

优图人脸核身解决方案可以让用户足不出户就方便的办理信用卡、社保医保等业务。每天有千万级用户通过优图的人脸核身完成业务办理,这为很多不方便出门的老年人,残障人士提供了很大的便利,也减少了普通人出门办理业务的时间。

在刷脸支付方面,优图实验室联合微信支付推进了刷脸支付技术的迭代。2019 年,微信刷脸支付正式在线下推出。以步步高的门店数据来看,刷脸支付的占比数已经达到了 50%,对门店的人力节省成本达到了 30%。

在 AI+教育方面,优图的落地实践包括企鹅速算、VisionSeed 等。

企鹅速算是一款帮助家长、老师批改作业的 APP,优图主要为这款产品提供 OCR 识别技术。结合优图速算识别和智能批改技术,通过简单的拍照,该 APP 能自动分析作业图片并进行自动识别和判断。目前企鹅速算 APP 已经覆盖了 K12 学历范围内的 12 种题型,整个 OCR 的识别准确度高达 91% 以上。

VisionSeed 是一款腾讯优图实验室推出的 AI 视觉模组,里面内置优图人脸识别算法,开发者可以通过轻松便捷的接入方式 DIY 各种智能产品,爱好编程的高中生也能上手。目前已经有不少开发者通过该模组陆续开发出了防疲劳驾驶的检测仪、AI 互动游戏等。

除此之外,在过去的一年里,优图的智能核保、智能票据解决方案也发挥了很大作用。智能核保专注于优化传统保险业务中投保和理赔环节的人工高效处理和业务痛点问题,大大提高了保险行业核保审核的效率。智能票据旨在解决企业财务流程中的复杂繁琐痛点,提高了整个财务效率和整体的风险把控环节。

帮助弱势群体,践行科技向善

说到「科技向善」,不得不提优图的跨年龄识别技术。

2018 年底,腾讯优图通过技术去帮助寻找失散超过 10 年的被拐儿童。这些儿童在被拐时都在 3 岁以下,经过十多年之后相貌发生了很大的变化。

为了实现更精准的跨年龄识别寻人,优图的算法模型进行了四轮大的迭代,先后尝试了上千次模型训练,专门针对积案寻人打造了优图祖母模型的版本。

到了 2019 年 4 月,案件中的 10 名被拐儿童已经找回了 7 名。这些孩子的年龄跨度都超过了 10 年,最小的一个孩子可能只有百天照作为参照。截至目前,优图的整体跨年龄识别准确率已经稳定在了 96% 以上。

此外,优图的寻人技术还在福建省"牵挂你"防走失平台上线,帮助福建省找回了 1000 多名走失人员。

除了寻人,优图在科技向善方面的落地成果还包括 AI 手语识别以及与觅影合作的各病种医疗 AI 解决方案等。

联合腾讯云,打造 AI 云生态

如果说 2016 年我们还只能看到一项项孤立的 AI 技术,那么到了 2019 年,我们看到的已经是一个个产品矩阵。它们分布在各行各业,形成一个大的生态系统。

2019 年,优图在腾讯云上建设了 6 大产品平台,分别是人脸识别平台、人脸核身平台、OCR 文字识别平台、泛娱乐平台、内容审核平台和商品识别平台。

目前在整个 CV 公有云上,已经有 2 万多家企业客户接入了优图的相关技术服务。

优图在整个腾讯上构建了丰富的产品矩阵,整个 AI 基础能力达到 120 多种,在深度的行业解决方案层面上,已经有多达 15 种解决方案触达各个行业。

多项识别技术刷新各大榜单

上面提到的 AI 寻人也好,企鹅速算 APP 也罢,所有这些落地产品的最终呈现都离不开扎实的技术研究突破。仅 2019 年的 CVPR 上,优图就有 25 篇论文被接收。这也是优图真正的信心所在。

在过去的一年里,优图在人脸识别、行人重识别、OCR 等方面都取得了显著进展。

人脸识别

在人脸识别方面,优图聚焦于长时间跨度人脸识别、海量规模下的精准检索以及对抗活体检测攻击方面的能力提升。具体来说,优图在识别网络设计和训练方法两个维度上发力,持续打磨了人脸识别的模型、祖母模型等。其中,祖母模型已经从第 1 代开始进化到了第 4 代。

他们还提出 DDL 通用训练准则,通过分布调整,可以显著提高包括跨年龄识别、烧伤在内的困难人脸照片识别的精度,从而强化了算法的跨年龄识别能力和海量模型的精准检索能力。

此外,优图在检测方向上也从 2D 技术发展到了 3D。研究人员提出的光线活体算法可以利用非 3D 摄像头实现高精度的 2D 攻击和 3D 攻击检测,同时引入了帧级别随机性,可以防御摄像头被黑,保证了整个支付业务的安全进行。

行人重识别

优图 AI 始于人脸识别,但不止于此。在行人重识别(ReID)领域,优图取得了三大研究成果。

在 2019 年的 CVPR 上,优图提出了一种金字塔结构特征合并流程,刷新了 ReID 三大公开数据集;

为了让 ReID 技术适配人体变化的多样性,优图提出了人体朝向的感知 ReID 算法,能够通过捕获一个人不同朝向的特征信息提升多朝向人体检索效果,将整体 ReID 算法识别准确率提升了 10% 以上,目前相关成果已经被 AAAI 顶会接收。

在跨场景可迁移方向上,优图提出了跨场景 ACT 算法,使用少量标注显著提升了泛化性能,目前相关成果已经被 AAAI 顶会接收。

OCR 识别

上面提到的企鹅速算 APP、智能票据等产品都离不开 OCR 的支持。

在高精度文字识别算法方面,优图融合了 NLP 方法,结合文本语义信息,大幅提升了小字、模糊字、手写文字等困难场景的识别效果,将识别精度提高到 95% 以上。

在数学公式识别算法上,优图使用图像细粒度结构拆分和融合模型,解决了数学公式结构复杂的识别难题,目前已经支持 91 种公式类型、180 种数学符号,识别精度达到 95% 以上。

在通用表格识别算法方面,优图通过精细的表格检测和复原技术,支持有线表格和无线表格的结构识别,准确率达到 98% 以上。

此外,优图还入围了国家人工智能标准工作组,牵头起草 OCR 方向的国家标准。

除了人脸识别、行人重识别、OCR 识别之外,优图的人体姿态、人体检测、步态识别、动作检测识别等算法也刷新了多个权威榜单。

所有这些基础研究、落地方面的成果构成了优图「信心」的支点。但要继续前行,只有信心是不够的。

在优图实验室总经理吴运声的发言中,我们还听到了一个词——理性。

信心之外,还要有理性

前段时间,纽约大学认知科学教授 Gary Macus 撰文批评了当下的 AI 炒作之风,认为当前对 AI 进程夸大其词的报道本质上并不利于 AI 的整体发展,反而可能会令公众对 AI、深度学习期望过高,最终期望落空并再次进入 AI 寒冬。

一方面,在种种落地成果之前,我们的确有理由抱有信心,对 AI 的发展有所期待。但另一方面,我们也应该看到这种智能局限性和界限,即 AI 不能做什么、不应该做什么。在这一点上,腾讯研究院研究员俞点将其概括为「智能的边界」,即技术必然有边界,应用必须有边界。

所谓「技术必然有边界」是指算法、算力存在限制。2019 年,我们不再认为 AI 无所不能,我们承认智能是有边界的。一方面,我们看到现实场景对 AI 的需求越来越高,AI 的市场规模也越来越大;另一方面,我们也看到 AI 存在各种各样的问题,如自动驾驶安全、隐私泄露。只有承认并正视这些问题的存在,我们才能在抱有信心的同时避免盲目自信,着手解决算法鲁棒性等问题。

所谓「应用必须有边界」是指我们要制定准则来约束技术的发展。对于这一点,腾讯研究院提出了「四可」原则,即:可用、可靠、可知、可控。有了这些原则的指导,腾讯优图及其他 AI 研究部门才能在未来的 AI 之路上走得更加稳健。

在「信心」与「理性」的指导下,我们有理由期待腾讯优图在未来的一年实现更多的基础研究突破,也必然会有更多可用、可靠、可知、可控的落地产品出现。

产业AI落地行人重识别OCR人脸识别腾讯优图腾讯
暂无评论
暂无评论~