Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI技术不是趋同,而是正在放大差距

「暴火」了两年多之后,在中国人工智能领域,渐渐有了更多理性思考的发声。在 5 月 19 日召开的 2018 年中国图灵大会上,依图科技 CEO 朱珑博士就讲到:AI 发展太快,全球研究的积累不够的背景下,各种 AI 观点甚嚣尘上,技术上难辨真假、好坏,AI 跳跃性的发展也使得 AI 进入到没有技术权威的时代,并且这是整个时代呈现出的特点。


依图是诞生于 2012 年的一家人工智能创业公司,CEO 朱珑创办依图前,在美国做过十多年 AI 相关的研究,15 年前他还在微软亚洲研究院做过研究。在美国期间,朱珑先是在 UCLA 读统计建模和统计学计算方向的博士,当时他的导师叫艾伦·尤尔,艾伦的博士导师就是著名的理论物理学家霍金。后来,朱珑进入麻省理工学院的 AI Lab,做计算机视觉建模相关的博士后研究员;回国创业前,朱珑在深度学习爆发之前 Yann Lecun 的实验室做研究。

既有强大的学术界的背景,又在工业界创业期间历经中国 2012 到 2018 年,朱珑深感于中国发生的巨大变化——在过去中国没有成熟的科技创业的情景和市场机制,而这几年开始,中国各种背景的人在一起交流的越来越多,并且这已经是新的形态。他解释说,过去,政府、投资者、媒体这三者是比较频繁交流的,但是在 2012 年之前,学术界不像今天这样经常会被政府邀请来交流,也不会被一流的投资基金邀请交流。

那么人工智能技术的发展是否也进入了新的形态?最近甚至有一些讨论:技术是不是发展到了瓶颈?各项算法之间有没有区别?

AI 技术不是趋同,而是正在放大差距

随着 AI 热潮的涌现,各家 AI 公司都会频繁参加一些比赛以证明自己的算法实力,以人脸识别算法为例,各家 AI 公司在 LFW 等类似的计算机视觉比赛中都取得 99.xx% 的成绩。于是人们会问:AI 算法是否已经趋同了?如果算法精度差别不大(只有几个百分点),是否意味着创业公司的技术已经同质化了,没有技术创业的核心竞争力了呢?

实际上,这是典型的认知误区。我们在朱珑的演讲中看到了一张表,可能更准确的回答了这个问题,这是中国某省 1 亿人像库,在真实刑侦案件的破案环境下性能测试的对比表,参与方是知名的几大人脸识别公司:

我们可以这样理解这张图:必须对应场景来谈算法精度。不同场景的算法精度不具备任何可比性,甚至不代表有相关性。换句话说,简单场景下算法精度高,不代表在复杂的高难度场景下有更大的概率可以把算法精度做高。好比在小学考试中拿满分,未必能在大学考试中也拿满分。

如今,很多学术界比赛使用的都是公开数据集,数据集内多是互联网照片,相当于是一场难度不大的开卷考试,「考生」很容易就可以把测试成绩刷到比较高,这就出现了上面提到的,各家 AI 公司类似 LFW 之类的计算机视觉比赛中都能取得 99.xx% 的成绩。

然而,在实际应用中,技术遇到的会是各种无法预见的高难度场景,包括变形、昏暗、逆光、强光、光照不均、低清、运动模糊、遮挡、跨年龄段比对、面部变形等等,在这种情况下,各家的差距被迅速拉开,第二名和第一名的错误率能相差几倍以上,远未到趋同的程度。

进入实战后,技术的差距体现在具体产品或应用上,不是简单的好用和一般好用的差距,而是可用和不可用的差距,而实战中是要以最高效率解决实际问题为目的。假如在一个 1 亿级别的人像系统中进行 1:N 的静态比对,错误率相差几倍,就导致使用者的做事效率下降几倍。即便使用者是在一个多算法平台上,久而久之,他也只会倾向于使用第一名的算法。

可见,人工智能技术不是趋同,相反,是正在放大差距!

AI 提供了一把「尺子」,让人类探索人类智慧边界

依图科技曾经做过一个实验,在千万量级的身份数据库上,一个人将女朋友的生活照输入进去,在 AI 输出相似度前十的照片中,这个人完全无法辨别哪张照片上面的脸属于他的女朋友。这意味着,AI 从过去识别生人的能力比人强,到今天,识别熟人的能力也已经超越人类了。

这就引发了另外一个问题:我们人类自身的识别能力的规模和精度,到底是什么程度的?朱珑在现场展示了下面这张相似度分布图:

右上角是输入的人像图片跟自己身份证件照的比对,相似度分数是 98 分;跟自己十年前的照片相比是 97 分;跟自己的圣诞节彩妆照(采光清晰)比对得到了 88 分;跟自己儿童时代的照片比是 76 分;在重度化妆之后,就跌到了 40 分。

最右下角是一对同卵双胞胎,在机器眼中,它们的相似度达到 98 分;往左一组,是一个机构里最像的两个人(除去双胞胎),它们的分数能达到 90 分;再往左一组,相差几岁的姐妹相似度为 64 分;而网友觉得很像的姚明和李宇春,机器打了 60 分。据说,2013 年第 57 届韩国小姐,前 18 名佳丽的两两间平均相似度是 63 分,很接近姐妹;18 位中最像的一对达到惊人的 90 分!

在过去,人类无法做任何科学实验来获取结果,然而今天有了人工智能,机器可以提供一个非常稳定的表现,当识别数据规模非常大的时候,也能够很轻易地识别 1 亿人、10 亿人。这样一来,机器识别相当于提供了一把尺子,根据相似度比例筛选出来给人去测,可以在有效的时间里面,测出一个人自己「看」这个世界的能力。而这也是人类第一次有一个非常稳定的机器,具备识别能力,可以看到人和机器智能的差别程度。

依图还做了另外一个颇为有趣的实验:在 13 亿中国人中有多少人跟你长的一模一样?「一模一样」的定义是连自己的妈妈也辨别不出来。

实验的结果是,每 1 亿人当中就有一个人跟自己长的一样,这「一亿分之一」的区分度意味着什么呢?每 1 亿人当中就有一个人跟你长的像,又意味着什么?或许可以从人类基因进化的角度做一些解读。

在人类进化过程中,视觉识别能力在各大感官中的比重越来越大,也许是因为人类开始进行穿着,人嗅觉识别家庭成员的能力与其他哺乳动物相比,算是比较低下,甚至人类主要就是通过看人脸来辨别同类。选择压力驱使人类的脸之间的区分度需要尽量的大,这样才能保证家庭成员的稳定性得到保障。

作为社群动物,人需要和大量同类打交道,而脸部识别错误的代价将是失去整个基因组的遗传继承。就好比,人类出门回家后,认不出自己的孩子、父母、老婆,一定会引发社会动荡,影响到人类的基因进化。

实际上,对应的编码人脸形状的基因数量需要很大,目前知道有一条染色体的一大块用于编码脸部特征。而一亿分之一的识别度将是一个具有巨大社会学意义的统计数值,背后还会有更多的生物学意义也值得更近一步的探讨。

产业依图科技
1
相关数据
依图科技机构

依图是一家世界领先的人工智能公司,以AI芯片和算法技术为核心,研发及销售含AI算力硬件和软件在内的AI解决方案,全面解决机器看、听、理解和规划的根本问题,为AI发展和应用普及提供高性能、高密度和通用算力,满足云端数据中心、边缘计算和物联网不断增长智能计算需求,并将芯片技术与算法技术结合,形成在AI算力技术及产品领域的领先优势。在AI芯片领域,创新芯片架构通过融合通用计算和深度学习计算实现端到端处理能力,具备高性能及低功耗优势。在AI算法领域,在计算机视觉、语音和自然语言理解等领域处世界前列。

https://www.yitutech.com
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐文章
暂无评论
暂无评论~