把大象当袜子,把北极熊当开瓶器:可以,这很AI

图像辨识是人工智能最为广泛的应用之一,深度学习通过算法和训练,就能辨识出图像中的物体。这个功能又被称为“机器视觉”(machine vision),但是我们暂时还无法完全理解机器视觉作用的机制

为了研究AI机器视觉的机制是否和人类视觉相似,来自加州大学洛杉矶分校认知心理学的研究团队设计了五个有趣的实验,结果也出人意料:AI竟能把大象误认为袜子

研究团队在实验中使用了一个名为VGG-19的深度卷积神经网络这是目前现有识图能力较好的AI之一VGG-19面对的挑战是,辨识一些被调整过的图片。研究者把图片中茶壶的图案替换成高尔夫球的纹路,把斑马的条纹贴在了骆驼的身上,还把袜子的红蓝菱形图案贴在了大象的身上。VGG-19需要在这些眼花缭乱的图片中,辨认出这些物体。

实验的结果有点搞笑,AI完全没有认出图案中的大象,AI对辨识茶壶的信心也只有41%(AI识图时会做出多个判断,并给出各个判断结果为正确的可能性,本文中用信心来描述这个指标)。和以往高准确率的图像识别率相比,实在是低的可怜。研究的第一作者Nicholas Baker先生认为,这是因为AI过度关注图面中的纹理,忽视了物体整体形状

▲有高尔夫图案的茶壶(图片来源:Nicholas Baker/PLOS Computational Biology)

为了进一步验证这个想法,研究人员进行了第二个实验,并且还引入了另一个深度卷积神经网络AlexNet。AlexNet和VGG-19都采用了ImageNet图片数据库来进行深度学习训练。

第二个实验中,研究人员的测试道具是带有动物图案的玻璃制品。然而,这两个AI的成绩依然糟糕。它们完全无法辨认出大象造型的玻璃制品,VGG-19还做出很多令人啼笑皆非的判断。它把北极熊造型的玻璃制品当作“开瓶器”,把天鹅造型的制品当作“网页”。在1000次测试中,AlexNet的准确辨识率仅有328次

▲北极熊造型的玻璃制品(图片来源:PLOS Computational Biology/Rubylane.com

为了继续测试AI是否可以像人一样感知物体的形状,第三个实验检验了AI辨别黑白简笔画的能力。研究人员提供了40幅用黑色线条勾勒的绘画,没有上色,供两个AI辨识。可惜,AI连蝴蝶、飞机、香蕉这样的图案都辨别不出

把简笔画图上色会怎么样呢?研究人员又用了40幅图片,不过这次他们给图片涂上了黑色。这次AI终于回过神来了。VGG-19对黑色算盘辨识的信心达到了99.99%,对加农炮辨识的信心也达到了61%。对比上一个实验,AI对仅有线条勾勒的锤子图案的辨识信心不足1%。

▲上:锤子简笔画(图片来源:PLOS Computational Biology/www.clker.com)

下:涂色后的算盘(图片来源:PLOS Computational Biology/Sweet Clip Art.com)

最后,研究人员在真人身上进行了一个类似的测试。他们选取了6张AI已经判定正确的图片,并把这些图片剪碎。参与者只能看到这些剪碎或未剪碎图片的剪影。结果,参与者对剪碎图片的剪影辨识度仅为20%-30%,对完整图片剪影的辨识度则超过90%。

最后这项测试再次证明,人辨识物体更依赖于物体整体的形状。而前几个实验表明,AI无法仅依靠整体形状准确地辨识物体,而更需要利用局部的细节(如颜色、纹路等)来进行辨识

加州大学洛杉矶分校心理学系杰出教授Philip Kellman认为这项研究证明了:“AI识别图像的训练并没有太多地考虑到物体本身的形状。而对于人,物体本身形状是辨识物体最主要的因素。”

看来AI识图还是有很长的路要走呀。

参考资料:

[1] Baker, et al., Deep convolutional networks do not classify based on global object shape. PLOS Computational Biology, https://doi.org/10.1371/journal.pcbi.1006613

[2] Can artificial intelligence tell a polar bear from a can opener? Retrieved Jan 10, 2019 from https://www.eurekalert.org/pub_releases/2019-01/uoc--cai010719.php

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业VGGAlexNet深度学习图像识别机器视觉
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

暂无评论
暂无评论~