Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Gregory Barber作者Loquita 编译

谷歌和OpenAI研发新工具,深入了解AI如何识别图片

打开网络的黑匣子,这就是机器视觉算法对世界的意义所在。

人工智能的世界到底是什么样子的?

几十年来,研究人员一直对此感到困惑,但近年来,这个问题变得愈加紧迫。机器视觉系统正被越来越多地应用于生活的各个领域,从医疗保健到自动驾驶

但通过机器的眼睛“看”世界,仍然是一个不小的挑战,比如我们该怎么理解为什么它把有些人归为行人,而把有些人归为路标。如果我们无法做到这一点,就有可能会造成严重的,甚至是致命的后果。比如前段时间已经发生的,自动驾驶汽车撞上行人致死的事件。

虽然,神经网络在识别图像中的物体等任务上取得了巨大的成功,但它们是如何做到的在很大程度上仍是一个谜。它们的内部工作方式被屏蔽,隐藏在层层计算中,不让人看到,使得人类很难诊断错误或偏差。

来自谷歌和非盈利实验室open Ai的新研究希望通过绘制系统来了解世界的视觉数据,进一步撬开人工智能视觉的黑匣子。

这种被称为“激活图集”的方法,可以让研究人员分析出各个算法的工作原理,不仅能揭示它们识别的抽象形状、颜色和模式,还揭示了它们如何结合这些元素来识别特定的对象、动物和场景。

这项工作的主要研究者,谷歌的Shan Carter说,如果以前的研究就像在算法的视觉字母表中显示单个字母,那么激活图集提供了一个更接近整个词典的东西,它显示出字母是如何组合成实际单词的。卡特说:“例如,在像‘鲨鱼’这样的图像中,会由很多激活码构成,比如‘牙齿’和‘水’。”

虽然这不一定是一个巨大的突破,但它是在被称为“功能可视化”的更广泛的研究领域向前迈出的一步。佐治亚理工大学的博士生Ramprasaath Selvaraju表示,这项研究“非常吸引人”,并结合了许多现有的想法,创造了一个新的极其有用的工具。

Selvaraju说,这样的工作将有很多用途,帮助我们建立更高效和先进的算法,并通过让研究人员深入研究来提高安全性和消除偏差。“由于神经网络固有的复杂性,它们有时缺乏可解释性,”但他说,在未来,当网络被广泛用于自动驾驶汽车和引导机器人时,这将是必不可少的一步。Open Ai的Chris Olah也参与了这个项目,他说:“这有点像制作显微镜。至少,这是我们所设想的。”

要了解激活图集和其他功能可视化工具的工作原理,首先需要了解一点人工智能系统如何识别对象。实现这一点的基本方法是使用神经网络:一种与人脑大致相似的计算结构(尽管它在复杂程度上落后了一个光年)。

每一个神经网络内部都是人工神经元,它们像网一样连接在一起。就像你大脑中的细胞一样,这些细胞会响应刺激,这一过程称成为激活。重要的是,它们不仅可以启动或关闭,它们可以在一个频谱上注册,给每个激活一个特定的值或“权重”。

要把神经网络变成有用的东西,你必须给它大量的训练数据。这意味着数十万甚至数百万张图像,每一张都标有特定的类别。在谷歌和Openai的研究人员为这项工作测试的过程中,这些图像涉及面广泛:从羊毛到温莎领带,从安全带到空间加热器。

当它输入这些数据时,神经网络中的不同神经元会响应每个图像而亮起。此模式连接到图像的标签。一旦经过训练后,您就可以向网络展示一张以前它从未见过的图片,并且神经元将激活,将输入内容与特定类别相匹配。恭喜你!刚刚成功训练了机器学习视觉算法。

这让研究人员可以观察到网络的一些情况,通过在不同信息层之间切换,他们可以看到网络是如何从构建到最终决策的,从形状和纹理等基本视觉概念开始到具体的对象。

例如,Olah注意到,狗的品种在很大程度上是以耳朵的下垂程度来区分的。图集还展示了网络是如何联系不同的物体和想法的,比如说,把狗耳朵放在离猫耳朵不太远的地方,看随着层级的发展,这些区别是如何变得清晰的。

该研究还发现了一些惊喜,例如,Olah拍摄了一张鱼鳍的照片,一条鱼鳍划过了汹涌的海水,那么它到底是属于灰鲸还是大白鲨?作为一个没有钓鱼经验的人,我不会冒险猜测,但是作为曾经看到过大量鲨鱼和鲸鱼鳍的神经网络不应该有问题。

然后Olah展示了在神经网络的特定层面上与两只动物相关的图集图像,但其中一个鲨鱼图像特别奇怪。如果你仔细一看,你可能会看到一排排洁白的牙齿和牙龈,样子却同棒球的接缝十分相似。

事实证明,他们研究的神经网络也有这样的视觉隐喻的天赋,这可以作为愚弄系统的廉价技巧。通过改变鱼鳍照片,比如说,在一个角落放置一个棒球邮票图像,Carter和Olah发现可以很容易地说服神经网络鲸鱼实际上是一条鲨鱼。

Olah说,这种方法不太可能被网络破坏者所使用,因为其实有更简单更微妙的方式来制造混乱。比如他们可以自动生成所谓的对抗性补丁,使网络混淆,把猫当作是一碗鳄梨酱,甚至导致自动驾驶汽车误读停止标志。

但令人兴奋的是,有了这个工具,人类可以充分了解网络的内部深度,使得它最终帮助我们识别混淆或偏差,并及时纠正。

但是错误也是时有发生的,比如说,把不同种族的人类识别成大猩猩而非人。有了这样的可视化工具,研究人员可以查看是什么外来信息或视觉相似性导致了错误的发生。

也就是说,试图预测神经网络的内核是存在风险的。“人们常常担心你可能在欺骗你自己,”奥拉说,风险在于我们可能试图强加我们熟悉的视觉概念或寻找有意义的简单解释。

这就是包括人工智能先驱Hinton在内的一些人物一直反对人类解释AI运作规律的原因之一,正如人类无法解释他们的大脑如何做出决定一样,计算机也是同样。他最近在接受WIRED采访时说道:“如果你非要要求他们解释所做的决定,你就会强迫他们编造一个故事。”

虽然争议不断,但“激活图集”的研究者们始终认为:每一代新工具的研发都在让我们更接近这些在网络中发生事情的真相。

AI锐见
AI锐见

洞察AI行业趋势

工程谷歌OpenAI图像识别神经网络自动驾驶汽车激活图集
31
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~