英伟达的一篇论文提出了一种基于神经网络的自动驾驶系统 PilotNet,并还提出了一种测试该系统的有效性的方法。机器之心技术分析师对该研究进行了解读。
论文地址:https://arxiv.org/abs/1704.07911
对工程师而言,要让汽车学会自动驾驶,给汽车编写在任何环境中驾驶的程序可不是一种实用的做法,因为这可能具有无穷无尽的可能性。实际的做法应该是向汽车展示驾驶的方法,让汽车自己学会驾驶。英伟达已经创造了一个这样的系统 PilotNet,这是通过道路图像与配对的人类控制的转向角度训练得到的。道路测试表明,这种神经网络能取得良好的表现。
但同时也存在问题,即我们不知道 PilotNet 究竟学到了什么以及它是如何决策的。在这篇论文中,研究者提供了一种方法,可帮助确定道路图像中的哪些因素对 PilotNet 的转向决策的影响最大。
引言
在这一部分,研究者首先简要介绍了 PilotNet,这是一个带有训练后的卷积神经网络的学习系统。训练数据来自一辆数据收集车的前向摄像头。这些数据也耦合了人类司机的时间上同步的转向角度。正如之前说的,也存在一些问题,即如果研究者想要进一步提升性能,他们应该了解 PilotNet 是如何决策的。为此,这篇论文的作者开发了一种方法,可用于凸显图像中在决定驾驶角度方面最显著的部分。然后他们在他们的测试汽车中的 NVIDIA DRIVETM PX 2 AI 车载计算机上执行了这一方法。
这种方法能向我们展现 PilotNet 自动驾驶系统的训练数据的细节。训练数据集中的各个图像都来自前向相机,并与对应的转向命令配对在一起。训练完成之后,只需给该系统提供新图像,系统就会提供对应的转向指令。
PilotNet 网络架构
这部分介绍了 PilotNet 网络的架构,如图 1 所示。
图 1:PilotNet 的架构
该架构包含 9 层,即 1 个归一化层、5 个卷积层和 3 个全连接层。第一层用于图像归一化,这是人工编程的,不会在学习过程中调整。卷积层用于特征提取。研究者在前三个卷积层使用了跨步式卷积层,步幅大小为 2×2,卷积核大小为 5×5;后两个卷积层使用了非跨步式层,卷积核大小为 3×3。三个全连接层用作转向的控制器。
寻找显著的目标
研究者在这部分展示了 6 个寻找显著目标的过程,并将它们展示在了高层面的图中:
- 研究者求取了每层的特征图的平均。
- 通过使用去卷积,最大的平均图会被扩展到下一层中的图的大小。
- 下面的层乘上扩展后的图,我们可以得到一个中间掩模。
- 再次执行步骤 2.
- 再次执行步骤 3 并得到一个新的中间掩模。
- 重复步骤 4 和 5,得到最终的可视化掩模。
如图 2 所示。
图 2:确定显著目标的可视化方法的模块图
此外,我们在图 3 中看到创建可视化掩模的过程。显著目标通过高亮原图像中的像素展示。
图 3:左:网络每一层的平均特征图。右:网络每一层的中间可视化掩模。
图 4 展示了一些示例。上图表明汽车的基础框架和道路线比较突出。中图突出了停在路边的汽车。下图则突出了道路与草地的交界线。
图 4:各种图像输入中的显著目标示例
图 5 展示了 PilotNet 监视器。可以看到原始图像和掩模的对比情况。图 6 展示了图 5 中的细节。图 5:测试汽车中的场景
图 6:图 5 中 PilotNet 监视器上的情况分析
为了说明这些凸显出的目标确实有助于方向控制。研究者将输入图像分割为了两类并执行了一系列实验。第一类包含对转向角度有重要影响的部分;第二类包含原始图像中除去第一类中像素的所有其它像素。他们使用了如下方法来测试这些凸显的区域是否有重要影响:研究者对第一类进行了修改并保留了第二类,然后使用新图像作为 PilotNet 的输入,这会造成显著的改变。然后,研究者修改第二类并保留第一类,然后使用这个新图像作为 PilotNet 的输入,这只会给 PilotNet 的输出结果带来细微改变。图 7 说明了这种方法。第一张图是原始图像,第二张图是 PilotNet 以第一张图为输入所得到的结果,第三张图是取出的显著区域,第四张图将取出的显著区域位移一段距离后的测试图像。
图 7:实验中用于展示图像位移对转向角度的影响的图像
图 8 的图表是 PilotNet 的转向角度输出随输入图像中的像素位移的变化情况。我们可以看到,显著目标位移的结果类似于位移整张图像,而位移背景像素的结果则不一样。因此研究者确信他们在寻找图像中的最重要区域上得到了正确的结果。图 8:PilotNet 的转向角度输出随输入图像中的像素位移的变化情况
总结
这篇文章提供了一种可以寻找对转向决策有显著影响的区域的方法。另外还找到了一种测试该方法的方法。我们可以学习该文章提出的寻找区域以及测试方法。这也意味着,研发自动驾驶技术,不仅要尝试使用 AI 技术来让计算机自己学习,还需要构建用以测试学习结果的方法。