实现最强自动驾驶街景仿真,百度ECCV 2020视频修复论文解读

本文来自百度被ECCV 2020接收的一篇论文《DVI: Depth Guided Video Inpainting for Autonomous Driving》。

近年来,多模态传感越来越受到人们的重视,特别是在自动驾驶领域。如今大多数自动驾驶汽车都配备了激光雷达和摄像头,用于感知和绘制地图。仿真系统已经成为开发和验证自动驾驶技术的关键,为了更好地保护隐私和抓到更清晰的街道图像,彻底清除路上无关障碍物的清除是非常有必要的。

视频修复的基本思想是在同一视频的其他帧中观察到帧内缺失的区域或像素,现有的一些研究已经成功应用于不同的场景中,并获得了无缝修复结果。然而,无论流计算是否基于学习,都会受到无纹理区域的影响。此外,视频中的视角变化也会降低光流估计的质量。当我们从一个时间较远的帧中填充缺失的像素时,这些帧流误差会累积起来,从而导致失真的修复结果。此外,基于 GAN 的方法与基于补丁的方法存在相同的问题,即它们在处理图像中的透视变化方面很差。

论文链接:https://arxiv.org/abs/2007.08854

项目地址:https://github.com/sibozhang/Depth-Guided-Inpainting

为了在自动驾驶中获得清晰的街景和逼真的仿真,来自百度的研究者提出了一种自动视频修复算法。该算法可以从视频中删除移动的物体,并在深度 / 点云信息的指导下合成缺失的区域。通过点云信息构建密集的 3D 地图,视频中的帧会通过此 3D 地图产生几何关联。为了填充帧中的目标修补区域,可以通过将像素从其他帧转换到当前帧被遮挡的位置。

此外,这一算法能够通过 3D 点云融合多个视频,从而可以用多个源视频修复目标视频。这样做的目的是解决长时间遮挡问题,即在整个视频中都被遮挡的区域。为了验证方法的有效性,研究在真实的城市道路环境中使用同步的图像和激光雷达数据(包括许多挑战场景,例如长时间遮挡)构建了一个大型的视频修复数据集。实验结果表明,在所有的量化标准中,该方法均优于 SOTA 方法,尤其是 RMSE(均方根误差)降低了约 13%。


方法

图 1:使用 LOAM 将逐帧点云(a)缝合到 3D 地图(b)中。将 3D 地图投影到框架(c)上以生成深度地图。对于目标区域(e)中的每个像素,使用其深度(d)作为指导,从其他帧(f)中采样颜色。最终像素值由 BP 正则化和颜色协调来确定,以确保光度一致性。(g) 显示最终修复结果。 

实验和结果

据我们所知,所有用于视频修复的公共数据集(包括 DAVIS 数据集 [16])并不具有深度,这是我们的算法必须具备的。自动驱动数据集 ApolloScape[12] 确实有摄像机图像和点云,但研究团体并没有采用它来评估视频修复。另外,它的数据集是由专业的测图激光雷达 RIEGL 捕捉的,这不是自动驾驶汽车的典型设置。因此,我们捕获了我们自己的数据集,并与之前在数据集上的工作进行了比较。

修复数据集

研究者使用自动驾驶汽车在城市街道上收集大规模的数据集。这些数据是由各种传感器产生的,包括合赛潘多拉一体式传感器(40 束激光雷达、4 个覆盖 360 度的单声道摄像机、1 个前向彩色摄像机),总共录制了 5 小时长的 RGB 视频。

数据集包括许多具有挑战性的场景,例如背景被交叉口的大型公共汽车、穿梭车或卡车遮挡,以及前面的景色一直挡住了视线。对于那些长时间遮挡的场景,背景在整个视频序列中是缺失的。过程中不止一次捕捉到这些困难的街道 / 十字路口,提供了视频融合修复的数据。

比较

研究者将本文方法与其他三种 SOTA 方法进行了定性和定量的比较,通过随机抽样输入帧上的缺失区域,在本文数据集上重新训练它们的模型,以进行公平的比较。

图 7:从不同的视频剪辑演示了 5 帧,以比较该方法与其他的结果。尽管 Huang[8]得到了平滑的修复结果,但几乎所有的纹理细节都在其结果中缺失。如图所示,Yu[25]和 Xu[24]有时会在目标区域填充完全杂乱的纹理。

图 8 展示了该方法处理源帧和目标帧之间的透视变化的能力。

图 8:第一行中标记出了需要从源图像中修复的目标图像中的遮挡区域。虽然从源图像到目标图像有显著的透视变化,但是该方法可以产生几何和视觉上正确的结果。而其他方法要么无法恢复细节纹理,要么无法将纹理放置在正确的位置。

表 1:与其他方法进行定量比较,最好的结果用粗体突出显示。需要说明的是,“MAE”和 “RMSE” 的值越低越好,“PSNR”和 “SSIM” 的值越高越好。

控制变量研究

下图 9 展示了两个视频的融合。第一行展示了一个视频中的四帧,第二行展示了同一个交通路口不同日期捕获的另一个视频的四帧。此处的目标是修复第二个视频中的前景对象。第三行显示输出仅使用了存在大量空白的视频 2。这是因为在整个拍摄过程中,前方车辆一直遮挡着某些区域。很明显,Poisson 图像混合无法填补大的空白区域。第四行展示了 BP 输出,将第一视频融合到第二个,其中空白都不见了。第五行是最终结果。

References

1. Ballester, C., Bertalmio, M., Caselles, V., Sapiro, G., Verdera, J.: Filling-in by joint interpolation of vector fields and gray levels. Trans. Img. Proc. 10(8), 1200–1211 (Aug 2001). https://doi.org/10.1109/83.935036

2. Bertalmio, M., Vese, L., Sapiro, G., Osher, S.: Simultaneous structure and texture image inpainting. Trans. Img. Proc. 12(8), 882–889 (Aug 2003). https://doi.org/10.1109/TIP.2003.815261

3. Cheng, X., Wang, P., Yang, R.: Depth estimation via affinity learned with convolutional spatial propagation network. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 103–119 (2018)

4. Darabi, S., Shechtman, E., Barnes, C., Goldman, D.B., Sen, P.: Image Melding:

Combining inconsistent images using patch-based synthesis. ACM Transactions on Graphics (TOG) (Proceedings of SIGGRAPH 2012) 31(4), 82:1–82:10 (2012)

5. Ebdelli, M., Le Meur, O., Guillemot, C.: Video Inpainting With Short-Term Windows: Application to Object Removal and Error Concealment. IEEE Transactions on Image Processing 24, 3034–3047 (Oct 2015). https://doi.org/10.1109/TIP.2015.2437193

6. Efros, A.A., Freeman, W.T.: Image quilting for texture synthesis and transfer. In: Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. pp. 341–346. SIGGRAPH ’01, ACM, New York, NY, USA (2001). https://doi.org/10.1145/383259.383296, http://doi.acm.org/10.1145/383259.383296

7. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N.D., Weinberger, K.Q. (eds.) Advances in Neural Information Processing Systems 27, pp. 2672–2680. Curran Associates, Inc. (2014), http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

8. Huang, J.B., Kang, S.B., Ahuja, N., Kopf, J.: Temporally coherent completion of dynamic video. ACM Transactions on Graphics (TOG) 35(6), 196 (2016)

9. Iizuka, S., Simo-Serra, E., Ishikawa, H.: Globally and Locally Consistent Image Completion. ACM Transactions on Graphics (Proc. of SIGGRAPH 2017) 36(4), 107:1–107:14 (2017)

10. Izadi, S., Kim, D., Hilliges, O., Molyneaux, D., Newcombe, R., Kohli, P., Shotton, J., Hodges, S., Freeman, D., Davison, A., Fitzgibbon, A.: Kinectfusion: Real-time 3d reconstruction and interaction using a moving depth camera. In: Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. pp. 559–568. UIST ’11, ACM, New York, NY, USA (2011). https://doi.org/10.1145/2047196.2047270, http://doi.acm.org/10.1145/2047196.2047270

11. Li, W., Pan, C.W., Zhang, R., Ren, J.P., Ma, Y.X., Fang, J., Yan, F.L., Geng, Q.C., Huang, X.Y., Gong, H.J., Xu, W.W., Wang, G.P., Manocha, D., Yang, R.G.: Aads: Augmented autonomous driving simulation using data-driven algorithms. Science Robotics 4(28) (2019). https://doi.org/10.1126/scirobotics.aaw0863, https://robotics.sciencemag.org/content/4/28/eaaw0863

12. Ma, Y., Zhu, X., Zhang, S., Yang, R., Wang, W., Manocha, D.: Trafficpredict: Trajectory prediction for heterogeneous traffic-agents. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 33, pp. 6120–6127 (2019), https://arxiv.org/pdf/1811.02146.pdf

13. Newson, A., Almansa, A., Fradet, M., Gousseau, Y., P´erez, P.: Towards fast, generic video inpainting. In: Proceedings of the 10th European Conference on Visual Media Production. pp. 7:1–7:8. CVMP ’13, ACM, New York, NY, USA (2013). https://doi.org/10.1145/2534008.2534019, http://doi.acm.org/10.1145/2534008.2534019

14. Newson, A., Almansa, A., Fradet, M., Gousseau, Y., P´erez, P.: Video inpainting of complex scenes. SIAM Journal on Imaging Sciences 7, 1993–2019 (10 2014). https://doi.org/10.1137/140954933

15. Pathak, D., Kr¨ahenb¨uhl, P., Donahue, J., Darrell, T., Efros, A.: Context encoders: Feature learning by inpainting. In: Computer Vision and Pattern Recognition (CVPR) (2016)

16. Perazzi, F., Pont-Tuset, J., McWilliams, B., Van Gool, L., Gross, M., SorkineHornung, A.: A benchmark dataset and evaluation methodology for video object segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 724–732 (2016)

17. P´erez, P., Gangnet, M., Blake, A.: Poisson image editing. In: ACM SIGGRAPH 2003 Papers. pp. 313–318. SIGGRAPH ’03, ACM, New York, NY, USA (2003). https://doi.org/10.1145/1201775.882269, http://doi.acm.org/10.1145/1201775.882269

18. Qi, C.R., Yi, L., Su, H., Guibas, L.J.: Pointnet++: Deep hierarchical feature learning on point sets in a metric space. arXiv preprint arXiv:1706.02413 (2017)

19. Ren, J.S., Xu, L., Yan, Q., Sun, W.: Shepard convolutional neural networks. In: Cortes, C., Lawrence, N.D., Lee, D.D., Sugiyama, M., Garnett, R. (eds.) Advances in Neural Information Processing Systems 28, pp. 901–909. Curran Associates, Inc. (2015), http://papers.nips.cc/paper/5774-shepard-convolutionalneural-networks.pdf

20. Shih, T.K., Tang, N.C., Hwang, J.N.: Exemplar-based video inpainting without ghost shadow artifacts by maintaining temporal continuity. IEEE Trans. Cir. and Sys. for Video Technol. 19(3), 347–360 (Mar 2009). https://doi.org/10.1109/TCSVT.2009.2013519, http://dx.doi.org/10.1109/TCSVT.2009.2013519

21. Simakov, D., Caspi, Y., Shechtman, E., Irani, M.: Summarizing visual data using bidirectional similarity. In: 2008 IEEE Conference on Computer Vision and Pattern Recognition. pp. 1–8. IEEE (2008)

22. Steinbr¨ucker, F., Sturm, J., Cremers, D.: Real-time visual odometry from dense rgb-d images. In: 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops). pp. 719–722 (Nov 2011). https://doi.org/10.1109/ICCVW.2011.6130321

23. Wang, C., Huang, H., Han, X., Wang, J.: Video inpainting by jointly learning temporal structure and spatial details. In: Proceedings of the 33th AAAI Conference on Artificial Intelligence (2019)

24. Xu, R., Li, X., Zhou, B., Loy, C.C.: Deep flow-guided video inpainting. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (June 2019)

25. Yu, J., Lin, Z., Yang, J., Shen, X., Lu, X., Huang, T.S.: Generative image inpainting with contextual attention. arXiv preprint arXiv:1801.07892 (2018)

26. Zhang, J., Singh, S.: Loam: Lidar odometry and mapping in real-time. In: Robotics: Science and Systems Conference (July 2014)

27. Zhang, R., Li, W., Wang, P., Guan, C., Fang, J., Song, Y., Yu, J., Chen, B., Xu, W., Yang, R.: Autoremover: Automatic object removal for autonomous driving videos. arXiv preprint arXiv:1911.12588 (2019)

理论自动驾驶百度ECCV 2020
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

均方根误差技术

平方平均数(Quadratic mean),简称方均根(Root Mean Square,缩写为 RMS),是2次方的广义平均数的表达式,也可叫做2次幂平均数。常用于计算误差

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
光流估计技术

光流估计用于估计图像序列中的每个像素的运动,在计算机视觉中有许多应用,例如图像分割,对象分类,视觉测距和驾驶员辅助。

流计算技术

Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,比如map、reduce、join和window。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~