Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

美团视觉智能中心机器之心专栏

IJCAI 2021|美团提出车道线检测新框架SGNet,精准且快速

美团视觉智能中心对当前车道线检测存在的难点进行了重新思考,提出了一种结构信息引导的车道线检测框架 SGNet,该方法在公开车道线检测数据集上性能明显优于现有方法,同时预测速度可以达到 117FPS,相关研究已被 IJCAI 2021 接收。

本文是来自美团视觉智能中心在车道线检测领域的最新研究成果,目前已被 IJCAI 2021 接收。美团视觉技术团队对当前车道线检测存在的难点进行了重新思考,归纳为三个难点:缺乏对车道线统一且有效的表示方式、缺少对道路场景与车道线间结构关系的有效利用、难以扩展至车道线的其他属性。基于此,研究者提出了一种结构信息引导的车道线检测框架 SGNet,该方法在公开车道线检测数据集上性能明显优于现有方法,同时预测速度可以达到 117FPS。

论文地址:https://arxiv.org/pdf/2105.05403.pdf

一、背景

自动驾驶是目前计算机视觉人工智能领域的研究热点,其主要依赖于对交通场景的全面理解。在交通场景中,车道线作为道路的重要标识,是道路理解的主要要素之一。准确的车道线检测有助于实现道路要素的精准发现和实时感知,是地图构建中路面信息发现的重要技术,同时也是自动驾驶中指导车辆安全行驶的重要能力。

二、研究动机

随着深度学习的发展,近些年车道线检测已经取得了重大进展,但是仍然存在三个难点阻碍车道线检测的发展:

  • 第一,缺乏对车道线统一且有效的表示方式。针对不同场景的不同需求,车道线的表示方式多种多样,如关键点、线掩码、线标记、网格等(如图 1(a)所示),这导致很难构造统一方式刻画车道线。

  • 第二,缺少对道路场景与车道线之间结构关系的利用。如图 1(b)所示,道路场景存在丰富的结构化信息(如车道线之间的平行关系、消失点的位置等),这些信息对于车道线的检测很有帮助,但是目前的方法无法高效地利用这些信息。

  • 第三,很难扩展到车道线的其他属性,例如区分车道线实例、预测车道线类型等(如图 1(c)所示)。这些属性同等重要,但目前方法难以进行高效扩展,以满足实际应用的需要。

图 1:车道线检测存在的挑战:(a)多种多样的车道线表示方式;(b)车道线相关的结构信息;(c)车道线的多种属性。

三、方法

本文实现了一种结构信息引导的车道线检测框架 SGNet,可以精准地描述车道线并对不确定条数的车道线进行分类与定位,具体架构如图 2 所示。

图 2:SGNet 架构。

针对目前车道线检测领域存在的三个难题,SGNet 首先构建了一种基于外接框 - 中心线 - 偏移量的车道线表示方法;接着,研究者提出消失点引导的自上而下的锚生成机制;然后,利用预测的车道线掩码添加像素级的结构约束,利用车道线之间的平行关系添加车道线级的结构约束,以及基于透视注意力图添加图像级的结构约束,从而实现车道线的精准分类、定位及细节恢复。具体的细节如下:

1、车道线表示方法

为了适应不同方式的车道线标注,本方法设计了一个基于外接框 - 中心线 - 偏移量的方式来表示车道线(如图 3 所示)。首先,根据车道线的掩码计算每个车道线实例L_Lane的最小外接矩形R,定义该矩形的长与宽为h与w。然后取垂直于矩形短边的中心线记为L_center,x轴正半轴与L_center之间的顺时针的夹角记为θ。基于这种方式,用L_center表示车道线的位置,h与w表示车道线的范围。基于R与L_center,可以对不同的车道线标注方式(如点、掩码、标记、网格等)进行统一的表示。

图 3:基于外接框 - 中心线 - 偏移量的车道线表示方式。

在数学表示上,基于一系列y坐标上间隔相等的关键点来表征一个车道线实例,这些点的y坐标集合为,其中,其中P是贯穿图片长度H的关键点的数目。相应地,这些点的x坐标集合为。中心线L_center可以使用直线的一般式表示为:。当中心线上一个点的y坐标是y_i时,相应的 x 坐标为:。容易得到,车道线实例L_Lane与中心线L_center在x上的偏移量为:


因此,基于中心线L_center和偏移量,可以方便地表征车道线实例L_Lane。

2、消失点引导的锚生成机制

为了正确预测中心线L_Lane和车道线偏移量,本文提出了一种消失点引导的锚 (anchor) 生成机制。其中,消失点代表着道路的尽头,同时也是不同车道线在远处的 “虚拟” 交点,车道线必会经过消失点,因此从消失点发出的稠密射线理论上可以覆盖所有车道线。基于这个思路,相比于常规的物体检测,可以将 anchor 的搜索空间从转换到,其中代表在一个特征点的 anchor 数目。

为了保证生成的 anchor 足够稠密,本方法在以消失点为中心的的矩形区域,每隔个像素进行基于点的 anchor 生成。如图 4 所示,在消失点(图中黑圆点)及其周围区域(图 4 中灰圆点)生成 anchor,anchor 生成过程中,针对每个点,每隔角度,生成一个 anchor,角度范围是[0,180]。

图 4:消失点引导的 anchor 生成机制。图中黑圆点是消失点,灰圆点是消失点周围的辅助点,金色线是 anchor。

需要注意的是,通常车道线数据集里并没有消失点的标注,因此对所有车道线实例的任何两条中心线的交点取平均得到消失点的近似位置。此外,单点预测通常难以准确,因此将消失点的范围扩大至半径为 16 的圆,使用二值分割的方案预测消失点,通过像素级别的交叉熵损失监督消失点的学习。

3、多层级结构信息约束

(1)像素级感知

为了更好地预测车道线的细节,在预测消失点的同时,引入车道线的像素感知。如图 2 所示,车道线像素感知分支与消失点预测分支有着相同的输入和网络结构。通过最小化交叉熵损失监督车道线二值分割的学习,从而感知车道线细节。

为了增强车道线的像素级别的特征细节,将 anchor 特征与预测的车道线二值分割结果进行像素级的加权运算。

(2)车道线级关系

进一步地,现实生活中车道线的构建都会遵守国标规则,其中最重要的就是车道线间的等距平行规则。由于成像原因,这种关系在仿射变换后在二维图像上不再保持,但依然潜在存在。为了建模这种关系,通过神经网络学习一个H矩阵,利用H矩阵可以将图像进行逆透视变换,得到图片的鸟瞰图。该过程中,每一条车道线实例L_Lane经过转换后得到,在鸟瞰图中不同的保持平行关系。因此,对于一张图片中的两个车道线实例,通过H矩阵将其投射到鸟瞰图视角下,得到相应的。这两个车道线实例可以基于以下的线性表达式进行表示:


由于平行关系的约束,这两个等式中,当y相等时,对应x的差值是常数,因此可以得到。扩展到所有的车道线实例,可以得到车道线级别约束的损失函数,如下:

(3)图片级注意力

在成像的过程中,远处的物体投影到图像之后尺寸会相对更小。通常,远处的车道线信息也十分重要,但是在处理上并没有被同等重视。通过分析成像后物体的尺度信息和距离信息的关系,可以发现车道线与消失点的距离和缩放比例成反比。因此,假设车道线注意力的权重与到消失点的距离成二维高斯分布,可以生成针对于每个场景的透视 - 注意力图。透视 - 注意力图根据点到消失点的距离自适应的调整车道线回归的损失权重,保证了远处偏移量回归的准确性,具体形式如下:

其中代表归一化到[0,1]。

四、实验结果

SGNet 在公开数据集 CULane 上进行实验验证。其中,为了适配不同的应用场景,分别选择了 ResNet-18 和 ResNet-34 作为特征提取主干网络进行实验验证。

表 1 SGNet 在公开数据集 CULane 上与其它先进模型的对比:

图 5:SGNet 与其它先进模型的可视化比较。

可以看到,该研究提出的方法在大部分类别上都明显优于现有的先进方法,同时在总体的指标上更是显著优于现有方法。尤其是在拥堵 (Crowd)、箭头(Arrow) 和夜晚 (Night) 等类别上,这体现了提出的结构信息引导的车道线检测框架对于这种遮挡严重的场景具有优秀的结构信息建模和推理能力。

为了进一步验证不同模块对于整个框架的作用,研究者进行了额外的消融实验。其中,为了验证消失点引导的锚生成机制的有效性,研究者设置了三个实验:特征提取 + 朴素分类回归模型(Base)、特征提取 + 消失点引导的锚生成机制 + 分类回归模型(Base+V)、特征提取 + 车道线关键点拟合的到的消失点引导的锚生成机制 + 分类回归模型(Base+V-F)。从表 2 中可以看出,消失点引导的锚生成机制可以有效提升车道线检测的性能,同时基于外接框 - 中心线 - 偏移量的表示方法更有利于表征车道线并且获得更好的性能。

进一步地,为了验证多层次结构信息约束的有效性,增加了相应的模型:带有像素级约束(Pixel-L)、带有车道线级约束(Lane-L)、带有图像级约束(Image-L)。从表 2 中可以看出,通过像素级、车道级和图像级的结构信息,车道线检测的性能可以持续提高,这表明多层次的约束是相互兼容的,并且可以联合使用来获得最佳性能。

表 2 消融实验设置:

五、结论

本工作重新思考了车道线检测发展中的难点(即车道线表征、结构关系建模、属性扩展),同时提出了一种结构信息引导的精准且快速的车道线检测框架。通过引入一种新的车道表示方式来满足各种车道线标注的表征需求。在此基础上,提出了一种消失点引导的锚生成机制来生成集约的锚,以有效地捕获车道线。此外,对多层次结构信息进行建模,以提高模型对车道线的感知能力。在公开数据集上的大量实验验证了该方法的有效性和快速推理能力,验证了从建模利用结构信息的视角解决车道线检测问题的高效性。
理论车道线检测美团视觉智能中心
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

美团机构

美团的使命是“帮大家吃得更好,生活更好”。作为中国领先的生活服务电子商务平台,公司拥有美团、大众点评、美团外卖、美团打车、摩拜单车等消费者熟知的App,服务涵盖餐饮、外卖、打车、 共享单车、酒店旅游、电影、休闲娱乐等200多个品类,业务覆盖全国2800个县区市。

www.meituan.com
推荐文章
不知道有没有考虑过车道线的交合和分岔的情况?还有停止线的情况?