南方测绘推荐 | 中南大学黄金彩博士:利用行车记录仪视频提取路面车道线

发布时间:2025-01-04 08:13  浏览量:77

本文内容来源于《测绘通报》2024年第12期,审图号:GS京(2024)2401号

利用行车记录仪视频提取路面车道线

122

1. 中南大学大数据研究院, 湖南 长沙 410083;

2. 中南大学地球科学与信息物理学院, 湖南 长沙 410083

基金项目:国家自然科学基金(42471507)

关键词:车载视频, 高精地图, 车道线, 语义分割, 道路提取

引文格式:黄金彩, 李诗逸, 石岩. 利用行车记录仪视频提取路面车道线[J]. 测绘通报, 2024(12): 1-5. DOI: 10.13474/j.cnki.11-2246.2024.1201.

摘要

摘要:路面车道线是高精地图的关键组成部分,搭载在网约车上的海量行车记录仪视频是对道路信息的实时观测,是一种较为经济的车道线数据提取的重要数据源。本文基于海量的滴滴网约车行车记录仪视频,探讨了基于LaneNet深度网络模型的路面车道线数据提取方法的可行性。该方法首先利用LaneNet网络模型对每帧视频图像进行语义分割,进而通过预测透视变换矩阵,实现对车道线像素点位置的拟合提取,最后采用模拟数据和复杂场景下的滴滴行车记录仪数据进行试验结果评价。试验结果表明,本文采用模型在车载视频图像中具有较好的车道线提取性能。

正文

近些年,人工智能相关技术快速发展,尤其是在自动驾驶领域,极大提高了汽车驾驶的安全性和可靠性[1-4]。自动驾驶技术由安装在车辆上的众多传感器处理信息,以感知周围环境,帮助车辆了解交通场景并控制车辆的运动[5-13]。这些传感器主要包括高分辨率相机、雷达和激光探测与测距[14-15],通过特征提取对物体进行分类,并通过无线电波和光照测量与周围物体的距离,从而最终得到环境的三维视图。在车辆决策收集到的各种信息来源中,最可靠的就是视觉传感器数据。视觉传感器使自动驾驶汽车具备理解周围环境视觉的能力,包括人与车辆检测、车道线检测、红绿灯分析、道路标志检测和识别等。车载图像就是由视觉传感器所获得的,基于车载图像的语义分割与交通目标识别技术作为自动驾驶的核心,为其发展带来了便利。因此,开展基于车载图像的语义分割与交通目标识别研究显得极其重要。车道线是自动驾驶高精度地图的关键组成部分,由于车道线目标具有细长的特征,当前深度学习方法仍存在提取困难的问题。目前,主流的深度学习车道线检测方法分为3类,包括:基于分割的方法、基于行分类的方法和基于锚框的方法。基于分割的方法将车道线检测问题视作语义分割任务,基于卷积神经网络从图像中提取车道线像素点,具有代表性的卷积神经网络结构包括SCNN[16][17]等。前者是一种空间卷积神经网络,能较好地处理车道线这类细长目标;后者通过语义分割获取车道线像素点,使用小型网络学习路面的透视投影矩阵,通过逆变换还原至原视图。基于行分类的方法通过网格划分图像,在每行上预测最可能包含车道标记的位置[18-19],当前采用的UFSA算法通过大感受野的全局特征筛选车道线位置,并引入结构损失,解决了计算速度和无视觉线索问题[19]。基于锚框的方法主要借助目标检测领域设计锚框的思想,包括端到端的Line-CNN模型[20]、LaneATT模型[21]等。前者的核心是LPU网络,通过线路参考定位交通曲线,提升车道线误差计算的准确性;后者将锚框与注意力机制相结合,利用车道线的连续性和规律性增强对遮挡和缺失情况的处理能力。

总体而言,基于深度学习的车道线检测方法是目前的主流,具有较好的精度和稳健性,然而,当前方法在实际场景中的可靠性和有效性仍需要进一步探索。本文基于实际场景中海量的行车记录仪视频数据,探讨海量众包数据的车道线检测的实际性能和可行性,以期为基于众包数据的自动驾驶高精度车道线生成和更新提供关键技术支撑。

1 试验数据和环境

1.1 试验数据集

1.1.1 Tusimple数据集

Tusimple数据集是用于车道线检测比赛的公开数据集,其中包含图像数据及相应的JSON标签。该数据集在美国圣地亚哥高速公路上采集,由一些结构化道路图像组成。本文车道线检测试验使用的Tusimple数据集包含3626个视频剪辑的训练集和2782个视频剪辑的验证集,每个视频剪辑分为20帧,其中最后一帧带有标注,图像大小1280×720像素。

1.1.2 滴滴行车记录仪视频

自2017年,滴滴要求其平台下的网约车搭载桔式行车记录仪,通过持续采集获得道路视频数据。本文采用的滴滴数据集是滴滴运营车辆的行车记录仪在中国5个城市采集的前视视频数据,涵盖了不同的天气、道路、交通状况,尤其是极复杂和多样性的交通场景。所提供的原始数据均存储为25帧/s、30 s时长的短视频。所有视频均以高清(720P)或超高清(1080P)分辨率录制,共有444段视频。

1.2 试验环境

试验中使用Visual Studio Code软件进行操作,车道线检测试验使用TensorFlow网络框架实现算法运行。网络框架下试验平台的配置见表 1。

表 1 试验平台配置

2 基于LaneNet的路面车道线检测

结合基于深度学习的车道线检测方法研究现状,鉴于LaneNet车道线检测网络模型具有高精度与高效率的优势,本文基于LaneNet车道线检测网络构建了车道线检测模型,并重点介绍模型各个模块的具体实现。LaneNet车道线检测网络模型的架构主要包含LaneNet网络和H-Net网络,其框架结构如图 1所示。

图 1 LaneNet网络模型框架

LaneNet的网络结构如图 2所示,有两个分支任务。一个分支是通过语义分割将车道线与背景进行分割;另一个分支是对车道线像素进行嵌入式表示。训练得到的向量用于聚类,最终得到图像的实例分割结果。

图 2 LaneNet网络结构

H-Net网络是一个小型网络,其主要任务是预测透视变换矩阵H。在对车道线像素点进行聚类并拟合到对应的位置上时,利用H-Net网络对同属一条车道线的像素点参数进行实例化。

2.1 语义分割模块

在语义分割模块中,语义分支将对输入LaneNet网络中的图像进行训练,并学习车道线特征,输出二进制语义分割图像,其中包含车道线和非车道线像素点。为了构建充分的车道线和背景分割图像,在进行标注时将原始数据集中能观察到的所有车道线都用点的方式连接,以保证每条车道线的连贯性。当图像中的汽车或其他障碍物遮挡了车道线,或者某段车道线受损导致难以确定位置,或者对虚线车道线进行了误判等情况发生时,网络模型可以根据图像面临的实际情况合理预测出车道线位置,并用点连接完整的车道线。本文LaneNet网络的语义分割使用的损失函数是标准交叉熵。

2.2 实例分割模块

LaneNet网络的实例分割模块在语义分割模块的输出结果基础上对车道线像素进行实例分割。该模块采用一种集成标准前馈网络的方法,并基于距离度量学习的思路,一次性完成像素点的分配。

实例分割模块结合车道线像素点的特征,使用了相应的损失函数。在同一条车道线中像素点之间的距离相对较小,而不同车道线内的像素点之间的距离则相对较大。因此,算法会合理地将每个像素点分配到所属的车道线位置。损失函数包括两项:方差项Lvar与距离项Ldist。其中,Lvar将属于同一条车道线的像素集中到一起,尽可能缩小车道线内像素之间的距离;Ldist则将属于不同车道线的像素集合分开,以得到不同的车道线。Lvar和Ldist计算公式分别为式中,C为像素点聚类数目的数量,称为簇;Nc为某簇中像素点的数量;xi为嵌入的像素点;μc为嵌入簇C的均值;δ是一个阈值参数;[x]=max(0,x)。则用L表示总的损失为

2.3 聚类模块

在聚类模块中,LaneNet模型采用了MeanShift算法。该算法首先求解当前点位置偏移量的均值,然后将剩下的点移向该均值。核函数是MeanShift算法的核心,其中对每个点偏移量均值的计算是最关键的。基于此,将持续更新当前点的具体位置。

聚类模块是LaneNet网络中的一个后处理部分,它使用网络嵌入式模块的输出作为特征向量。在聚类之前,需要设置一个关系为δd>6δv的阈值对,用于筛选具有密集关系的像素点。簇中心在双阈值的限制下向密度大的方向移动,有效避免了离群点对聚类的影响。在划分像素向量的过程中,圆心作为簇的中心位置,半径使用2δv,所有处于圆内的像素都归为同一个簇,即属于同一条车道线。让该过程进行迭代,直至所有车道线像素点都被完全区分并按照车道线的ID进行分配,则停止迭代。

2.4 H-Net网络

在传统的车道线拟合算法中,通常采取将图像投影到鸟瞰图后使用二阶或三阶多项式进行拟合的方法,在该方法中,变换矩阵只进行了一次计算,后续所有的图像使用的变换矩阵都相同。然而,当路面存在凹凸不平或坡度较大的情况时,会出现较大的拟合误差。为了解决该问题,LaneNet车道线检测模型中使用网络H-Net预测变换矩阵,即

(2)

变换矩阵通过置零来加强强制性约束,即在变换时使水平线能够保持水平状态。由式(2)可以发现,变换矩阵 H有6个变量,因此H-Net网络训练后输出的是一个6维向量。

3 试验结果分析

3.1 试验参数设置

在车道线检测试验中,使用LaneNet模型在Tusimple数据集上进行训练。模型的超参数设置见表 2。

表 2 LaneNet模型超参数设置

在车道线检测试验过程中,输入的图像尺寸为1280×720像素,改变图像大小为512×256像素。训练阶段设置80 010个epoch,设置的初始学习率为0.001,损失函数Loss的变化曲线如图 3所示。可见,损失函数随着epoch的增加逐渐接近于0,约在第30 000个epoch时,损失函数趋于收敛。

图 3 Loss变化曲线

3.2 路面车道线检测结果分析

LaneNet车道线检测模型在Tusimple数据集上的检测效果如图 4所示。可以发现,即使车道线信息缺失比较严重,模型仍然可以感受道路图像的全局信息并借助一些细节信息推理出合适的车道线位置。其中,第1张与第3张图像中标线信息缺损严重,模型仍准确预测出了全部车道线;第2张图像中,车道线出现弯曲时也能准确拟合出车道线位置;在第3列图像中,道路场景出现了阴影和车道线被遮挡的情况,网络模型根据车道线边缘、周围车辆的行驶方向等细节特征推理出了车道线的实际位置。

图 4 车道线检测结果

利用滴滴行车记录仪数据进行实际场景下车道线提取的效果进行分析。该数据涵盖不同的天气、道路和交通状况,具有场景的复杂性和多样性。滴滴数据集上对LaneNet模型测试效果如图 5所示。图中第2行的二值图为语义分割结果,可以发现,LaneNet模型的语义分割模块效果较好,但实例分割的效果存在部分较差的情况,出现车道线数量变少的案例。而3列图像经过H-Net变换拟合,得到了较好的实际效果。其中,第1列为有阴影遮挡的情况,可见在此情况下取得了较好的车道线提取效果;第2列与第3列的车道线语义分割缺失了部分车道线,导致车道线拟合结果在尾端有部分欠拟合的情况,部分原因是训练数据与测试数据的交通环境有较大的差异导致。总体而言,LaneNet模型在测试数据和实际数据中取得了较好的车道线检测效果。

图 5 车载图像车道线检测测试结果

4 结语

本文对车道线检测算法中LaneNet网络模型的各个模块进行了研究分析,重点探讨了提高网络模型分割精度和车道线检测效果的方法,并在滴滴数据集上对车道检测模型进行了测试,针对数据集具有天气、道路和交通状况极复杂和多样性的交通场景,验证了基于LaneNet模型在实际复杂场景中车道线检测的有效性。

作者简介:黄金彩(1991-),男,博士,讲师,主要研究方向为数据挖掘。E-mail:huangjincaicsu@csu.edu.cn

资讯