自动驾驶的感知算法是自动驾驶系统的核心模块之一,负责从传感器数据中提取环境信息,理解车辆周围的道路、障碍物、行人、交通标志等关键要素。
感知算法的核心任务目标检测与跟踪:识别车辆、行人、交通标志、信号灯等动态和静态物体,并跟踪其运动轨迹。语义分割:对图像或点云中的每个像素进行分类(如道路、车道线、障碍物等)。定位与建图:结合高精度地图和传感器数据,实时确定车辆的位置(Localization)并构建局部环境地图(SLAM)。场景理解:综合多源信息,预测其他交通参与者的行为意图(如行人横穿、车辆变道)。主要传感器与数据源摄像头(Camera):优势:高分辨率、纹理信息丰富,适合识别交通标志、信号灯、车道线。挑战:受光照、天气(雨雾/逆光)、遮挡影响大。算法:基于CNN的目标检测(YOLO、Faster R-CNN)、语义分割(U-Net、DeepLab)。激光雷达(LiDAR):优势:提供精确的3D点云数据,适合测距和三维物体检测。挑战:成本高、数据稀疏(远距离分辨率低)、雨雪天气性能下降。算法:点云处理(PointNet、PointPillars)、3D目标检测(VoxelNet、SECOND)。毫米波雷达(Radar):优势:测速精准、抗恶劣天气能力强,适用于动态物体跟踪。挑战:分辨率低、无法识别物体类别。算法:多目标跟踪(Kalman滤波、粒子滤波)。超声波传感器:用途:短距离泊车辅助,检测近距离障碍物。IMU/GNSS:提供车辆位姿和定位信息。关键技术方法(1) 多传感器融合(Sensor Fusion)
目的:结合不同传感器的优势,提升感知的鲁棒性和准确性。融合层次:前融合(Early Fusion):在原始数据层面融合(如点云与图像对齐)。后融合(Late Fusion):各传感器独立处理,结果级融合(如目标检测结果投票)。中融合(Middle Fusion):在特征层面融合(如BEV特征拼接)。典型框架:BEV(Bird's Eye View)感知:将多传感器数据统一到鸟瞰图视角(如特斯拉Occupancy Networks)。Transformer-based融合:利用注意力机制跨模态对齐特征(如BEVFormer)。(2) 目标检测算法
2D检测:YOLO系列、Faster R-CNN、RetinaNet。3D检测:LiDAR-based:PointPillars(将点云转换为柱状体处理)、CenterPoint。Camera-based:DETR3D、MonoCon(单目3D检测)。多模态检测:MV3D(融合LiDAR和摄像头)、CLOCs(LiDAR与摄像头结果关联)。(3) 语义分割
图像分割:U-Net、DeepLab、PSPNet。点云分割:PointNet++、RandLA-Net(高效处理大规模点云)。全景分割:统一实例分割与语义分割(如Panoptic FCN)。(4) 定位与建图(SLAM)
Lidar SLAM:LOAM(Lidar Odometry and Mapping)、LIO-SAM(融合IMU)。视觉SLAM:ORB-SLAM、VINS-Fusion(视觉+IMU)。高精度地图匹配:通过预先构建的HD地图与实时感知数据匹配定位。(5) 多目标跟踪(MOT)
关联算法:匈牙利算法、JPDA(联合概率数据关联)。状态估计:卡尔曼滤波、粒子滤波。深度学习:SORT、DeepSORT(结合外观特征)。(6) 行为预测
轨迹预测:Social LSTM(考虑社交交互)、VectorNet(基于高精地图的矢量化预测)。意图识别:基于RNN/GNN的模型预测行人或车辆的下一步动作。典型应用案例特斯拉(Tesla):纯视觉方案(8摄像头+Occupancy Networks)。Waymo:激光雷达主导(Custom LiDAR+多模态融合)。华为ADS:激光雷达+摄像头+毫米波雷达融合(GOD网络通用障碍物检测)。