基于LiDAR的3D对象检测综述

发表于 2024-08-11 更新于 2024-12-08 分类于 3D Object Detector ， Base LiDAR 阅读次数： Changyan： Disqus：

概述

先进的3D对象检测方法提出了各种从稀疏的点云数据中学习辨别特征的方法:

最远点采样在PointNet++网络中首次提出，并在基于点的检测器中被广泛采用，其基本思想如下：给定一个输入点集\(\{x_1, x_2, ..., x_n\}\)，使用FPS算法去选择输入点的子集 \(\{x_{i_1}, x_{i_2}, ..., x_{i_m}\}\)。

随机从\(\{x_1, x_2, ..., x_n\}\)中选择一个点\(x_{i_1}\);
从剩余的点集中查找与点\(x_{i_1}\)距离最远的点\(x_{i_2}\)；
以此类推，从剩余的点集中查找与集合 \(\{x_{i_1}, x_{i_2}, ..., x_{i_{j-1}}\}\)中的点距离最远的点\(x_{i_j}\)；

IPOD 模型中首次提出，基于语义的引导过滤采样。

首先滤除背景点，采用2D语义分割网络预测前景像素，然后使用给定的相机矩阵将这些像素投影到点云中作为掩膜来收集正样本点。
基于这些正样本点的中心，生成具有多个尺度，角度和偏移的proposals，如下图，基于BEV视图，基于2种anchors生成6个proposals。这些proposal可以覆盖汽车对象的大部分关键点。

采用 non-maximum suppression (NMS) 去除多余的proposals,其中每个proposal的core值是其内部点的语义分割值之和，尽量选择包含更多点的proposal，IoU的值计算基于每个proposal在BEV视图下的投影。

如下图所示，使用内部点的中心和预定义的特定类别的archor大小替换AB为C

在训练期间，为proposal分配目标标签时存在一些歧义点。如果只考虑proposal和GT box的IoU值来标注正负标签，可能是不合适。

提出 PointsIoU ，通过计算两个Box交集的点数与并集的点数之商。

Feature-FPS 3DSSD模型中首次提出，其采用空间距离和语义特征距离作为FPS的标准 \[C(A,B) = \lambda L_d(A,B) + L_f(A,B)\] 其中， \(L_d(A,B)\)表示 \(L2\)(x,y,z)距离，\(L_f(A,B)\)表示 \(L2\)语义特征距离。

如上图所示，3DSSD是中提出的Fusion Sampling策略，即在SA层中同时应用 F-FPS 和 D-FPS，保留足够的正样本点用于位置定位，同时保留足够的负样本点用于分类任务。

基于体素的采样

随机采样

坐标细化特征提取算法

目前大多数的基于点的方法，点云采样是其推理时间的瓶颈，无法满足自动驾驶对实时性的要求。