![自动驾驶BEV感知算法指南](https://wfqqreader-1252317822.image.myqcloud.com/cover/16/53288016/b_53288016.jpg)
1.3.2 基于深度估计的方法
深度信息在将2D像素和特征提升到3D空间的过程中十分重要。因此,利用深度信息的基于深度估计的方法,成为解决透视角到鸟瞰视角转换这一问题的新趋势。在评估这些方法时,我们需要考虑视角转换的方法、是否包含深度监督以及这些方法如何与基于IPM的方法集成。
基于深度估计的透视视角到鸟瞰视角的转换主要有两种策略,分别为基于点的视角转换和基于体素的视角转换。基于点的方法利用深度估计将像素转换为3D空间中的点云,虽然相对简单,且能够集成成熟的深度估计和3D检测技术,但在数据安全和训练部署方面存在缺陷。基于体素的方法通过离散化3D空间并构建规则结构来进行特征转换,这在大规模场景结构信息的覆盖上更为有效,并且与端到端的视角转换学习范式兼容。图1-8展示了基于点的方法,将2D图像像素转换为伪激光雷达点云,并使用点云算法进行了3D目标检测。
![](https://epubservercos.yuewen.com/91F949/31752005803755606/epubprivate/OEBPS/Images/21_01.jpg?sign=1739582855-GPWK5BGuww5k71CCbW6TyM04UG5VCovw-0-1a1cc668fa8a62a934ad4d42a6f8d24e)
图1-8 基于点的视角转换方法将2D图像像素转换为伪激光雷达点云,并使用激光雷达进行3D物体检测
在估计深度分布方面,不同的方法对应不同的策略。一些方法假设特征沿射线均匀分布,而另一些方法则明确估计深度分布并使用该分布构建3D特征。BEVDet方法进一步推动了基于深度估计的透视视角到鸟瞰视角转换的研究。该方法遵循了LSS(详见4.1.3节及4.1.4节)的范式,并创新性地提出了一种专门用于BEV的多视图图像3D检测的框架。这个框架精心设计了4个关键组件:图像视图编码器、视角转换器、BEV编码器和检测头。通过这些组件的协同工作,BEVDet实现了从原始图像到精确BEV的转换,并进行了高效的3D检测。有关BEVDet的详细内容将在5.1.1节介绍。
除了单目深度估计,立体匹配在多视图设置下能够更为准确地估计深度信息,进一步提升估计精度。在早期的多视图设置研究中,为了实现全覆盖并减少摄像头数量,相邻视图间通常设置大量的重叠区域。然而,这种做法导致了深度估计更加依赖单目理解,从而增加了估计的复杂性。相比之下,基于BEV的方法在多视图感知方面更具优势,尤其在双目设置下,深度估计的表现更为突出。近年来的双目方法创新性地利用平面扫描表示来进行立体匹配和深度估计,通过精巧地从平面扫描特征体积中对体素和BEV特征进行采样,实现了更为精确的3D检测。
基于深度估计的方法通过利用深度信息将2D像素和特征提升到3D空间,实现更精确的视角转换和3D检测,进一步提高了算法的性能和效率。