自动驾驶BEV感知算法指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.3 基于多层感知器的方法

基于多层感知器(MultiLayer Perception,MLP)的方法利用多层感知器作为复杂的映射函数,将输入映射到不同模态、维度或表示的输出上,以实现从透视视角到BEV视角的转换。

为了消除相机校准设置中的继承感应偏差,一些方法采用MLP来学习相机校准的隐式表示。例如,视图解析网络(View Parsing Network,VPN)选择了两层MLP,利用全局感受野的需求,通过“关注-映射-重塑”的过程将每个PV特征图转换为BEV特征图,然后添加来自不同相机的所有特征图以进行多视图融合。金字塔占用网络(Pyramid Occupancy Networks,PON)则是基于网络对于将特征映射到BEV的大量垂直上下文的需求,利用特征金字塔提取多个分辨率的图像特征,使用MLP沿高度轴折叠图像特征并沿深度轴扩展来执行视图变换,如图1-9所示。

图1-9 PON按列将透视图特征转换为鸟瞰视图特征

基于MLP的方法利用多层感知器作为映射函数,实现了视角间的转换,为自动驾驶等应用提供了重要的感知能力。