目录
前言
BEV是近几年车企和自动驾驶公司经常提到的词,全称是Bird's Eye View,可翻译为鸟瞰图,也被称为上帝视角。

用上图来理解,BEV感知就是把多个视角的摄像头图像,统一通过公共的特征提取器,投影到同一个BEV空间里面,主要是两步:
-
摄像头接收到影像,通过一个视觉神经网络的主干网络(Backbone)提取影像中的特征值(Feature);
-
借助Transformer算法,把上一步得到的多个摄像头影像的特征值,放进一个3D空间里。
这里又涉及到Transformer算法,这是一种传统用于自然语言处理——也就是机器翻译的算法。
要想详细了解,可以看大神的这篇文章:https://zhuanlan.zhihu.com/p/552543893
文章里有个例子
超级会员免费看
订阅专栏 解锁全文
&spm=1001.2101.3001.5002&articleId=145681948&d=1&t=3&u=6c2ef81493e346fda632d23a3fceb30f)
208

被折叠的 条评论
为什么被折叠?



