论文笔记：GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

最新推荐文章于 2026-05-05 06:24:32 发布

原创

最新推荐文章于 2026-05-05 06:24:32 发布 · 5.9k 阅读

标签

#GVCNN

提出GVCNN模型，改进MVCNN多视图3D形状识别方法，通过分组视角特征提高准确率至93%。采用GoogLeNet提取特征，根据判别力评分对视角分组，利用组内视角池化和组间特征融合增强特征描述子。

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

要解决什么问题？
- 3D shape recognition。
用了什么方法解决？
- 采用多视图（multi-view）的方法。
- 在MVCNN的基础之上，提出了group-view convolutional neural network（GVCNN）。
- 主要创新之处是将不同视角下CNN提取得到的视觉描述子进行分组，将相类似的划分为一组。因为类似视角下提取到的特征也是相似的。
效果如何？
- 效果是SOTA的。MVCNN在modelnet40上的准确率是91%，这篇文章的GVCNN的准确率达到了93%。
还存在什么问题？
- 由于需要将3维模型投影到多视角下，分别用CNN提取特征，计算量比较大，所提取的特征冗余性也很强。

[外链图片转存失败(img-b58xNGgy-1563675517069)(./fig2.png)]

3D shape recognition中，虽然有基于体素的方法，还有PointNet类直接处理点云，但是目前准确率最高的还是基于多视图的方法，比如MVCNN。
MVCNN的做法就是模拟相机从若干不同的角度拍摄三维物体，得到投影的二维图像，然后分别利用ImageNet下预训练的网络提取特征，随后通过view pooling，即全局最大池化将各视角下的特征聚合起来，再接分类网络。
虽然存在大量的计算冗余，但是MVCNN的做法更近似于对各个视角的图片做ensemble，在准确率上理所当然会有更好的效果。而且对于旋转也能有不错的鲁棒性。
但是作者认为，MVCNN并没有将多视角下特征之间的关系有效地利用起来，这也会在一定程度上限制最后的特征描述子的可区分力。
- 一方面，一些视角彼此相类似，然后有一些则差异较大。这些相似的视角对于3D物体形状的表示所起到的作用应该是同等的。
- 另一方面，有一部分视角则能提取到更有用的特征。
也正是为了解决上述的问题，才提出了GVCNN。

[外链图片转存失败(img-koNn4rUP-1563675517070)(./fig1.png)]

图1中是整个GVCNN的网络架构。
- GVCNN采用GoogLeNet作为基础网络。
- "FCN"是GoogleNet的前5个卷积层。
- 中间的"CNN"指的是也是GoogLeNet。
- "FC"是全连接层。
GVCNN首先从若干不同视角拍摄三维模型的二维图像，每个视角的图像都被送入了第一部分的"FCN"中提取视觉描述子。随后，第二部分的CNN网络进一步提取视觉特征，group模块再根据判别力评分将不同视角的特征子进行分组。最后将各个组的视觉特征描述子通过view pooling（全局池化）聚合到一起。再接上分类网络进行分类。

[外链图片转存失败(img-0X7OIqVR-1563675517070)(./fig4.png)]

Grouping模块主要是为了挖掘不同视角之间的潜在关系，对其进行归类辅助多视角下特征的聚合。
$\xi\left(I_{i}\right)=\operatorname{sigmoid}\left(\log \left(\operatorname{abs}\left(O_{I_{i}}\right)\right)\right)$
- 给定不同视角下的图像： $S=\left\{I_{1}, I_{2}, \cdots, I_{N}\right\}$ 。
- $\left\{O_{I_{1}}, O_{I_{2}}, \cdots, O_{I_{N}}\right\}$