JSNet:三维点云的联合实例和语义分割--个人笔记

最新推荐文章于 2025-01-05 10:20:07 发布

原创

最新推荐文章于 2025-01-05 10:20:07 发布 · 1.7k 阅读

标签

#经验分享 #python #深度学习 #计算机视觉

JSNet是一种针对三维点云的神经网络，旨在同时解决语义分割和实例分割任务。网络采用共享特征编码器、两个并行解码器、特征融合模块和联合分割模块。它结合了PointNet++和PointConv的优势，通过特征融合增强细节信息，利用联合实例和语义分割模块促进两个任务间的相互促进。网络最终输出包含语义类别和实例标签的特征矩阵。

                              JSNet:三维点云的联合实例和语义分割：

JSNet学习框架

摘要
- 网络架构
- - 代码分析

摘要

在本文中，我们介绍了一种三维点云的联合实例语义分割神经网络JSNet来解决两个基本问题:语义分割和实例分割。所提出的网络JSNet包括四个部分:共享的特征编码器、两个并行分支解码器、每个解码器的特征融合模块、联合分割模块。基于PointNet++ (Qi et al. 2017b)和PointConv (Wu, Qi, and Fuxin 2019)构建特征编码器和解码器，以学习更有效的高层语义特征。为了获得更多的鉴别特征，我们提出了一个点云特征融合模块，融合高层和低层信息，细化输出特征。为了使两个任务相互促进，提出了一个联合实例和语义分割模块来同时处理实例和语义分割。具体来说，该模块通过一维卷积将语义特征转换为实例嵌入空间，然后将转换后的特征进一步与实例特征融合，便于实例分割。同时，该模块还通过内隐学习将实例特征聚合到语义特征空间中，以促进语义分割。因此，我们的方法可以用于学习实例感知的语义融合特征和语义感知的实例嵌入特征，从而使这些点的预测更加准确。

网络架构

在这里插入图片描述
图2(a)所示的整个网络由四个主要组件组成，包括一个共享编码器，两个并行解码器，每个解码器对应一个点云特征融合模块，最后一个联合分割模块。对于两个并行分支，一个是为每个点提取语义特征，另一个是为例如分割任务。特别是对于特性编码器和两个解码器，我们可以通过复制一个解码器来直接使用pointnet++或PointConv作为我们的主干网络，因为这两个解码器具有相同的结构。但是，如上所述，例如语义分割，由于最大的池操作，PointNet++可能会丢失详细的信息，并且在训练过程中，PointConv会消耗昂贵的GPU内存。在这项工作中，我们结合PointNet++和PointConv来建立一个更有效的骨干网和可接受的内存成本。骨干的编码器是通过连接PointNet++的集合抽象模块和PointConv的三个特性编码层来构建的。类似地，解码器由PointConv的三个深入的特性解码层和PointNet++的特性传播模块组成。对于整个管道，我们的网络取sizeNaas输入的点云，然后通过共享特征编码器将其编码成Ne×512形状的矩阵。接下来，特征编码器的输出被输入到两个并行解码器中，并由其后面的组件分别处理。语义分支解码共享特征，并将不同层的特征融合成一个以Na×128形状的语义特征矩阵FSS。类似地，实例分支在PCFF模块之后输出实例特征矩阵FIS。最后，由JISS模块获取并处理语义特征和实例特征，输出两个特征矩阵。其中一个由Na×C塑造的矩阵PSSI用于预测语义类别，其中C为语义类别的数量。另一个由Na×K塑造的EISS是一个实例特征矩阵，用于预测每个点的实例标签，其中K是嵌入向量的维数。在嵌入空间中，嵌入表示点的实例关系:属于同一实例对象的点很接近，而不同实例的点彼此远离。

U:带插值的上采样张量
C:沿一维收缩张量 //tf.concat 拼接一维张量
+：元素级加法 //对应元素加
x：元素积 //对应元素乘积
F：一维非线性卷积
R:跨越张量维数的元素平均值 //tf.reduce_mean计算张量沿指定轴的平均值
S: //tf.sigmoid将输出压缩至0-1范围
T：通过平铺给定的张量来构造张量 //tf.tile对张量进行扩张
M：张量跨维元的最小值 //tf.reduce_min
-：元素划分
1：连接点

JISS模块：
实例分割
语义特征矩阵（FSS）–>F(1D卷积)–>实例特征空间（FSST）–>FSST作为FISS的元素被添加到FIS中–>将特征FIS和FISSS连接成FISSC–>通过均值R（mean）和S（sigmoid）得到权重矩阵FISR–>FISSC×FISR=FISSR–>两次F（1D卷积）–>EISS（Na×K）