TOD-CMLNN：Tiny object detection model based on competitive multi-layer neural network (2023待补)

最新推荐文章于 2026-06-25 14:21:12 发布

原创最新推荐文章于 2026-06-25 14:21:12 发布 · 227 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#深度学习 #目标检测 #计算机视觉

论文笔记专栏收录该内容

85 篇文章

订阅专栏

本文提出了一种新型的微小目标检测模型TOD-CMLNN，通过竞争多层网络、TOD辅助和多级特征聚合，有效提升了小物体检测的性能，尤其在mAP上达到72.46%的高精度。

CLIP-GmP-ViT-L-14编码模型

CLIP-GmP-ViT-L-14编码模型` 是一个图文双塔编码模型，适合做图文匹配、零样本分类和跨模态检索演示。本镜像已经完成 Web 部署，打开页面即可上传图片并测试图文表征能力

Abstract

微小目标检测(TOD)是计算机视觉领域的基础和难点问题。目前最先进的探测器，如RCNN、Fast RCNN、Faster RCNN、SSD和YOLO，不能使用单级或多级方法找到小物体。本文提出了一种由三个子部分组成的TOD- CMLNN(微小目标检测竞争多层神经网络)体系结构，该结构由第一个子部分竞争多层网络、第二个子部分TOD辅助和第三个子部分多层次连续特征聚合组成，用于精确检测微小目标。目标检测的竞争学习是该体系结构的基础。
与现有的RCNN、Fast RCNN、Faster RCNN、SSD和YOLO进行对比研究，结果有明显改善，TOD-CMLNN在mAP方面的准确率为最高的72.46%

Introduction

前人的工作及存在的问题

完成边界框和标记对象是属于TOD范畴的任务。Feng et al.(2020)建立了物体所属的组，并从输入图片中标记单个物品的位置。对小目标检测技术的评估对于TOD的研究很重要，因为它可以提高自动驾驶(Huang等人，2021)、安全领域的人员检测(Haziq等人，2022)、农业领域的动物检测(Brown等人，2022)和医疗保健领域的医疗特征检测(Huang等人，2022;Ahmed et al.， 2022)。基于从重要数据库中提取的问题，如上下文中的公共对象(COCO) (Lin等人，2014)和模式统计分析建模和计算学习(PASCAL VOC-2007) (Mark等人，2015)，目前的工作调查表明，在最新的训练研究中，对象检测得到了很大的改进。根据Liu et al.(2021)的研究，这些数据集经常包含占用图像中到大面积的物体，而图像中较小的物体数量稀少，导致不同大小和形状的物体之间的数据差异，并且模型偏向于数量较少的物体。小物体的概念是指一个物体在照片中所占的比例、大小或像素，通过边界框对微小物体的识别可能只占图像面积的不到1%。Kumari等人(2022)提出了一个(USC—gradd - stddb)数据集，其绝对大小为16 × 16像素，这是一个小的尺寸或小于通常在数据集中观察到的标准32 × 32像素。

TOD的相关介绍

TOD定义为确定图像中是否存在给定类的任何微小对象的过程，它返回每次出现的空间位置和范围。从本质上讲，定位和分类是TOD必须执行的两个过程。
TOD中包含的七种方法是:(a)超分辨率(SR)， (b)基于上下文(CB)， ©多尺度，(d)锚点方法，(e)训练策略，(f)数据增强，(g)损失函数。微小物体的分类得益于广泛的语义信息(Huang, Chen, et .， 2022;黄等人，2022)，卷积神经网络(CNN)中的深度特征和基于语义上下文的信息都有很多语义丰富的信息，这对将小事物分类有很大帮助。另一方面，如果没有大量的空间信息，就不可能找到小物体。使用浅层CNN特征和超分辨率方法，可以捕获更多关于小物体的信息，可以更容易地找到小物体的位置。为了定位它，锚定机制和关于它在空间中的位置的信息也非常重要(Kong et al.， 2020)。

Review Literature（。。。）

先介绍了下以前的backbone，然后介绍了一堆前人方法：
Zhu等人(2017)使用反向连接将高级语义特征数据从后面的网络层发送回前面的网络层：
将多层自底向上的特征映射组合在一组网络设计中。低级特征被L2归一化，缩小到高级特征的大小，然后连接起来。采用双线性插值对高阶特征图进行缩放，采用最大池化对低阶特征图进行缩放。为了将特征池化和反卷积同时进行，通过池化将低级特征图变小，以便与高级特征图耦合，而通过反卷积将高级特征图变大，以便与低级特征图混合。

Zhu等人(2018)通过考虑全局和局部数据，应用了非线性特征图修改。在非线性变换过程中，对特征映射进行修改，生成基于局部和全局特征的新特征映射，更新层生成检测结果。但是这种方法的缺点是功能冗余。Tian等人(2019)提出了一种改进的迭代特征映射创建技术，以克服冗余特征创建问题。最后的特征同样是通过将融合的特征与初始输入特征融合而产生的，这表明在识别困难的小面孔方面取得了成功。

除了上面列出的方法(Samangouei等人，2018)使用基于ROI的块归一化层来馈送底层和顶层的组合特征，并提高了小项目识别的准确性。You et al.(2022)定期遍历网络，构建了一种特征映射创建方法。Yu等人(2020)结合迭代深度聚集(IDA)和层次深度聚集(HDA)来合并地理和语义数据。HDA将多个CNN特征线性合并为树形结构，而IDA将两种不同的特征非线性混合。目前的方法无法专注于基于语义数据的特征生成。Zhang等人(2019)和Brown等人(2022)通过使用第二个分割模块包含了额外的语义数据，解决了这个问题。Umer等人(2019)将来自骨干网络的特征映射传输回网络的初始状态，以便为小项目提取更多的语义数据。Yang等人(2019);Liu等人(2019);Li et al.(2019)和Yan et al.(2021)采用“编码器-解码器”架构。Zoph等人提出了一种自动寻找可接受的特征金字塔设计的搜索方法，可以使人类设计过时。(2020)用于将任意两个输入特征与求和或池化操作集成的控制器是循环神经网络(RNN)。Pang等人(2019)使用了两层特征金字塔融合程序;它为全局信息创建了一个图像金字塔，并将原始SSD结构的元素与图像金字塔的四层元素集成在一起。将前一层和当前层的特征结合起来，提供局部空间数据。Luo等人(2019)通过双线性上采样将低层数据与周围特征结合起来。Li等人(2020)提出了一种基于自编码器和高保真照明的人脸识别系统。Bosquet et al.(2021)开发了一种使用STDnet精确定位高分辨率特征图的技术。Guo等人(2020)首次提出了基于残差特征增强(AugFPN)的方法。Adarsh等人(2020)提出的基于yolov3的小目标检测技术。Luo等人(2021)报道了浅特征融合和基于语义信息的TOD。Dai等人(2021)创造了一种独特的特征提取方法，称为注意力特征融合。提出了针对交通灯小目标的注意特征融合策略和改进的YOLO。Song et al.(2022)和Zhang et al.(2021)描述了一种使用YOLOv4的多尺度注意特征融合策略来识别水面下的物体。Lu et al.(2021)使用基于语义分割的多尺度注意特征融合来识别目标。Dai等人(2021)描述了一种用于精确定位小目标的注意力局部对比方法。Huang et al.(2022)使用MSFF来定位内部的微小物体。Huang等人(2022)首次引入了基于语义增强的对象识别概念。Zhang等人(2022)推荐一阶特征映射和有效的积分聚合来识别对象。FPN结合了本地和全球尺度上的浅层和深层特征图特征，以提供交通统计数据。Ma等人(2022)开发了用于目标识别的特征分割-合并增强。Yang等人(2022)提出QueryDet来提高基于特征金字塔的目标识别的推理时间，Zeng等人(2022)引入MSFF技术进行缺陷检测。Noh et al.(2019)提出了一种基于GAN的微小目标特征增强方法来解决弱目标特征问题。Chen等人(2022)建议提高物体识别精度，以解决小东西分布不均匀的问题。提出了一种语义分割的度量方法，在提高小目标分割精度的同时，有效地增加了小目标对整体损失的贡献。这些方法试图识别微小物体，但都无法解决微小物体的检测问题。

Proposed architecture

本文提出的体系结构被称为TOD-CMLNN，它从以下几个角度对图像特征进行检测:为了同时完成小目标识别和微小目标检测，我们首先构建了两套网络框架。其次，我们将从不同层次获得的特征结合起来，使用多层竞争神经网络架构作为每个网络的核心结构。最后，我们对每个卷积模块的基本单元充分利用层特征，采用全局池化方法对每一层的全局接受度按比例进行挖掘，发现每一层对最终特征的贡献。然后，我们根据学习结果评估特征权重的标签。

竞争多层特征响应

第一个模块称为竞争多层网络，其中每一层的工作原理就像人眼的每个特征一样。这提醒我们，特征映射中的各个特征层可能对微小物体的识别都有独特的影响。该算法提出了一种多层评估模糊隶属度融合(FMDFusion)和一种可比竞争多层卷积(CMLConv)。CMLConv和FMDFusion的层映射如图所示。
这名字取得真离谱，难怪。。。
CMLConv的每个基本卷积单元的核心结构是一个模糊自组织层。在此基础上，我们在模糊自组织层和累积和x '之间增加了第二个分支作为权值存储空间。

全局特征由n个实数定义第k层的特征值由F k (i,j)根据坐标(i,j)定义。

在全局池化之后，我们增加了2个完全链接的层，以适当地捕获每层之间的连接，从而使TOD-CMLNN专注于贡献最大的层。添加Leaky ReLU层以确保架构是非线性的，并且每一层都具有与上层完全连接的点的确切数量。权重w’k作为最后一层的输出，由聚合对应的权重(w)接收。当网络中的订单模块(O)被此动作匹配时：
FMDFusion部分的基本布局与CMLConv部分相似，除了在另一个阶段为加数x生成相似大小的特征图，竞争采样过程用于收集主组件的输入。上文所述的CMLConv和FMDFusion与小区域检测部分使用的基本工作相同。根据等式(1)和(2)融合技术结合了多层次和多网络的特点，充分利用了图像的综合信息，提高了网络的表达能力。

TOD auxiliary

第二个模块称为TOD辅助，它通过显式建模其特征来最大化微小物体的特征。另一方面，高级特征映射通常具有广泛的接受域，无法专注于目标的细节，低级特征图可以用来增强对象的细节。因此，我们要考虑低级别的方面。在获得重要特征映射Pj后，我们使用相同的融合过程。我们采用两层CMLConv结构进行特征提取。计算过程如下:

式中(U*， Δ)表示对特征图进行竞争采样，Δ表示对多层特征融合操作进行竞争采样操作

我们使用以下协调的方法整合两个特征映射：

其中Conv表示在特征映射上执行的逐层卷积过程。参数δ i使用卷积层进行训练

为了有效地检索小目标的微小目标，我们在传统方法中模仿先前的信息，增强小区域的权重。现在，为了突出微小区域接收最终P融合的重要性，我们采用O i作为高级特征映射的上一级映射，利用从前几层接收到的先验知识，从小目标中提取微小目标。在此阶段，小区域的权重逐渐增加。Oi定义为由小区域生成的高级特征输出的特征映射，用于融合最终的Pfusion

Aggregation of multi-level features

第三个模块称为多级连续特征聚合模块。多层特征响应CMLConv是卷积层的基本构建块，要创建四个相应级别的特征映射，输入图片首先要经过四个级别的CMLConv层。在每个级别上，我们在3.1节中定义的CMLConv是特征融合模块。为TOD段创建的特征映射用Q i表示，然后使用Eq.(5)进行融合:
CMLNN使用卷积层和多层特征响应CMLConv作为主干的主要模型。我们的模型结合了来自CMLConv和FMDFusion的三个模块，每个模块都有自己的层，通过使用目标图像中的Qi将特征映射目标显示到每一层。
多特征融合的最终产物Zf如式(6)所示:

Implementation

Dataset

Algorithm

对于每个对象o，呈现给TOD-CMLNN进行识别

1.初始化参数r
2.用目标向量表示第r层的输入Tr=[0,1]
3.在数据集X上应用FLVQ，评估当前层的每个神经元i (i = 1，…，sr)的激活函数;
4.计算对象o与当前层神经元所表示的所有聚类的归属度（评估完成）
5.阈值调整实现最终的目标检测
6.多层次特征融合的最终聚合完成
7.Pfusion的TOD辅助模块
8.接收到的最终输出

Results

损失函数采用交叉熵和softmax
采用F1-score进行度量

Conclusion

本文采用自定义层和神经元的TOD-CMLNN，使找到训练算法的最优参数很容易。所提出的TOD-CMLNN的每一层都是一个FLVQ训练的竞争神经网络。基于生成的原型，评估每个输入对象在训练集中的隶属度。
在已知的基准数据集上的应用结果表明，所提出的TOD-CMLNN在微小目标检测任务中具有鲁棒性。结果还表明，为其训练算法找到最佳设置是多么简单。即使有了最近的进步，找到东西的能力也有了显著的提高，但在找到大的和小的东西的程度上仍然存在着显著的差异。在未来，可以使用其他标准算法和数据集来测试所开发算法对各种不同任务的鲁棒性，这些任务涉及微小物体的检测，以及图像字幕和视觉问题回答。

您可能感兴趣的与本文相关的镜像