CNN用于图像分类、目标检测、语义分割等方向;
RNN用于与时序相关的追踪等方向。
现代深度学习算法结构(引言)
在现代深度学习算法研究中, 通用的骨干网络(backbone)+特定任务头(head) 成为一种标准的设计模式。
背景:
- 图像分类算法是其他计算机视觉子任务的基础,目标检测与语义分割都会将问题逐步简化为图像分类问题;
- 因此图像分类的算法主体被迁移过来用作特征提取,称为骨干网络(backbone);
- 原本的图像分类算法也重新进行了划分:全连接层之前的一系列卷积层+池化层即 backbone ,全连接层+softmax即图像分类的 head 。
详细的backbone与head介绍将在下文各类CNN介绍后展开。
常用数据集
模型训练依赖于已经打好标签的数据集作为loss计算的依据以及模型验证,目前主流的开放数据集有如下三类。
ImageNet与ILSVRC
ImageNet:ImageNet是一个超过15 million的图像数据集,大约有22,000类。
ILSVRC:全称ImageNet Large-Scale Visual Recognition Challenge,从2010年开始举办到2017年最后一届,使用ImageNet数据集的一个子集,总共有1000类;
ILSVRC是图像分类领域最具影响力的竞赛,诞生了绝大多数的图像分类算法。
算法研究中常用ILSVRC竞赛数据集来训练模型并验证模型效果,ILSVRC竞赛数据集面向图像分类+目标检测,其输入大小为224*224,深度为3。各年的ILSVRC竞赛所使用的数据集如下:
| 年份 |
图像分类数据集 |
|---|

文章介绍了深度学习中CNN常用于图像分类、目标检测、语义分割,RNN适用于时序追踪。现代深度学习算法采用backbone+head架构,ImageNet和ILSVRC是图像分类的重要数据集,PASCALVOC针对目标检测和语义分割,而MSCOCO则多面向。此外,还提到了多个语义分割和自动驾驶相关的数据集。

1274

被折叠的 条评论
为什么被折叠?



