OpenMMLab实训营二期第一节笔记

最新推荐文章于 2026-06-22 17:43:33 发布

原创

最新推荐文章于 2026-06-22 17:43:33 发布 · 938 阅读

标签

#笔记 #人工智能 #深度学习

OpenMMLab是一个涵盖广泛深度学习视觉算法的开源平台，包括图像分类、物体检测、3D检测、语义分割等多个领域，拥有众多预训练模型和算法，如MMClassification、MMDetection等，便于研究和产业应用。平台还提供算法部署工具MMDeploy，方便将模型部署到不同硬件平台。

OpenMMLab是深度学习视觉算法开源平台，是目前最大最全的开源深度学习视觉算法库，为学术和产业界提供一个可跨方向、结构精良、易复现的统一算法工具库。与NLP领域的HuggingFace类似，我们可以将OpenMMLab理解为CV领域的HuggingFace。
OpenMMLab 已经累计开源了超过 30 个算法库，涵盖分类、检测、分割、视频理解等众多研究领域，拥有超过 300 种算法、2,400 多个预训练模型。在 GitHub 上获得超过 72,000 个标星，同时吸引了超过 1,500 名社区开发者参与项目贡献，用户遍及超过 110 个国家和地区，覆盖全国全球顶尖高校、研究机构和企业。

图像分类

图像分类的名字是MMClassification，但是实际的项目是MMPretrain，可以实现图像分类、图像描述、视觉问答、视觉定位、图像检索（ReID）等功能，收录77个算法共508个预训练模型。典型的算法有：ResNet、EfficientNet、ViT、Swin-Transformer、ConvNeXt等。实际上，在这个项目里，还包括现在比较火热的自监督学习MMSelfsup项目的内容。

物体检测

物体检测分为2D目标检测、3D目标检测、旋转目标检测。

2D物体检测

目前有两个独立的子项目：MMDetection、MMYolo。MMDetection推出效早，实现的算法较丰富，但是至少对Yolo系列算法而言，比较老旧。MMYolo推出较新，仅支持Yolo系列。对于初学者来说，不是太好选择。以我为例，我最终选择了MMYolo中的RTMDet来做目标检测和实例分割。