Flowers-Recognition花卉识别系统：基于PyTorch的完整实现

原创已于 2025-06-21 19:10:52 修改 · 1.6k 阅读

30 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#pytorch #人工智能 #python

于 2025-06-21 02:56:21 首次发布

该文章已生成可运行项目，

引言

在本文中，我们将详细介绍如何使用PyTorch框架构建一个完整的花卉识别系统。该系统基于ResNet18预训练模型，通过迁移学习实现对五种不同花卉的高精度分类。我们将从数据预处理、模型构建、训练优化到结果评估，全面讲解每个环节的实现细节。

一、项目概述

花卉识别是计算机视觉中的经典分类问题。本项目使用Kaggle上的Flowers Recognition数据集，包含5类花卉（雏菊、蒲公英、玫瑰、向日葵、郁金香）的4242张图像。我们将构建一个深度学习模型来自动识别这些花卉种类。

二、环境配置与数据准备

2.1首先需要安装必要的Python库

!pip install torch torchvision torchviz numpy pandas matplotlib seaborn scikit-learn tqdm

2.2 再导入必要的库

我们需要导入深度学习、数据处理和可视化相关的 Python 库：

import os
import numpy as np
import torch
import torchvision
from torchvision import datasets, transforms, models
from torch.utils.data import DataLoader, random_split
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import pandas as pd
from tqdm import tqdm
import time
import copy

• torch 和 torchvision：PyTorch 核心库，用于构建和训练深度学习模型。
• datasets 和 transforms：用于加载和预处理图像数据。
• DataLoader：提供批量数据加载功能，优化训练效率。
• matplotlib 和 seaborn：用于可视化训练过程和模型性能。
• sklearn.metrics：计算分类报告和混淆矩阵，评估模型表现。
• tqdm：显示训练进度条，提升用户体验。

2.2 设备检测（GPU/CPU）

深度学习模型训练通常依赖 GPU 加速。我们可以使用以下代码检测是否有可用的 CUDA（NVIDIA GPU）设备：

# 检查是否有可用的GPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

• 如果输出 cuda:0，说明 GPU 可用，训练速度会大幅提升。
• 如果输出 cpu，则只能使用 CPU 进行训练（速度较慢）。

2.3 数据集路径设置

本实验使用的数据集是 Flowers Recognition（可从 Kaggle 下载），代码中指定数据存储路径如下：

data_dir = '/kaggle/input/flowers-recognition/flowers'

三、数据分析与数据集划分

3.1 数据集划分（训练集、验证集、测试集）

通常，我们会将数据集划分为 训练集（70%）、验证集（15%） 和 测试集（15%），以确保模型训练和评估的可靠性。

输出示例：

注意事项：

• 训练集用于模型训练。
• 验证集用于调整超参数（如学习率、Batch Size）。
• 测试集仅用于最终评估，不能参与训练过程，以确保评估的公正性。

3.2 原始数据集的类别分布分析

在开始训练之前，我们需要了解数据集的类别分布情况，以确保数据均衡性，避免模型训练时出现偏差。

输出示例：

• 柱状图展示各类别的样本数量分布。
• 控制台打印显示每个类别的具体图像数量，例如：

Class Distribution: daisy: 633 images dandelion: 898 images rose: 641 images
sunflower: 699 images tulip: 799 images

分析：

• 各类别样本数量大致接近，但仍存在一定差异（如 dandelion 最多，rose 最少）。
• 若某些类别样本过少，可考虑数据增强（Data Augmentation）来平衡数据。

四、数据预处理与增强

4.1 数据增强策略

在深度学习中，数据预处理和增强是提升模型泛化能力的关键步骤。我们针对训练集、验证集和测试集分别设计了不同的处理流程

关键点解析：

• 训练集增强：通过多种随机变换增加数据多样性，防止过拟合。
• 验证/测试集处理：仅进行必要的尺寸调整和标准化，保持评估一致性。
• 标准化参数：使用ImageNet的均值和标准差，这是预训练模型的通用做法。

4.2 数据集划分与加载

我们采用7:1.5:1.5的比例划分训练集、验证集和测试集：

执行结果示例：

技术细节说明：

随机种子固定：manual_seed(42)确保每次划分结果一致。
数据加载优化：
- shuffle=True仅用于训练集。
- num_workers=4加速数据加载。
内存效率：通过DataLoader实现批量加载，避免内存溢出。

4.3 数据可视化示例

让我们查看经过增强后的训练图像样本：

观察结论：

• 图像经过随机裁剪、翻转等变换。
• 色彩调整增加了样本多样性。
• 不同样本保持清晰的类别特征。

五、数据可视化与增强效果展示

5.1 数据可视化实现

为了直观理解数据增强的效果，我们实现了图像可视化函数：

关键步骤解析：

1. 张量转换：将PyTorch张量转为NumPy数组，并调整通道顺序（C,H,W → H,W,C）。
2. 反标准化：还原图像到原始色彩范围。
3. 像素裁剪：确保像素值在[0,1]范围内。
4. 交互显示：plt.pause()保证图像窗口能正常更新。

5.2 训练数据增强效果展示

我们随机选取一个批次的训练数据进行可视化：

输出示例：

增强效果分析：

空间变换：
- 随机裁剪使花朵出现在不同位置。
- 水平翻转产生镜像图像。
- ±30度旋转增加视角多样性。
色彩变换：
- 亮度调整模拟不同光照条件。
- 饱和度变化增强色彩鲁棒性。
- 色相微调模拟白平衡差异。
标准化效果：
- 所有图像保持相似的色彩分布。
- 细节特征清晰可见。

5.3 不同数据集的预处理对比

我们可以对比训练集和验证集的预处理差异：

5.4 实际应用建议

增强强度选择：

对于小数据集（<10k样本），建议使用更强的增强。
大数据集可适当减少增强幅度。

2. 调试技巧：

3. 注意事项：

验证/测试集禁止使用随机增强。
工业场景中可根据业务需求定制增强策略。
监控GPU显存使用，过大batch_size可能导致OOM。

六、模型构建与训练准备

6.1 加载预训练ResNet模型

6.2 修改输出层

6.3 训练配置

关键点说明：

迁移学习：利用预训练特征提取器，仅训练最后的分类层。
优化范围：model.fc.parameters()确保只更新全连接层。
学习率衰减：阶梯式下降策略防止后期震荡。

七、模型结构可视化

关键说明：

使用torchviz可视化模型计算图。
展示从输入到输出的完整数据流。
保存为PNG图片便于博客展示。

输出效果：

八、模型训练实现

关键功能：

双阶段训练：交替进行训练和验证。
自动保存：保留验证集表现最好的模型权重。
完整记录：跟踪损失和准确率变化历史。
进度显示：使用tqdm显示训练进度条。

九、执行模型训练

关键参数说明：

num_epochs=15：平衡训练效率和模型性能。
自动保存验证集最佳准确率的模型权重。
每轮输出训练/验证集的损失和准确率。

十、超参数调优实验

关键发现：

Adam优化器表现普遍优于SGD。
学习率0.001达到最佳平衡。
实验耗时约15分钟（RTX 3060）。

十一、训练过程可视化

结果示例：

图表分析：

损失曲线（左图）：
- 训练/验证损失同步下降 → 模型正常收敛。
- 未出现明显过拟合（两条曲线间距稳定）。
准确率曲线（右图）：
- 最终验证准确率稳定在92%左右。
- 训练后期仍有小幅提升空间。

典型问题诊断：

若验证损失上升 → 可能过拟合（需增加正则化）。
若两条曲线差距大 → 可能欠拟合（需增强模型能力）。

十二、Batch Size与Epoch调优实验

结果示例（仅一小段）：

实验结果对比表：

关键结论：

1. Batch Size影响：
◦ 32 batch size取得最佳平衡
◦ 过小(16)导致训练慢，过大(64)降低准确率
2. Epochs影响：
◦ 15-20 epochs达到性能饱和
◦ 继续增加epochs收益递减

十三、模型预测可视化

执行预测可视化：

输出效果示例：

输出效果说明：

每张图像上方显示预测结果和真实标签。
绿色标题表示预测正确，红色表示预测错误。
网格布局展示6个典型样本的预测情况。

扩展分析技巧：

错误分析专用模式：
置信度显示增强版：

（该可视化帮助直观评估模型在各类别上的表现，特别适合发现系统性识别错误的类别。）

十四、模型保存与部署

模型保存