PyTorch实战：用RNN模型搞定IMDB情感分析（附完整代码）

最新推荐文章于 2026-06-23 15:43:30 发布

原创

最新推荐文章于 2026-06-23 15:43:30 发布 · 764 阅读

标签

#PyTorch #RNN #情感分析 #IMDB

PyTorch实战：用RNN模型搞定IMDB情感分析（附完整代码）

情感分析是自然语言处理中最基础也最实用的任务之一。想象一下，你刚开发了一款新产品，用户在各种平台留下了海量评论——如何快速判断这些评价是正面还是负面？传统人工阅读显然不现实，而循环神经网络(RNN)正是解决这类时序文本分类问题的利器。本文将手把手带你用PyTorch实现一个端到端的RNN情感分析模型，从数据预处理到模型部署，每个环节都配有可运行的代码片段。无论你是刚接触PyTorch的新手，还是需要快速实现情感分析功能的工程师，都能在90分钟内完成首个可用的生产级模型。

1. 环境准备与数据加载

工欲善其事，必先利其器。我们首先配置实验环境并理解数据集特性：

# 创建虚拟环境（推荐）
conda create -n pytorch_rnn python=3.8
conda activate pytorch_rnn
pip install torch torchtext spacy
python -m spacy download en_core_web_sm

IMDB数据集包含5万条标注了情感倾向的电影评论，其中训练集和测试集各2.5万条。每条评论被标记为"positive"(1)或"negative"(0)。这个数据集有三大特点：

长度不均：评论长度从20词到2000词不等
噪声较多：包含HTML标签、特殊符号等非文本内容
词汇丰富：包含俚语、缩写等非规范表达

使用torchtext加载数据时，我们需要特别注意文本标准化处理：

import torch
from torchtext.legacy import data
from torchtext.legacy.datasets import IMDB

# 定义预处理管道
TEXT = data.Field(
    tokenize='spacy',  # 使用spacy分词器
    lower=True,        # 转为小写
    include_lengths=True  # 保留文本原始长度
)
LABEL = data.LabelField(dtype=torch.float)

# 加载并自动分割数据集
train_data, test_data = IMDB.splits(TEXT, LABEL)

# 构建词汇表（只保留前20000高频词）
TEXT.build_vocab(train_data, max_size=20000)
LABEL.build_vocab(train_data)

print(f"训练集样本数: {len(train_data)}")
print(f"测试集样本数: {len(test_data)}")
print(f"词汇表大小: {len(TEXT.vocab)}")

提示：设置include_lengths=True后，文本张量会返回一个包含(文本,长度)的元组，这对后续处理变长序列非常关键。

2. 构建高效数据管道

原始文本需要转换为适合模型处理的数值形式。我们使用BucketIterator实现三项关键优化：

动态填充：将长度相似的样本分到同一批次，减少填充token数量
内存优化：自动将数据转移到GPU（如可用）
乱序增强：每epoch自动打乱训练数据顺序

from torchtext.legacy.data import BucketIterator

# 设置批量大小和设备
BATCH_SIZE = 64
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 创建迭代器
train_iterator, test_iterator = BucketIterator.splits(
    (train_data, test_data),
    batch_size=BATCH_SIZE,
    sort_key=lambda x: len(x.text),  # 按文本长度排序
    sort_wi

最低0.47元/天解锁文章