1. 环境准备与项目初始化
搞STR文字识别项目,第一步就是把开发环境搭好。我用的是一台RTX 3060显卡的Windows 10机器,CUDA版本11.6。这里有个小建议:如果你用Linux系统会更省心,Windows下有些依赖包容易出幺蛾子。
Python环境我推荐用Anaconda管理,创建独立环境能避免很多包冲突问题。执行下面这几条命令就能搞定基础环境:
conda create -n parseq python=3.10
conda activate parseq
安装PyTorch时要特别注意版本匹配。我踩过的坑是直接用conda安装会导致CUDA版本错乱,所以一定要用pip指定版本:
pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116
PARSeq的官方代码库在GitHub上,克隆下来后记得安装项目依赖。这里有个关键细节:先把requirements.txt里的torch和torchvision注释掉再安装,不然会覆盖我们刚才装好的版本:
git clone https://github.com/baudm/parseq.git
cd parseq
pip install -r requirements.txt
pip install -e .
2. 数据集准备与标注技巧
STR项目最耗时的环节就是数据准备。PARSeq支持LMDB格式的数据集,但原始数据需要整理成特定格式。每行数据包含图片路径和标签文本,用空格分隔,比如:
datasets/train/001.jpg 营业执照
datasets/train/002.jpg 京A12345

从零部署实战:自定义数据训练与ONNX C++推理全链路&spm=1001.2101.3001.5002&articleId=95101297&d=1&t=3&u=17d7d99dd6b345e6aa93ff85b7b29ea1)

被折叠的 条评论
为什么被折叠?



