中英文图片数据集需求文档

最新推荐文章于 2026-06-21 22:01:11 发布

原创最新推荐文章于 2026-06-21 22:01:11 发布 · 386 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

1. 项目背景

构建一个用于文本检测与识别（OCR）的英文图片数据集，覆盖手写与自然场景，提升模型在复杂场景、多角度、多载体下的泛化能力。

2. 数据集总体要求

2.1 数据内容

图片内容必须包含中英文文本
中英文图片数量一致
文本需清晰可辨，同时包含一定难度样本（模糊、遮挡、倾斜等）

2.2 数据规模（建议）

总量：≥ 10万张
手写场景：30%–50%
自然场景：50%–70%

3. 场景分类

3.1 手写场景（Handwritten）

包含以下三类：

普通A4纸
横格纸
英文练习纸

要求：

不同书写风格（工整/潦草）
不同笔类型（黑笔、蓝笔、铅笔等）
可包含涂改、划线、批注

3.2 自然场景（Natural Scene）

包含但不限于以下类别：

商店牌匾
海报
路标
提示语
警示语
包装说明
菜单
建筑物标志

要求：

多种环境（室内/室外）
多种光照（白天/夜晚/逆光）
多种材质（纸张、金属、电子屏等）

4. 拍摄要求

4.1 拍摄角度

每类场景需覆盖以下角度：

仰视
俯视
平视

4.2 图像质量

分辨率 ≥ 720p（建议≥1080p）
不允许严重过曝或全黑
可包含轻微模糊、噪声（增强鲁棒性）

5. 数据格式规范

5.1 图片格式

文件格式：.jpg
编码：RGB

5.2 标注文件格式

文件格式：.json
编码：UTF-8
每张图片对应一个JSON文件

6. 标注规范

6.1 基本结构

{
    "dataList": [
        {
            "id": 1,
            "shapeType": "parallelogram",
            "label": "Vertical_text/english",
            "coordinates": [[x1,y1],[x2,y2],[x3,y3],[x4,y4]],
            "properties": {
                "text": "example"
            }
        }
    ]
}

6.2 字段说明以及示例

字段	类型	说明
id	int	标注唯一ID
shapeType	string	形状类型，固定为 parallelogram
label	string	文本类型标签
coordinates	array	四点坐标（顺时针）
properties.text	string	文本内容

6.3 标签定义

文本方向

Vertical_text：竖排文本
Non_vertical_text：非竖排文本（横排/倾斜）

文本类别

english：英文
chinese：中文（允许少量存在）
qita：其他（符号、数字等）

示例：

Vertical_text/english
Non_vertical_text/english

6.4 无坐标标注规则（新增要求）

当文本仅做识别任务，不需要检测位置时：

{
    "dataList": [
        {
            "id": 1,
            "shapeType": "parallelogram",
            "label": "Non_vertical_text/english",
            "properties": {
                "text": "Hello World"
            }
        }
    ]
}

规则：

不包含 coordinates 字段
其他字段保持一致
适用于纯文本识别任务

7. 标注要求

7.1 文本标注

必须逐字准确（区分大小写）
保留标点符号
不进行纠错（按图标注）

7.2 框选规范

紧贴文字边界
不包含多余背景
倾斜文本需用四边形标注

7.3 特殊情况

情况	处理方式
模糊文本	可标注（若可辨认）
遮挡文本	可标注可见部分
空文本框	text = ""
多语言混合	分开标注

8. 数据命名规范

8.1 图片命名

sceneType_subType_index.jpg

示例：

handwritten_A4_000001.jpg
natural_signboard_000123.jpg

8.2 标注文件命名

与图片同名：

handwritten_A4_000001.json

9. 质量验收标准

9.1 合格标准

图片清晰可读
标注完整
JSON格式合法
坐标闭合正确

9.2 不合格数据

无文本
标注错位严重
文本内容错误
图片损坏

10. 数据交付结构

dataset/
├── images/
│   ├── handwritten/
│   ├── natural/
├── annotations/
│   ├── handwritten/
│   ├── natural/

11. 扩展建议（可选）

增加难例（反光、低分辨率）
增加跨语言（中英混排）
增加极端角度（旋转>45°）

12. 总结

该数据集需覆盖：

两大场景：手写 + 自然
三种角度：仰视/俯视/平视
两种标注模式：检测+识别 / 纯识别

重点保证：
多样性 + 标注准确性 + 场景真实性