中英文图片数据集需求文档

1. 项目背景

构建一个用于文本检测与识别(OCR)的英文图片数据集,覆盖手写与自然场景,提升模型在复杂场景、多角度、多载体下的泛化能力。


2. 数据集总体要求

2.1 数据内容

  • 图片内容必须包含中英文文本

  • 中英文图片数量一致

  • 文本需清晰可辨,同时包含一定难度样本(模糊、遮挡、倾斜等)

2.2 数据规模(建议)

  • 总量:≥ 10万张

  • 手写场景:30%–50%

  • 自然场景:50%–70%


3. 场景分类

3.1 手写场景(Handwritten)

包含以下三类:

  • 普通A4纸

  • 横格纸

  • 英文练习纸

要求:

  • 不同书写风格(工整/潦草)

  • 不同笔类型(黑笔、蓝笔、铅笔等)

  • 可包含涂改、划线、批注


3.2 自然场景(Natural Scene)

包含但不限于以下类别:

  • 商店牌匾

  • 海报

  • 路标

  • 提示语

  • 警示语

  • 包装说明

  • 菜单

  • 建筑物标志

要求:

  • 多种环境(室内/室外)

  • 多种光照(白天/夜晚/逆光)

  • 多种材质(纸张、金属、电子屏等)


4. 拍摄要求

4.1 拍摄角度

每类场景需覆盖以下角度:

  • 仰视

  • 俯视

  • 平视

4.2 图像质量

  • 分辨率 ≥ 720p(建议≥1080p)

  • 不允许严重过曝或全黑

  • 可包含轻微模糊、噪声(增强鲁棒性)


5. 数据格式规范

5.1 图片格式

  • 文件格式:.jpg

  • 编码:RGB

5.2 标注文件格式

  • 文件格式:.json

  • 编码:UTF-8

  • 每张图片对应一个JSON文件


6. 标注规范

6.1 基本结构

{
    "dataList": [
        {
            "id": 1,
            "shapeType": "parallelogram",
            "label": "Vertical_text/english",
            "coordinates": [[x1,y1],[x2,y2],[x3,y3],[x4,y4]],
            "properties": {
                "text": "example"
            }
        }
    ]
}

6.2 字段说明以及示例

字段类型说明
idint标注唯一ID
shapeTypestring形状类型,固定为 parallelogram
labelstring文本类型标签
coordinatesarray四点坐标(顺时针)
properties.textstring文本内容

6.3 标签定义

文本方向
  • Vertical_text:竖排文本

  • Non_vertical_text:非竖排文本(横排/倾斜)

文本类别
  • english:英文

  • chinese:中文(允许少量存在)

  • qita:其他(符号、数字等)

示例:

  • Vertical_text/english

  • Non_vertical_text/english


6.4 无坐标标注规则(新增要求)

当文本仅做识别任务,不需要检测位置时:

{
    "dataList": [
        {
            "id": 1,
            "shapeType": "parallelogram",
            "label": "Non_vertical_text/english",
            "properties": {
                "text": "Hello World"
            }
        }
    ]
}

规则:

  • 不包含 coordinates 字段

  • 其他字段保持一致

  • 适用于纯文本识别任务


7. 标注要求

7.1 文本标注

  • 必须逐字准确(区分大小写)

  • 保留标点符号

  • 不进行纠错(按图标注)

7.2 框选规范

  • 紧贴文字边界

  • 不包含多余背景

  • 倾斜文本需用四边形标注

7.3 特殊情况

情况处理方式
模糊文本可标注(若可辨认)
遮挡文本可标注可见部分
空文本框text = ""
多语言混合分开标注

8. 数据命名规范

8.1 图片命名

sceneType_subType_index.jpg

示例:

handwritten_A4_000001.jpg
natural_signboard_000123.jpg

8.2 标注文件命名

与图片同名:

handwritten_A4_000001.json

9. 质量验收标准

9.1 合格标准

  • 图片清晰可读

  • 标注完整

  • JSON格式合法

  • 坐标闭合正确

9.2 不合格数据

  • 无文本

  • 标注错位严重

  • 文本内容错误

  • 图片损坏


10. 数据交付结构

dataset/
├── images/
│   ├── handwritten/
│   ├── natural/
├── annotations/
│   ├── handwritten/
│   ├── natural/

11. 扩展建议(可选)

  • 增加难例(反光、低分辨率)

  • 增加跨语言(中英混排)

  • 增加极端角度(旋转>45°)


12. 总结

该数据集需覆盖:

  • 两大场景:手写 + 自然

  • 三种角度:仰视/俯视/平视

  • 两种标注模式:检测+识别 / 纯识别

重点保证:
多样性 + 标注准确性 + 场景真实性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

happydog007

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值