1. 项目背景
构建一个用于文本检测与识别(OCR)的英文图片数据集,覆盖手写与自然场景,提升模型在复杂场景、多角度、多载体下的泛化能力。
2. 数据集总体要求
2.1 数据内容
-
图片内容必须包含中英文文本
-
中英文图片数量一致
-
文本需清晰可辨,同时包含一定难度样本(模糊、遮挡、倾斜等)
2.2 数据规模(建议)
-
总量:≥ 10万张
-
手写场景:30%–50%
-
自然场景:50%–70%
3. 场景分类
3.1 手写场景(Handwritten)
包含以下三类:
-
普通A4纸
-
横格纸
-
英文练习纸
要求:
-
不同书写风格(工整/潦草)
-
不同笔类型(黑笔、蓝笔、铅笔等)
-
可包含涂改、划线、批注
3.2 自然场景(Natural Scene)
包含但不限于以下类别:
-
商店牌匾
-
海报
-
路标
-
提示语
-
警示语
-
包装说明
-
菜单
-
建筑物标志
要求:
-
多种环境(室内/室外)
-
多种光照(白天/夜晚/逆光)
-
多种材质(纸张、金属、电子屏等)
4. 拍摄要求
4.1 拍摄角度
每类场景需覆盖以下角度:
-
仰视
-
俯视
-
平视
4.2 图像质量
-
分辨率 ≥ 720p(建议≥1080p)
-
不允许严重过曝或全黑
-
可包含轻微模糊、噪声(增强鲁棒性)
5. 数据格式规范
5.1 图片格式
-
文件格式:
.jpg -
编码:RGB
5.2 标注文件格式
-
文件格式:
.json -
编码:UTF-8
-
每张图片对应一个JSON文件
6. 标注规范
6.1 基本结构
{
"dataList": [
{
"id": 1,
"shapeType": "parallelogram",
"label": "Vertical_text/english",
"coordinates": [[x1,y1],[x2,y2],[x3,y3],[x4,y4]],
"properties": {
"text": "example"
}
}
]
}
6.2 字段说明以及示例
| 字段 | 类型 | 说明 |
|---|---|---|
| id | int | 标注唯一ID |
| shapeType | string | 形状类型,固定为 parallelogram |
| label | string | 文本类型标签 |
| coordinates | array | 四点坐标(顺时针) |
| properties.text | string | 文本内容 |
6.3 标签定义
文本方向
-
Vertical_text:竖排文本
-
Non_vertical_text:非竖排文本(横排/倾斜)
文本类别
-
english:英文
-
chinese:中文(允许少量存在)
-
qita:其他(符号、数字等)
示例:
-
Vertical_text/english
-
Non_vertical_text/english
6.4 无坐标标注规则(新增要求)
当文本仅做识别任务,不需要检测位置时:
{
"dataList": [
{
"id": 1,
"shapeType": "parallelogram",
"label": "Non_vertical_text/english",
"properties": {
"text": "Hello World"
}
}
]
}
规则:
-
不包含 coordinates 字段
-
其他字段保持一致
-
适用于纯文本识别任务
7. 标注要求
7.1 文本标注
-
必须逐字准确(区分大小写)
-
保留标点符号
-
不进行纠错(按图标注)
7.2 框选规范
-
紧贴文字边界
-
不包含多余背景
-
倾斜文本需用四边形标注
7.3 特殊情况
| 情况 | 处理方式 |
|---|---|
| 模糊文本 | 可标注(若可辨认) |
| 遮挡文本 | 可标注可见部分 |
| 空文本框 | text = "" |
| 多语言混合 | 分开标注 |
8. 数据命名规范
8.1 图片命名
sceneType_subType_index.jpg
示例:
handwritten_A4_000001.jpg
natural_signboard_000123.jpg
8.2 标注文件命名
与图片同名:
handwritten_A4_000001.json
9. 质量验收标准
9.1 合格标准
-
图片清晰可读
-
标注完整
-
JSON格式合法
-
坐标闭合正确
9.2 不合格数据
-
无文本
-
标注错位严重
-
文本内容错误
-
图片损坏
10. 数据交付结构
dataset/
├── images/
│ ├── handwritten/
│ ├── natural/
├── annotations/
│ ├── handwritten/
│ ├── natural/
11. 扩展建议(可选)
-
增加难例(反光、低分辨率)
-
增加跨语言(中英混排)
-
增加极端角度(旋转>45°)
12. 总结
该数据集需覆盖:
-
两大场景:手写 + 自然
-
三种角度:仰视/俯视/平视
-
两种标注模式:检测+识别 / 纯识别
重点保证:
多样性 + 标注准确性 + 场景真实性

878

被折叠的 条评论
为什么被折叠?



