腾讯混元开源 HunyuanOCR:仅 1B 参数碾压 235B 大模型,四大基准 SOTA,端到端搞定文字检测/文档解析/信息抽取/视频字幕/拍照翻译!
💡 腾讯混元出品,1B 参数 OCR 专家 VLM,四大基准全线第一:文本检测 70.92%(超 Seed-1.6-Vision 11 分)、文档解析 Edit Distance 0.042(超 PaddleOCR-VL / MinerU2.5 / dots.ocr)、信息抽取 92.29%(超 Gemini-2.5-Pro 12 分)、拍照翻译对标 Qwen3-VL-235B。6 大任务一个模型全搞定,20GB 显存即可部署,vLLM 一行命令启动。

📌 目录
- 1. HunyuanOCR 是什么?
- 2. 四大核心能力
- 3. 性能炸裂:四大基准 SOTA
- 4. 快速上手部署
- 5. 六大任务 Prompt 指南
- 6. 竞品对比
- 7. 学术成果与生态
- 8. 适用场景与优缺点
- 9. 总结与推荐
1. HunyuanOCR 是什么?
HunyuanOCR 是腾讯混元(Tencent Hunyuan)出品的端到端 OCR 专家 VLM,基于混元原生多模态架构打造。
- 🔗 项目地址:https://github.com/Tencent-Hunyuan/HunyuanOCR
- 🤗 模型下载:https://huggingface.co/tencent/HunyuanOCR
- 📄 技术报告:arXiv:2511.19575
- 🎯 在线 Demo:https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
- 🏢 出品:腾讯混元 Hunyuan Vision Team
- 📐 参数量:1B(仅 10 亿参数!)
- 🌏 语言支持:100+ 种语言
一句话总结
HunyuanOCR = 腾讯混元出品端到端 OCR 专家 VLM
= 仅 1B 参数,四大基准全线 SOTA
= 1 个模型搞定 6 大任务
= 文字检测 + 文档解析 + 信息抽取 + 视频字幕 + 拍照翻译 + 文档 QA
= 20GB 显存部署,vLLM 一行启动
= 支持 100+ 语言,单语/混语均出色
= CVPR 2026 主会论文 × 2
= ICDAR2025 翻译赛小模型赛道冠军
= 端到端 vs 传统级联方案,一步到位
为什么 1B 能碾压 235B?
通用 VLM 的问题:
❌ 啥都能干,但 OCR 不精
❌ 级联方案(检测→识别→后处理),误差累积
❌ 大模型参数多但 OCR 专项训练不足
HunyuanOCR 的解法:
✅ OCR 专家训练,数据质量和任务聚焦
✅ 端到端推理,一步到位,无级联误差
✅ 混元原生多模态架构 + 专项训练策略
✅ 1B 轻量部署,20GB 显存即跑
结果:
1B HunyuanOCR > 235B Qwen3-VL(文档解析/信息抽取)
1B HunyuanOCR ≈ 235B Qwen3-VL(拍照翻译)
2. 四大核心能力
💪 能力一:文字检测识别(Text Spotting)
功能:输出图片中所有文字内容及行级坐标
覆盖 10 大场景:
📄 文档 · 🎨 艺术字 · 🏙️ 街景 · ✍️ 手写
📢 广告 · 🧾 发票 · 📱 截图 · 🎮 游戏 · 🎬 视频
性能:Overall 70.92%,全场景最优
- 游戏:73.54%(超 Seed-1.6-Vision 14分)
- 手写:77.10%(超 Qwen3-VL-235B 8分)
- 广告:75.34%(超 Seed-1.6-Vision 9分)
- 截图:76.58%(超 BaiduOCR 8分)
- 视频:77.31%(超 BaiduOCR 10分)
📑 能力二:复杂文档解析(Document Parsing)
功能:多语言文档数字化
- 文字按阅读顺序组织 → Markdown 格式
- 公式 → LaTeX 格式
- 表格 → HTML 格式
- 流程图 → Mermaid 格式
- 其他图表 → Markdown 格式
- 古文/古籍识别(七体汉字演进轨迹)
性能:OmniDocBench Overall 94.10%(全场最高)
- 文本 Edit Distance: 0.042(最低,最准)
- 公式: 94.73%(超 Qwen3-VL-235B 6.6分)
- 表格: 91.81%(超 PaddleOCR-VL 1分)
- Wild-OmniDocBench: 85.21%(超第二名 6分)
- DocML 多语言: 91.03%(超第二名 9分)
🔍 能力三:开放域信息抽取(Information Extraction)
功能:从证件/发票/卡片中提取结构化字段
- 支持自定义 Key(如"单价""发票号码"等)
- JSON 格式输出,直接对接后端
- 并行提取多个字段
性能:卡片 92.29% / 发票 92.53% / 视频字幕 92.87%
- 卡片:超 Gemini-2.5-Pro 12分
- 发票:超 Gemini-2.5-Pro 12分
- 视频字幕:超 Seed-1.6-Vision 32分!
🌏 能力四:拍照翻译(Photo Translation)
功能:端到端拍照翻译
- 图片 → 提取文字 → 翻译 → 一步完成
- 支持 14 种常用小语种 → 中文/英文
- 德语/西班牙语/土耳其语/意大利语/俄语
- 法语/葡萄牙语/阿拉伯语/泰语/越南语
- 印尼语/马来语/日语/韩语
- 中英互译
性能:1B 参数对标 235B
- Other2En: 73.38%(vs Qwen3-VL-235B 73.67%)
- Other2Zh: 73.62%(vs Qwen3-VL-235B 77.20%)
- DoTA en2zh: 83.48%(超 Qwen3-VL-235B 80.01%)
🏆 ICDAR2025 文档端到端翻译赛小模型赛道冠军
🎬 附加能力:视频字幕提取
功能:自动提取视频字幕,包括双语字幕
性能:92.87%(远超第二名 Seed-1.6-Vision 60.45%)
→ 视频字幕是 HunyuanOCR 最强单项之一
→ 超第二名 32 分!断层式领先
3. 性能炸裂:四大基准 SOTA
基准一:文本检测(In-house Benchmark)
| 模型类型 | 方法 | Overall | 文档 | 游戏 | 手写 | 广告 | 截图 | 视频 |
|---|---|---|---|---|---|---|---|---|
| 传统方法 | PaddleOCR | 53.38 | 70.23 | 51.59 | 56.39 | 57.38 | 63.38 | 53.35 |
| 传统方法 | BaiduOCR | 61.90 | 78.95 | 59.24 | 59.06 | 66.70 | 68.18 | 67.38 |
| 通用VLM | Qwen3-VL-235B | 53.62 | 43.78 | 48.00 | 68.90 | 64.01 | 45.91 | 63.79 |
| 通用VLM | Seed-1.6-Vision | 59.23 | 55.04 | 59.68 | 67.46 | 65.99 | 59.85 | 70.33 |
| OCR专家 | HunyuanOCR | 70.92 | 73.63 | 73.54 | 77.10 | 75.34 | 76.58 | 77.31 |
→ Overall 领先第二名 9.02 分(BaiduOCR)
→ 游戏场景超 Seed-1.6-Vision 14 分
→ 手写场景超 Qwen3-VL-235B 8 分
→ 10 个场景中 8 个最优
基准二:文档解析(OmniDocBench + Wild-OmniDocBench,Edit Distance 越低越好)
| 模型类型 | 方法 | 参数 | OmniDoc Overall | Wild Overall | DocML |
|---|---|---|---|---|---|
| 通用VLM | Gemini-2.5-Pro | - | 88.03 | 80.59 | 82.64 |
| 通用VLM | Qwen3-VL-235B | 235B | 89.15 | 79.69 | 81.40 |
| 模块化 | MonkeyOCR-pro-3B | 3B | 88.85 | 70.00 | 56.50 |
| 模块化 | MinerU2.5 | 1.2B | 90.67 | 70.91 | 52.05 |
| 模块化 | PaddleOCR-VL | 0.9B | 92.86 | 72.19 | 57.42 |
| 端到端 | DeepSeek-OCR | 3B | 87.01 | 74.23 | 57.22 |
| 端到端 | dots.ocr | 3B | 88.41 | 78.01 | 77.50 |
| 端到端 | HunyuanOCR | 1B | 94.10 | 85.21 | 91.03 |
→ OmniDocBench: 94.10%,超 PaddleOCR-VL 1.24 分
→ Edit Distance 0.042,全场最低(最准确)
→ 公式 94.73%,超 Qwen3-VL-235B 6.6 分
→ Wild-OmniDocBench: 85.21%,超第二名 6 分
→ DocML: 91.03%,超第二名 9 分
→ 1B 参数 > 3B/235B 模型!
基准三:信息抽取 + OCRBench
| 模型 | 卡片 | 发票 | 视频字幕 | OCRBench |
|---|---|---|---|---|
| DeepSeek-OCR | 10.04 | 40.54 | 5.41 | 430 |
| Qwen3-VL-2B | 67.62 | 64.62 | 3.75 | 858 |
| Seed-1.6-Vision | 70.12 | 67.50 | 60.45 | 881 |
| Qwen3-VL-235B | 75.59 | 78.40 | 50.74 | 920 |
| Gemini-2.5-Pro | 80.59 | 80.66 | 53.65 | 872 |
| HunyuanOCR | 92.29 | 92.53 | 92.87 | 860 |
→ 卡片:92.29%,超 Gemini-2.5-Pro 11.7 分
→ 发票:92.53%,超 Gemini-2.5-Pro 11.87 分
→ 视频字幕:92.87%,超 Seed-1.6-Vision 32 分(断层!)
→ OCRBench: 860(与 Qwen3-VL-235B 920 有差距,但兼顾专项更优)
基准四:拍照翻译
| 方法 | 参数 | Other2En | Other2Zh | DoTA en2zh |
|---|---|---|---|---|
| Gemini-2.5-Flash | - | 79.26 | 80.06 | 85.60 |
| Qwen3-VL-235B | 235B | 73.67 | 77.20 | 80.01 |
| Qwen3-VL-2B | 2B | 66.30 | 66.77 | 73.49 |
| PP-DocTranslation | - | 52.63 | 52.43 | 82.09 |
| HunyuanOCR | 1B | 73.38 | 73.62 | 83.48 |
→ 1B 参数 ≈ 235B Qwen3-VL(Other2En 仅差 0.29 分)
→ DoTA en2zh: 83.48%,超 Qwen3-VL-235B 3.47 分
→ ICDAR2025 翻译赛小模型赛道冠军 🏆
4. 快速上手部署
系统要求
🖥️ OS: Linux
🐍 Python: 3.12+
⚡ CUDA: 12.9
🔥 PyTorch: 2.7.1
🎮 GPU: NVIDIA GPU(CUDA 支持)
🧠 显存: 20GB(vLLM 推理)
💾 磁盘: 6GB
方式一:vLLM 部署(⭐ 推荐)
# 安装依赖
pip install vllm>=0.12.0
pip install -r requirements.txt
# 可选:安装 CUDA 兼容库
sudo dpkg -i cuda-compat-12-9_575.57.08-0ubuntu1_amd64.deb
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.9/compat:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
一键启动服务:
vllm serve tencent/HunyuanOCR \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0 \
--gpu-memory-utilization 0.2
推理代码:
from vllm import LLM, SamplingParams
from PIL import Image
from transformers import AutoProcessor
def clean_repeated_substrings(text):
"""清理重复子串(vLLM 推理已知问题)"""
n = len(text)
if n < 8000:
return text
for length in range(2, n // 10 + 1):
candidate = text[-length:]
count = 0
i = n - length
while i >= 0 and text[i:i + length] == candidate:
count += 1
i -= length
if count >= 10:
return text[:n - length * (count - 1)]
return text
# 加载模型
model_path = "tencent/HunyuanOCR"
llm = LLM(model=model_path, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_path)
sampling_params = SamplingParams(temperature=0, max_tokens=16384)
# 构造输入
img_path = "/path/to/image.jpg"
img = Image.open(img_path)
messages = [
{"role": "system", "content": ""},
{"role": "user", "content": [
{"type": "image", "image": img_path},
{"type": "text", "text": "检测并识别图片中的文字,将文本坐标格式化输出。"}
]}
]
prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = {"prompt": prompt, "multi_modal_data": {"image": [img]}}
# 推理
output = llm.generate([inputs], sampling_params)[0]
print(clean_repeated_substrings(output.outputs[0].text))
或使用官方脚本:
cd Hunyuan-OCR-master/Hunyuan-OCR-vllm && python run_hy_ocr.py
方式二:Transformers 部署
pip install git+https://github.com/huggingface/transformers@82a06db03535c49aa987719ed0746a76093b1ec4
⚠️ 注意:当前 Transformers 推理精度比 vLLM 稍低,官方正在修复中
from transformers import AutoProcessor, HunYuanVLForConditionalGeneration
from PIL import Image
import torch
model_name_or_path = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_name_or_path, use_fast=False)
img_path = "path/to/your/image.jpg"
image_inputs = Image.open(img_path)
messages = [
{"role": "system", "content": ""},
{"role": "user", "content": [
{"type": "image", "image": img_path},
{"type": "text", "text": "检测并识别图片中的文字,将文本坐标格式化输出。"}
]}
]
texts = [processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)]
inputs = processor(text=texts, images=image_inputs, padding=True, return_tensors="pt")
model = HunYuanVLForConditionalGeneration.from_pretrained(
model_name_or_path,
attn_implementation="eager",
dtype=torch.bfloat16,
device_map="auto"
)
with torch.no_grad():
device = next(model.parameters()).device
inputs = inputs.to(device)
generated_ids = model.generate(**inputs, max_new_tokens=16384, do_sample=False)
input_ids = inputs.input_ids if "input_ids" in inputs else inputs.inputs
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(input_ids, generated_ids)
]
output_texts = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_texts)
方式三:在线 Demo
直接访问:https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
→ 无需部署,上传图片即可体验
→ 适合快速测试和效果验证
5. 六大任务 Prompt 指南
| 任务 | Prompt 示例 | 输出格式 |
|---|---|---|
| 📝 文字检测 | 检测并识别图片中的文字,将文本坐标格式化输出。 | 文本 + 坐标 |
| 📑 文档解析 | 提取文档图片中正文的所有信息用markdown格式表示,其中页眉、页脚部分忽略,表格用html格式表达,文档中公式用latex格式表示,按照阅读顺序组织进行解析。 | Markdown + HTML + LaTeX |
| 📄 通用解析 | 提取图中的文字。 | 纯文本 |
| 🔍 信息抽取 | 提取图片中的: [‘单价’,‘发票号码’,‘总金额’] 的字段内容,并按照JSON格式返回。 | JSON |
| 🎬 视频字幕 | 提取图中的字幕 | 文本 |
| 🌏 拍照翻译 | 先提取文字,再将文字内容翻译为英文。若是文档,则其中页眉、页脚忽略。公式用latex格式表示,表格用html格式表示。 | 翻译文本 |
信息抽取实战示例
Prompt:
提取图片中的: ['单价', '上车时间', '发票号码', '省前缀',
'总金额', '发票代码', '下车时间', '里程数']
的字段内容,并按照JSON格式返回。
Response:
{
"单价": "3.00",
"上车时间": "09:01",
"发票号码": "42609332",
"省前缀": "陕",
"总金额": "¥77.10元",
"发票代码": "161002018100",
"下车时间": "09:51",
"里程数": "26.1km"
}
→ 一个 Prompt 搞定结构化抽取,无需后处理!
6. 竞品对比
| 对比维度 | HunyuanOCR | dots.ocr | PaddleOCR-VL | DeepSeek-OCR | Mistral-OCR | MinerU2.5 |
|---|---|---|---|---|---|---|
| 出品方 | 腾讯混元 | 小红书 | PaddlePaddle | DeepSeek | Mistral | OpenDataLab |
| 参数量 | 1B | 3B | 0.9B | 3B | - | 1.2B |
| 架构 | 端到端 | 端到端 | 模块化 | 端到端 | 端到端 | 模块化 |
| 文字检测 | 70.92 | - | - | - | - | - |
| 文档解析(ED) | 0.042 | 0.048 | 0.035 | 0.073 | 0.164 | 0.047 |
| OmniDoc Overall | 94.10 | 88.41 | 92.86 | 87.01 | 78.83 | 90.67 |
| 信息抽取-卡片 | 92.29 | - | - | 10.04 | - | - |
| 视频字幕 | 92.87 | - | - | 5.41 | - | - |
| 拍照翻译 | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| 语言支持 | 100+ | 多语言 | 中英 | 多语言 | 多语言 | 多语言 |
| CVPR 论文 | ✅ 2篇 | ❌ | ❌ | ❌ | ❌ | ❌ |
| 显存需求 | 20GB | 更高 | 更低 | 更高 | - | 更低 |
| vLLM 支持 | ✅ Day-0 | ✅ | ❌ | ✅ | ✅ | ❌ |
最大差异化
1. 1B 参数 → 部署成本最低(20GB 显存)
2. 拍照翻译 → 唯一支持端到端拍照翻译的开源 OCR VLM
3. 视频字幕 → 92.87% 断层式领先(超第二名 32 分)
4. OmniDocBench → 94.10% 全场最高
5. CVPR 2026 × 2 → 学术顶会背书
6. ICDAR2025 冠军 → 翻译赛道验证
7. 端到端 vs 模块化 → 一步到位无误差累积
8. 14 种小语种翻译 → 国际化场景最强
7. 学术成果与生态
CVPR 2026 主会论文 × 2
📄 论文一:Towards Real-World Document Parsing
via Realistic Scene Synthesis and Document-Aware Training
→ 真实场景合成 + 文档感知训练
→ arXiv: 2603.23885
📄 论文二:MMTIT-Bench
→ 多语言多场景图文翻译基准
→ arXiv: 2603.23896
开源基准
📊 Chronicles-OCR
→ 古文感知基准,覆盖"七体汉字"演进轨迹
→ 与故宫博物院、安阳师范学院联合构建
→ arXiv: 2605.11960
📊 ChartArena
→ 图表解析基准,支持多种图表类型
→ arXiv: 2606.01348
📊 Wild-OmniDocBench
→ 野生文档解析基准
📊 MMTIT-Bench
→ 多语言图文翻译基准
技术报告
📄 HunyuanOCR Technical Report
→ arXiv: 2511.19575
→ 详细介绍架构设计、训练策略、评估方法
8. 适用场景与优缺点
✅ 适合场景
🧾 票据/证件/发票信息抽取
→ 92.53% 发票准确率,JSON 直出
→ 替代传统 OCR + 正则后处理
📑 多语言文档数字化
→ 100+ 语言,Markdown/HTML/LaTeX 输出
→ 学术论文/合同/报告一键解析
🎬 视频字幕提取
→ 92.87% 准确率,双语字幕支持
→ 短视频/会议录像/在线课程
🌏 拍照翻译
→ 14 种小语种 → 中文/英文
→ 出行/旅游/跨境电商
🎨 艺术/手写/游戏文字识别
→ 10 大场景覆盖
→ 传统 OCR 搞不定的场景
📱 截图文字提取
→ 76.58% 准确率
→ UI 自动化测试/无障碍
⚠️ 注意事项
1. 仅支持 Linux 部署(无 Windows/macOS 支持)
2. 需要 20GB 显存(vLLM 推荐)
3. Transformers 推理精度暂低于 vLLM(修复中)
4. OCRBench 得分 860,低于 Qwen3-VL-235B 的 920
5. vLLM 推理存在重复子串问题(需 clean_repeated_substrings 处理)
6. CUDA 12.9 要求较新(需确认 GPU 兼容性)
9. 总结与推荐
推荐指数:⭐⭐⭐⭐⭐
| 维度 | 评分 | 说明 |
|---|---|---|
| 性能 | ⭐⭐⭐⭐⭐ | 四大基准 SOTA,1B 挑翻 235B |
| 轻量 | ⭐⭐⭐⭐⭐ | 1B 参数,20GB 显存可部署 |
| 功能 | ⭐⭐⭐⭐⭐ | 6 大任务一个模型全覆盖 |
| 易用 | ⭐⭐⭐⭐ | vLLM 一行部署,但仅 Linux |
| 学术 | ⭐⭐⭐⭐⭐ | CVPR 2026 × 2 + ICDAR 冠军 |
| 生态 | ⭐⭐⭐⭐ | 多个开源基准,vLLM Day-0 支持 |
| 国际化 | ⭐⭐⭐⭐⭐ | 100+ 语言 + 14 种小语种翻译 |
一句话推荐
如果你需要一个轻量但强大的 OCR 方案,HunyuanOCR 是 2026 年的最佳选择。
1B 参数,四大基准 SOTA,6 大任务全覆盖,20GB 显存部署,
拍照翻译独一份,视频字幕断层领先。
传统 OCR 方案可以退休了。
📢 项目地址:https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 模型下载:https://huggingface.co/tencent/HunyuanOCR
🎯 在线体验:https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
📄 技术报告:arXiv:2511.19575
相关链接
- 📊 Chronicles-OCR 古文基准
- 📊 ChartArena 图表基准
- 📊 Wild-OmniDocBench 文档基准
- 📊 MMTIT-Bench 翻译基准
- 📖 vLLM HunyuanOCR 使用指南
原文链接:https://github.com/Tencent-Hunyuan/HunyuanOCR
协议:按项目仓库 LICENSE
标签:#腾讯混元 #HunyuanOCR #OCR #文档解析 #VLM #端到端 #拍照翻译 #视频字幕 #信息抽取 #开源 #1B参数 #SOTA
分类:原创文章


1842

被折叠的 条评论
为什么被折叠?



