腾讯混元开源 HunyuanOCR：仅 1B 参数碾压 235B 大模型，四大基准 SOTA，端到端搞定文字检测/文档解析/信息抽取/视频字幕/拍照翻译！-CSDN博客

腾讯混元开源 HunyuanOCR：仅 1B 参数碾压 235B 大模型，四大基准 SOTA，端到端搞定文字检测/文档解析/信息抽取/视频字幕/拍照翻译！

💡 腾讯混元出品，1B 参数 OCR 专家 VLM，四大基准全线第一：文本检测 70.92%（超 Seed-1.6-Vision 11 分）、文档解析 Edit Distance 0.042（超 PaddleOCR-VL / MinerU2.5 / dots.ocr）、信息抽取 92.29%（超 Gemini-2.5-Pro 12 分）、拍照翻译对标 Qwen3-VL-235B。6 大任务一个模型全搞定，20GB 显存即可部署，vLLM 一行命令启动。

在这里插入图片描述

1. HunyuanOCR 是什么？

HunyuanOCR 是腾讯混元（Tencent Hunyuan）出品的端到端 OCR 专家 VLM，基于混元原生多模态架构打造。

🔗 项目地址：https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 模型下载：https://huggingface.co/tencent/HunyuanOCR
📄 技术报告：arXiv:2511.19575
🎯 在线 Demo：https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
🏢 出品：腾讯混元 Hunyuan Vision Team
📐 参数量：1B（仅 10 亿参数！）
🌏 语言支持：100+ 种语言

一句话总结

HunyuanOCR = 腾讯混元出品端到端 OCR 专家 VLM
           = 仅 1B 参数，四大基准全线 SOTA
           = 1 个模型搞定 6 大任务
           = 文字检测 + 文档解析 + 信息抽取 + 视频字幕 + 拍照翻译 + 文档 QA
           = 20GB 显存部署，vLLM 一行启动
           = 支持 100+ 语言，单语/混语均出色
           = CVPR 2026 主会论文 × 2
           = ICDAR2025 翻译赛小模型赛道冠军
           = 端到端 vs 传统级联方案，一步到位

为什么 1B 能碾压 235B？

通用 VLM 的问题：
  ❌ 啥都能干，但 OCR 不精
  ❌ 级联方案（检测→识别→后处理），误差累积
  ❌ 大模型参数多但 OCR 专项训练不足

HunyuanOCR 的解法：
  ✅ OCR 专家训练，数据质量和任务聚焦
  ✅ 端到端推理，一步到位，无级联误差
  ✅ 混元原生多模态架构 + 专项训练策略
  ✅ 1B 轻量部署，20GB 显存即跑

结果：
  1B HunyuanOCR > 235B Qwen3-VL（文档解析/信息抽取）
  1B HunyuanOCR ≈ 235B Qwen3-VL（拍照翻译）

2. 四大核心能力

💪 能力一：文字检测识别（Text Spotting）

功能：输出图片中所有文字内容及行级坐标

覆盖 10 大场景：
  📄 文档 · 🎨 艺术字 · 🏙️ 街景 · ✍️ 手写
  📢 广告 · 🧾 发票 · 📱 截图 · 🎮 游戏 · 🎬 视频

性能：Overall 70.92%，全场景最优
  - 游戏：73.54%（超 Seed-1.6-Vision 14分）
  - 手写：77.10%（超 Qwen3-VL-235B 8分）
  - 广告：75.34%（超 Seed-1.6-Vision 9分）
  - 截图：76.58%（超 BaiduOCR 8分）
  - 视频：77.31%（超 BaiduOCR 10分）

📑 能力二：复杂文档解析（Document Parsing）

功能：多语言文档数字化
  - 文字按阅读顺序组织 → Markdown 格式
  - 公式 → LaTeX 格式
  - 表格 → HTML 格式
  - 流程图 → Mermaid 格式
  - 其他图表 → Markdown 格式
  - 古文/古籍识别（七体汉字演进轨迹）

性能：OmniDocBench Overall 94.10%（全场最高）
  - 文本 Edit Distance: 0.042（最低，最准）
  - 公式: 94.73%（超 Qwen3-VL-235B 6.6分）
  - 表格: 91.81%（超 PaddleOCR-VL 1分）
  - Wild-OmniDocBench: 85.21%（超第二名 6分）
  - DocML 多语言: 91.03%（超第二名 9分）

🔍 能力三：开放域信息抽取（Information Extraction）

功能：从证件/发票/卡片中提取结构化字段
  - 支持自定义 Key（如"单价""发票号码"等）
  - JSON 格式输出，直接对接后端
  - 并行提取多个字段

性能：卡片 92.29% / 发票 92.53% / 视频字幕 92.87%
  - 卡片：超 Gemini-2.5-Pro 12分
  - 发票：超 Gemini-2.5-Pro 12分
  - 视频字幕：超 Seed-1.6-Vision 32分！

🌏 能力四：拍照翻译（Photo Translation）

功能：端到端拍照翻译
  - 图片 → 提取文字 → 翻译 → 一步完成
  - 支持 14 种常用小语种 → 中文/英文
  - 德语/西班牙语/土耳其语/意大利语/俄语
  - 法语/葡萄牙语/阿拉伯语/泰语/越南语
  - 印尼语/马来语/日语/韩语
  - 中英互译

性能：1B 参数对标 235B
  - Other2En: 73.38%（vs Qwen3-VL-235B 73.67%）
  - Other2Zh: 73.62%（vs Qwen3-VL-235B 77.20%）
  - DoTA en2zh: 83.48%（超 Qwen3-VL-235B 80.01%）

  🏆 ICDAR2025 文档端到端翻译赛小模型赛道冠军

🎬 附加能力：视频字幕提取

功能：自动提取视频字幕，包括双语字幕

性能：92.87%（远超第二名 Seed-1.6-Vision 60.45%）
  → 视频字幕是 HunyuanOCR 最强单项之一
  → 超第二名 32 分！断层式领先

3. 性能炸裂：四大基准 SOTA

基准一：文本检测（In-house Benchmark）

模型类型	方法	Overall	文档	游戏	手写	广告	截图	视频
传统方法	PaddleOCR	53.38	70.23	51.59	56.39	57.38	63.38	53.35
传统方法	BaiduOCR	61.90	78.95	59.24	59.06	66.70	68.18	67.38
通用VLM	Qwen3-VL-235B	53.62	43.78	48.00	68.90	64.01	45.91	63.79
通用VLM	Seed-1.6-Vision	59.23	55.04	59.68	67.46	65.99	59.85	70.33
OCR专家	HunyuanOCR	70.92	73.63	73.54	77.10	75.34	76.58	77.31

→ Overall 领先第二名 9.02 分（BaiduOCR）
→ 游戏场景超 Seed-1.6-Vision 14 分
→ 手写场景超 Qwen3-VL-235B 8 分
→ 10 个场景中 8 个最优

基准二：文档解析（OmniDocBench + Wild-OmniDocBench，Edit Distance 越低越好）

模型类型	方法	参数	OmniDoc Overall	Wild Overall	DocML
通用VLM	Gemini-2.5-Pro	-	88.03	80.59	82.64
通用VLM	Qwen3-VL-235B	235B	89.15	79.69	81.40
模块化	MonkeyOCR-pro-3B	3B	88.85	70.00	56.50
模块化	MinerU2.5	1.2B	90.67	70.91	52.05
模块化	PaddleOCR-VL	0.9B	92.86	72.19	57.42
端到端	DeepSeek-OCR	3B	87.01	74.23	57.22
端到端	dots.ocr	3B	88.41	78.01	77.50
端到端	HunyuanOCR	1B	94.10	85.21	91.03

→ OmniDocBench: 94.10%，超 PaddleOCR-VL 1.24 分
→ Edit Distance 0.042，全场最低（最准确）
→ 公式 94.73%，超 Qwen3-VL-235B 6.6 分
→ Wild-OmniDocBench: 85.21%，超第二名 6 分
→ DocML: 91.03%，超第二名 9 分
→ 1B 参数 > 3B/235B 模型！

基准三：信息抽取 + OCRBench

模型	卡片	发票	视频字幕	OCRBench
DeepSeek-OCR	10.04	40.54	5.41	430
Qwen3-VL-2B	67.62	64.62	3.75	858
Seed-1.6-Vision	70.12	67.50	60.45	881
Qwen3-VL-235B	75.59	78.40	50.74	920
Gemini-2.5-Pro	80.59	80.66	53.65	872
HunyuanOCR	92.29	92.53	92.87	860

→ 卡片：92.29%，超 Gemini-2.5-Pro 11.7 分
→ 发票：92.53%，超 Gemini-2.5-Pro 11.87 分
→ 视频字幕：92.87%，超 Seed-1.6-Vision 32 分（断层！）
→ OCRBench: 860（与 Qwen3-VL-235B 920 有差距，但兼顾专项更优）

基准四：拍照翻译

方法	参数	Other2En	Other2Zh	DoTA en2zh
Gemini-2.5-Flash	-	79.26	80.06	85.60
Qwen3-VL-235B	235B	73.67	77.20	80.01
Qwen3-VL-2B	2B	66.30	66.77	73.49
PP-DocTranslation	-	52.63	52.43	82.09
HunyuanOCR	1B	73.38	73.62	83.48

→ 1B 参数 ≈ 235B Qwen3-VL（Other2En 仅差 0.29 分）
→ DoTA en2zh: 83.48%，超 Qwen3-VL-235B 3.47 分
→ ICDAR2025 翻译赛小模型赛道冠军 🏆

4. 快速上手部署

系统要求

🖥️ OS: Linux
🐍 Python: 3.12+
⚡ CUDA: 12.9
🔥 PyTorch: 2.7.1
🎮 GPU: NVIDIA GPU（CUDA 支持）
🧠 显存: 20GB（vLLM 推理）
💾 磁盘: 6GB

方式一：vLLM 部署（⭐ 推荐）

# 安装依赖
pip install vllm>=0.12.0
pip install -r requirements.txt

# 可选：安装 CUDA 兼容库
sudo dpkg -i cuda-compat-12-9_575.57.08-0ubuntu1_amd64.deb
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.9/compat:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

一键启动服务：

vllm serve tencent/HunyuanOCR \
    --no-enable-prefix-caching \
    --mm-processor-cache-gb 0 \
    --gpu-memory-utilization 0.2

推理代码：

from vllm import LLM, SamplingParams
from PIL import Image
from transformers import AutoProcessor

def clean_repeated_substrings(text):
    """清理重复子串（vLLM 推理已知问题）"""
    n = len(text)
    if n < 8000:
        return text
    for length in range(2, n // 10 + 1):
        candidate = text[-length:]
        count = 0
        i = n - length
        while i >= 0 and text[i:i + length] == candidate:
            count += 1
            i -= length
        if count >= 10:
            return text[:n - length * (count - 1)]
    return text

# 加载模型
model_path = "tencent/HunyuanOCR"
llm = LLM(model=model_path, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_path)
sampling_params = SamplingParams(temperature=0, max_tokens=16384)

# 构造输入
img_path = "/path/to/image.jpg"
img = Image.open(img_path)
messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字，将文本坐标格式化输出。"}
    ]}
]
prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = {"prompt": prompt, "multi_modal_data": {"image": [img]}}

# 推理
output = llm.generate([inputs], sampling_params)[0]
print(clean_repeated_substrings(output.outputs[0].text))

或使用官方脚本：

cd Hunyuan-OCR-master/Hunyuan-OCR-vllm && python run_hy_ocr.py

方式二：Transformers 部署

pip install git+https://github.com/huggingface/transformers@82a06db03535c49aa987719ed0746a76093b1ec4

⚠️ 注意：当前 Transformers 推理精度比 vLLM 稍低，官方正在修复中

from transformers import AutoProcessor, HunYuanVLForConditionalGeneration
from PIL import Image
import torch

model_name_or_path = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_name_or_path, use_fast=False)
img_path = "path/to/your/image.jpg"
image_inputs = Image.open(img_path)

messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字，将文本坐标格式化输出。"}
    ]}
]

texts = [processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)]
inputs = processor(text=texts, images=image_inputs, padding=True, return_tensors="pt")

model = HunYuanVLForConditionalGeneration.from_pretrained(
    model_name_or_path,
    attn_implementation="eager",
    dtype=torch.bfloat16,
    device_map="auto"
)

with torch.no_grad():
    device = next(model.parameters()).device
    inputs = inputs.to(device)
    generated_ids = model.generate(**inputs, max_new_tokens=16384, do_sample=False)

input_ids = inputs.input_ids if "input_ids" in inputs else inputs.inputs
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(input_ids, generated_ids)
]
output_texts = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_texts)

方式三：在线 Demo

直接访问：https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
→ 无需部署，上传图片即可体验
→ 适合快速测试和效果验证

5. 六大任务 Prompt 指南

任务	Prompt 示例	输出格式
📝 文字检测	检测并识别图片中的文字，将文本坐标格式化输出。	文本 + 坐标
📑 文档解析	提取文档图片中正文的所有信息用markdown格式表示，其中页眉、页脚部分忽略，表格用html格式表达，文档中公式用latex格式表示，按照阅读顺序组织进行解析。	Markdown + HTML + LaTeX
📄 通用解析	提取图中的文字。	纯文本
🔍 信息抽取	提取图片中的: [‘单价’,‘发票号码’,‘总金额’] 的字段内容，并按照JSON格式返回。	JSON
🎬 视频字幕	提取图中的字幕	文本
🌏 拍照翻译	先提取文字，再将文字内容翻译为英文。若是文档，则其中页眉、页脚忽略。公式用latex格式表示，表格用html格式表示。	翻译文本

信息抽取实战示例

Prompt:
  提取图片中的: ['单价', '上车时间', '发票号码', '省前缀',
  '总金额', '发票代码', '下车时间', '里程数']
  的字段内容，并按照JSON格式返回。

Response:
  {
    "单价": "3.00",
    "上车时间": "09:01",
    "发票号码": "42609332",
    "省前缀": "陕",
    "总金额": "￥77.10元",
    "发票代码": "161002018100",
    "下车时间": "09:51",
    "里程数": "26.1km"
  }

→ 一个 Prompt 搞定结构化抽取，无需后处理！

6. 竞品对比

对比维度	HunyuanOCR	dots.ocr	PaddleOCR-VL	DeepSeek-OCR	Mistral-OCR	MinerU2.5
出品方	腾讯混元	小红书	PaddlePaddle	DeepSeek	Mistral	OpenDataLab
参数量	1B	3B	0.9B	3B	-	1.2B
架构	端到端	端到端	模块化	端到端	端到端	模块化
文字检测	70.92	-	-	-	-	-
文档解析(ED)	0.042	0.048	0.035	0.073	0.164	0.047
OmniDoc Overall	94.10	88.41	92.86	87.01	78.83	90.67
信息抽取-卡片	92.29	-	-	10.04	-	-
视频字幕	92.87	-	-	5.41	-	-
拍照翻译	✅	❌	❌	❌	❌	❌
语言支持	100+	多语言	中英	多语言	多语言	多语言
CVPR 论文	✅ 2篇	❌	❌	❌	❌	❌
显存需求	20GB	更高	更低	更高	-	更低
vLLM 支持	✅ Day-0	✅	❌	✅	✅	❌

最大差异化

1. 1B 参数 → 部署成本最低（20GB 显存）
2. 拍照翻译 → 唯一支持端到端拍照翻译的开源 OCR VLM
3. 视频字幕 → 92.87% 断层式领先（超第二名 32 分）
4. OmniDocBench → 94.10% 全场最高
5. CVPR 2026 × 2 → 学术顶会背书
6. ICDAR2025 冠军 → 翻译赛道验证
7. 端到端 vs 模块化 → 一步到位无误差累积
8. 14 种小语种翻译 → 国际化场景最强

7. 学术成果与生态

CVPR 2026 主会论文 × 2

📄 论文一：Towards Real-World Document Parsing
  via Realistic Scene Synthesis and Document-Aware Training
  → 真实场景合成 + 文档感知训练
  → arXiv: 2603.23885

📄 论文二：MMTIT-Bench
  → 多语言多场景图文翻译基准
  → arXiv: 2603.23896

开源基准

📊 Chronicles-OCR
  → 古文感知基准，覆盖"七体汉字"演进轨迹
  → 与故宫博物院、安阳师范学院联合构建
  → arXiv: 2605.11960

📊 ChartArena
  → 图表解析基准，支持多种图表类型
  → arXiv: 2606.01348

📊 Wild-OmniDocBench
  → 野生文档解析基准

📊 MMTIT-Bench
  → 多语言图文翻译基准

技术报告

📄 HunyuanOCR Technical Report
  → arXiv: 2511.19575
  → 详细介绍架构设计、训练策略、评估方法

8. 适用场景与优缺点

✅ 适合场景

🧾 票据/证件/发票信息抽取
  → 92.53% 发票准确率，JSON 直出
  → 替代传统 OCR + 正则后处理

📑 多语言文档数字化
  → 100+ 语言，Markdown/HTML/LaTeX 输出
  → 学术论文/合同/报告一键解析

🎬 视频字幕提取
  → 92.87% 准确率，双语字幕支持
  → 短视频/会议录像/在线课程

🌏 拍照翻译
  → 14 种小语种 → 中文/英文
  → 出行/旅游/跨境电商

🎨 艺术/手写/游戏文字识别
  → 10 大场景覆盖
  → 传统 OCR 搞不定的场景

📱 截图文字提取
  → 76.58% 准确率
  → UI 自动化测试/无障碍

⚠️ 注意事项

1. 仅支持 Linux 部署（无 Windows/macOS 支持）
2. 需要 20GB 显存（vLLM 推荐）
3. Transformers 推理精度暂低于 vLLM（修复中）
4. OCRBench 得分 860，低于 Qwen3-VL-235B 的 920
5. vLLM 推理存在重复子串问题（需 clean_repeated_substrings 处理）
6. CUDA 12.9 要求较新（需确认 GPU 兼容性）

9. 总结与推荐

推荐指数：⭐⭐⭐⭐⭐

维度	评分	说明
性能	⭐⭐⭐⭐⭐	四大基准 SOTA，1B 挑翻 235B
轻量	⭐⭐⭐⭐⭐	1B 参数，20GB 显存可部署
功能	⭐⭐⭐⭐⭐	6 大任务一个模型全覆盖
易用	⭐⭐⭐⭐	vLLM 一行部署，但仅 Linux
学术	⭐⭐⭐⭐⭐	CVPR 2026 × 2 + ICDAR 冠军
生态	⭐⭐⭐⭐	多个开源基准，vLLM Day-0 支持
国际化	⭐⭐⭐⭐⭐	100+ 语言 + 14 种小语种翻译

一句话推荐

如果你需要一个轻量但强大的 OCR 方案，HunyuanOCR 是 2026 年的最佳选择。

1B 参数，四大基准 SOTA，6 大任务全覆盖，20GB 显存部署，
拍照翻译独一份，视频字幕断层领先。

传统 OCR 方案可以退休了。

📢 项目地址：https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 模型下载：https://huggingface.co/tencent/HunyuanOCR
🎯 在线体验：https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
📄 技术报告：arXiv:2511.19575

相关链接

原文链接：https://github.com/Tencent-Hunyuan/HunyuanOCR
协议：按项目仓库 LICENSE

标签：#腾讯混元 #HunyuanOCR #OCR #文档解析 #VLM #端到端 #拍照翻译 #视频字幕 #信息抽取 #开源 #1B参数 #SOTA
分类：原创文章