Nanonets-OCR2重磅发布:开启文档智能结构化新纪元,让LLM轻松读懂复杂文件

Nanonets-OCR2重磅发布:开启文档智能结构化新纪元,让LLM轻松读懂复杂文件

【免费下载链接】Nanonets-OCR2-1.5B-exp 【免费下载链接】Nanonets-OCR2-1.5B-exp 项目地址: https://ai.gitcode.com/hf_mirrors/nanonets/Nanonets-OCR2-1.5B-exp

2025年10月10日,Nanonets正式推出新一代文档智能处理工具——Nanonets-OCR2。这款融合前沿视觉语言技术的模型套件,不仅实现了从图像到Markdown的精准转换,更突破性地集成了语义标签识别与上下文感知问答能力,为法律合同、科研论文、医疗记录等复杂文档的智能化处理提供了全新解决方案。作为Nanonets-OCR-s的升级版本,该模型在内容区分度与场景适应性上实现质的飞跃,标志着文档理解技术迈入结构化数据生成的新阶段。

核心技术突破:从文字识别到语义理解的跨越

Nanonets-OCR2构建了九层技术能力体系,全面覆盖现代文档处理的核心需求。其LaTeX公式智能转换功能可自动区分行内公式与独立公式,通过<page_number>标签精准定位页码信息,解决了科研文档中数学表达式的结构化难题。针对文档中的图像元素,模型创新采用<img>标签封装描述信息,优先提取已有图注,缺失时则基于视觉内容生成结构化说明,使图表、Logo、二维码等视觉元素成为LLM可解析的语义单元。

在商业场景关键的签名验证环节,系统通过<signature>标签隔离签名区域,对无法识别的手写签名自动标记为<signature>signature</signature>,为合同自动化审核提供可靠依据。水印提取功能同样采用标签化处理,即使在低分辨率扫描件中仍保持高效识别能力。表单处理方面,模型将复选框与单选按钮统一转换为标准化Unicode符号,通过<checkbox>标签输出状态信息,大幅提升问卷、申请表等结构化文档的数字化效率。

复杂表格识别技术突破传统OCR局限,可直接输出Markdown与HTML双格式表格数据,完美还原合并单元格、嵌套表格等复杂结构。针对流程图与组织结构图,系统创新性地生成可直接渲染的Mermaid代码,实现可视化图表的结构化存储与二次编辑。多语言支持覆盖英、中、法、日、阿拉伯语等20余种主流语种,配合视觉问答(VQA)功能,形成"文档理解-信息提取-智能交互"的完整闭环。

性能评测:多维度领先行业标准

为客观验证模型性能,研发团队采用Gemini-2.5-Pro作为评测基准,在图像转Markdown任务中进行多模型对比测试。结果显示,Nanonets-OCR2+版本以57.60%的胜率大幅领先Gemini 2.5 Flash(34.35%),在与GPT-5的直接对决中更是以74.86%的优势率稳居榜首。3B参数版本表现同样亮眼,在处理复杂表格与数学公式时,正确率较上一代Nanonets-OCR-s提升16.04%,展现出卓越的性价比优势。

视觉问答能力评测采用IDP Leaderboard标准数据集,Nanonets-OCR2 3B在DocVQA任务中以89.43%的准确率超越Qwen 2.5-VL-72B(84.00%)和Gemini-2.5-Flash(85.51%),Chart QA项目也取得78.56%的优异成绩。特别值得注意的是,模型在"未知信息"处理上表现出严格的可靠性,对文档中不存在的查询始终返回"Not mentioned",有效避免传统VQA系统的幻觉生成问题。

训练架构与应用前景

Nanonets-OCR2基于Qwen2.5-VL-3B基础模型构建,训练数据涵盖300万页真实文档,包括科研论文、财务报告、医疗记录等12类专业文档类型。研发团队采用"合成数据预训练+人工标注精调"的两阶段训练策略,通过模拟不同扫描质量、字体样式、排版布局的文档样本,大幅提升模型在真实场景中的鲁棒性。尽管目前在复杂流程图解析和极端噪声环境下仍存在局限性,但持续优化的模型迭代机制将不断拓展能力边界。

在应用落地层面,该技术已展现出跨行业赋能潜力。学术界可借助LaTeX公式与表格自动转换功能加速论文写作;法律领域通过签名/水印提取实现合同合规性自动检查;医疗系统能快速结构化病历中的检查项与诊断结果;企业则可构建包含图像语义的智能知识库。随着LLM应用向企业级深化,Nanonets-OCR2正在成为打通非结构化文档与AI应用的数据桥梁。

即日起,用户可通过Docstrange平台体验Nanonets-OCR2全部功能,开源社区版本已同步发布至代码仓库。研发团队欢迎开发者通过GitHub与Hugging Face社区参与模型优化讨论,共同推进文档智能处理技术的标准化与产业化。在这个数据驱动决策的时代,Nanonets-OCR2正以"让每一份文档都产生智能价值"的技术理念,重新定义信息提取的效率边界。

【免费下载链接】Nanonets-OCR2-1.5B-exp 【免费下载链接】Nanonets-OCR2-1.5B-exp 项目地址: https://ai.gitcode.com/hf_mirrors/nanonets/Nanonets-OCR2-1.5B-exp

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值