C#使用Tesseract进行Ocr识别

最新推荐文章于 2026-05-18 12:00:55 发布

原创最新推荐文章于 2026-05-18 12:00:55 发布 · 6.6k 阅读 ·

大模型引用 1 次

本内容遵循CC 4.0 BY-SA版权协议

技术小零

关注

标签

#c# #开发语言

分类后端开发

收录于

C# 专栏收录该内容

24 篇文章

订阅专栏

本文档介绍了如何通过Nuget安装Tesseract OCR引擎，并下载训练库进行中文识别。作者展示了从GitHub获取训练数据并识别D盘根目录下image.png图片的过程，识别率为84%，识别出的文字为'立白liby'。

1.Nuget搜索Tesseract

2.项目安装Tesseract

3.引用命名空间

using Tesseract;

4.上Github下载别人的训练库

GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR enginehttps://github.com/tesseract-ocr/tessdata我这里下载中文的chi_sim.traineddata，放到了D盘根目录

5.选择图片进行识别

我把图片命名为image.png放在了D盘根目录

//图片文件路径
string imageFileName = @"D:\image.png";
//创建位图对象
Bitmap image = new Bitmap(imageFileName);

//Tesseract.Page
Page page = new TesseractEngine(@"D:\", "chi_sim", EngineMode.Default).Process(PixConverter.ToPix(image));
//释放程序对图片的占用
image.Dispose();

//打印识别率
Console.WriteLine(String.Format("{0:P}", page.GetMeanConfidence()));
//打印识别文本 //替换'/n'为'(空)'//替换'(空格)'为'(空)'
Console.WriteLine(page.GetText().Replace("\n", "").Replace(" ", ""));