提高pytesseract图片识别的准确度

最新推荐文章于 2026-03-27 03:42:04 发布

原创

最新推荐文章于 2026-03-27 03:42:04 发布 · 6.5k 阅读

收录于

本文探讨了在使用pytesseract进行代码截图识别时遇到的准确率低的问题。通过图片二值化处理，尤其是针对不同底色调整阈值，能改善识别效果，但过程繁琐。此外，尝试样本训练以丰富tesseract语言库，虽然理论上可以提升识别准确度，但在实际操作中，由于样本多样性和手动调整的复杂性，效率低下。总结指出，对于同学们提交的格式各异的代码截图，采用通用的样本训练可能并非最佳解决方案。

前言

由于pytesseract提取图片的准确度太低，不足以提取代码以进行后续的检查，所以要提高图片识别的准确度。

一、图片二值化处理

对一个图片进行处理，使其更加容易被识别。

处理过程中发现生成的文件很小，没有什么内容，说明识别的过程出了问题。

后来使用cv2.threshold函数处理，可以把一个图片相对清楚地显示出来，但是要使不同的图片显示地更加清晰，要对应不同的阈值；
发现阈值的确定和图片的底色有关系。

对图片进行灰度处理，效果有提升但不明显：
在这里插入图片描述

二、样本训练

即丰富tesseract的语言库，使其更加熟悉我所要提取的内容（代码），进而提高识别的准确度。

需要下载jTessBoxEditor。

使用jTessBoxEditor.exe，选择样本图片，生成tif文件；
用管理员模式打开命令行输入指令：

tesseract.exe a.tif b batch.nochop makebox

a.tif为刚才生成的tif文件，生成文件b.box；
再用jTessBoxEditor.exe打开box文件进行调试：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hustlearner

关注关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

tesseract ocr文字识别示例

03-22

tesseract ocr文字识别 C++ 代码示例

参与评论您还未登录，请先登录后发表或查看评论

Tesseract训练字库研究中的一些问题和解决方案

Orion_O的博客

08-20

1862

Python批量识别图片文字（数字识别模式）大幅度提高数字识别准确率

qq_56864896的博客

03-19

8365

使用beautiful soup库爬取高考一分一段表，由于很多省的一分一段表是图片，所有使用pytesseract库进行字符识别输出，最后实现从txt文件到csv文件的转换，总体识别的准确率在90%左右

Pytesseract识别中文效果差？手把手教你调参（PSM/OEM/白名单）与预处理技巧

最新发布

weixin_30776273的博客

03-27

453

本文详细介绍了如何通过Pytesseract优化中文OCR识别效果，包括核心参数调优（PSM/OEM）、图像预处理技巧以及白名单设置。通过实战案例展示，系统调优可将中文识别准确率从60%提升至90%以上，特别适合处理复杂中文文档。

python 文字识别提高精度_Python tesserocr的识别精度如此之低？

weixin_39760619的博客

12-04

1914

今天在学习Python爬虫的验证码识别的时候发现tesserocr这个库的图片识别能力居然能低到离谱的程度，我都很好奇为什么崔神书上那张图片居然能识别出来。实验的三张图片如下。我刚开始想的是除了图一略有难度以外，图二图三应该不难识别吧？于是我先直接对原图片进行识别。importtesserocrfrom PIL importImageimg1= Image.open('img1.jpg')prin...

pytesseract图像识别不准确

花臂不花Home

08-01

2255

通常来说，白底黑字的图像在 OCR方面更容易获得更好的准确性，这是因为黑色字体在白色背景上形成更强的对比度，有利于文字的分割和识别。一定要将图片二值化，转化图像为白底黑字。案例代码python。

Python识别图片出现的问题及解决办法

weixin_45742289的博客

07-18

1907

tesseract

python文字识别之pytesseract_怎么在python中利用pytesseract 对本地的图片文字进行识别...

weixin_39996908的博客

02-21

290

怎么在python中利用pytesseract 对本地的图片文字进行识别发布时间：2020-12-15 15:41:06来源：亿速云阅读：86作者：Leah怎么在python中利用pytesseract 对本地的图片文字进行识别？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。具有方法如下：#!/usr/bin/envpython3...

Python原生爬虫教程：使用 Pytesseract 进行简单的验证码识别

Taobaoapi2014的博客

04-10

467

在爬虫开发中我们经常会遇到一种反爬虫的手段就是验证码，那么如何才能绕过验证码拿到我们想要的数据呢？这节课我给大家介绍一个。Pytesseract 是 Python 中专门用来识别验证码和字符的常用第三方模块，它是一个根据 Google 开发的 Tesseract 包进行独立封装的产物。由于它在识别验证码方面具有得天独厚的优势，所以经常被爬虫开发程序员用来进行识别验证码。本节课我们就来使用 pytesseract 进行简单的验证码的识别。

python 数据分析实际案例_python在实际工作中运用的案例

weixin_39673303的博客

12-13

499

求职丨真账实操丨税务筹划丨备考经验丨英语丨书法大家好，我是刀哥。今天周五下午，我把领导交代的任务完成后，本打算喝喝茶看看报，等着下班过周末，但没多久，领导又丢过来一个任务，并强调争取下班前搞完。我看了一下任务，并不难，就是从扫描文件中取出需要的信息，并整理到excel表中，只是扫描文件比较多，有100多份，比较费时间。这时，我第一时间想到的，就是借助python来做，这正是发挥它作用的时...

【python】【文字识别】利用pytesseract、PIL包提取图片文字

weixin_42046939的博客

03-06

1056

本文的目的是为了提取图片中的文字，图片如下所示：第一：首先保证有这两个包：pytesseract、PIL 直接pip即可；第二：网上找资源，下载tesseract-ocr；【微软本已经下载成功，存放目录如下：】安装tesseract-ocr；【默认路径：C:\Program Files (x86)\Tesseract-OCR】环境配置；【将上述路径配置进去】将安装包中的中...

pytesseract+Tesseract-OCR图片文字识别趟坑

热门推荐

Hurpe

09-26

3万+

一、tesseract下载代码托管在github上，连接： https://github.com/tesseract-ocr/tesseract/wiki/Downloads 找windows下载也可以直接安装包下载 https://pan.baidu.com/s/1GKAWuBmg7vpgDPqKOpeMtA 二、下载python的包 pip install Pill...

使用拼写检查提高Tesseract OCR准确性

qq_40985985的博客

07-14

1614

上一篇博客介绍了如何使用textblob库和Tesseract自动进行OCR文本，然后将其翻译为其他语言。这篇博客还将通过textblob应用自动拼写检查OCR文本来提高OCR准确性 **（能够使用textblob纠正拼写错误，纠正单词等）**。......

测试图片文字识别的准确度

m0_37786726的博客

03-15

2612

一.准备环境 1.python 2.tesseract安装 3安装pytesseract pip install pytesseract二.精度测试的思想：步骤如下： 1.生成文字库 2.文字转图片 3. 利用tesseract识别图片文字 4.对比识别出来的文字（x）与原文字（y），取出识别错误的字典（x，y）三.代码实现如下： # -*- coding: utf-8 -*...

如何训练专属的OCR文字识别模型

关于Android开发的一些技术点总结 ╮(￣▽￣”)╭

11-20

1万+

随着文档数字化的发展，光学字符识别 (OCR) 变得越来越流行，OCR 在处理基于图像的文档中发挥着至关重要的作用。基于电商APP移动端的业务场景，是否也能利用OCR来为用户提供更加便利的购物体验呢。

提高Tesseract识别率

tiantian1980的专栏

04-01

1万+

Tesseract分享 - 雾非雾的情思 Tesseract分享本分享基于tesseract4.x 认识Tesseract 项目主页：https://github.com/tesseract-ocr/tesseract Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让

Tesseract识别率有点低，不知道有没有遇到识别结果出错的问题

qq_44686673的博客

08-29

1578

Tesseract识别率有点低，不知道有没有遇到识别结果出错的问题

tesseract介绍，提高tesseract识别率的三种方法，爬虫验证码自动识别工具

weixin_36506731的博客

04-11

1万+

tesseract简介：光学识别只能识别简单的验证码识别效率低下，很少使用转化为灰度图片使用：安装tesseract 然后要设置环境变量 Tesseract 3e0p.png lala 识别3e0p图片，然后新建一个lala.txt保存识别的东西 Tesseract 可以通过训练进行加强识别能力 python使用安装 pip install...

ocr a extended字体怎么安装_OCR工具对比与tesseract简明教程

weixin_39630515的博客

11-25

3313

一、OCR工具对比经过预处理后，tesseract识别率达到100%，tesseract-fast错误均为人名，tesseract-best/tesseract-fast仅用LSTM。CLSTM已经年久失修，docker镜像都404了。tesseract对清晰度不高的图片识别出现很多拒识，百度OCR-API准确率还在95%以上结论：tesseract较多人使用，有比较多资料可查，目前由google...

python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）

weixin_39818550的博客

12-03

2315

Python3.x：pytesseract识别率提高(样本训练)1，下载并安装3.05版本的tesseract2，如果你的训练素材是很多张非tif格式的图片，首先要做的事情就是将这么图片合并(个人觉得素材越多，基本每个字母和数字都覆盖了训练出来的识别率比较好)下载这个工具：VietOCR.NET-3.3.zip首先进行jpg,gif,bmp到tif的转换，这个用自带的画图就可以。然后使用VietO...