前言
由于pytesseract提取图片的准确度太低,不足以提取代码以进行后续的检查,所以要提高图片识别的准确度。
一、图片二值化处理
对一个图片进行处理,使其更加容易被识别。
处理过程中发现生成的文件很小,没有什么内容,说明识别的过程出了问题。
后来使用cv2.threshold函数处理,可以把一个图片相对清楚地显示出来,但是要使不同的图片显示地更加清晰,要对应不同的阈值;
发现阈值的确定和图片的底色有关系。
对图片进行灰度处理,效果有提升但不明显:

二、样本训练
即丰富tesseract的语言库,使其更加熟悉我所要提取的内容(代码),进而提高识别的准确度。
需要下载jTessBoxEditor。
使用jTessBoxEditor.exe,选择样本图片,生成tif文件;
用管理员模式打开命令行输入指令:
tesseract.exe a.tif b batch.nochop makebox
a.tif为刚才生成的tif文件,生成文件b.box;
再用jTessBoxEditor.exe打开box文件进行调试:

本文探讨了在使用pytesseract进行代码截图识别时遇到的准确率低的问题。通过图片二值化处理,尤其是针对不同底色调整阈值,能改善识别效果,但过程繁琐。此外,尝试样本训练以丰富tesseract语言库,虽然理论上可以提升识别准确度,但在实际操作中,由于样本多样性和手动调整的复杂性,效率低下。总结指出,对于同学们提交的格式各异的代码截图,采用通用的样本训练可能并非最佳解决方案。

1862

被折叠的 条评论
为什么被折叠?



