设置白名单:让tesseract-OCR只识别指定内容

本文介绍如何通过设置白名单来让Tesseract OCR仅识别特定类型的字符,如英文字母或数字。通过修改配置文件并选择合适的OCR引擎模式,可以提高识别的准确性和效率。
有时我们需要用tesseract-ocr只识别指定类型的数据,如:仅识别英文字母或数字。此时可设置白名单,让tesseract-ocr只输出我们需要的结果。
1.打开tesseract-ocr安装路径下的tessdata/configs/digits文件,可以看到里面有一个tessedit_char_whitelist,将其设置成我们需要得到的识别结果。
如:tessedit_char_whitelist ABCD
2.在调用命令时,需要加上我们设置的文件名:tesseract xxx.png outfilename -psm 6 digits

注:

tesseract提供了OCR引擎模式。有如下四种
  • 0 =仅限原始Tesseract
  • 1 =只有神经网络LSTM
  • 2 =Tesseract + LSTM
  • 3 =基于可用的默认值

目前LSTM是无法支持白名单的

我们需要选择第0种模式,指令如下:

tesseract --oem 0 1.png outfileName digits
注意:使用第0种模式会降低识别准确率
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值