Tesseract是个OCR库,目前有Google赞助,是目前公认的最优秀的、最精确的开源OCR系统。Tesseract是一个Python的命令行工具,不通过import语句导入的库,要通过tesseract命令在Python外运行。
使用Homebrew(http://brew.sh)等第三方工具,可以很方便的在Mac系统上安装Tesseract,以下是我在安装过程中遇到的问题和解决方法:
Mac系统、Python版本:macOS 10.13.4,Python 3.6.5
Tesseract安装,$ Mac控制台命令提示符:
$brew install tesseract
安装过程中出现如下错误提示:
Error: The `brew link` step did not complete successfully
The formula built, but is not symlinked into /usr/local
Could not symlink lib/pkgconfig/tesseract.pc
/usr/local/lib/pkgconfig is not writable.
依次执行以下命令即可解决:
$sudo chown -R `whoami`:admin /usr/local/lib/pkgconfig/
$brew link tesseract
到此,Tesseract在Mac上已经安装成功,执行命令
$export TESSDATA_PREFIX=/usr/local/Cellar/tesseract/3.05.01/share/
$tesseract --version
出现:
tesseract 3.05.01
leptonica-1.75.3
libjpeg 9c : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11
表示安装成功。
测试一下效果,执行命令
$tesseract test.png output
其中,test.png为输入样本图形文件,output为输出,即在当前目录下会生成输出文件output.txt;
测试过程中可能出现错误,如下:
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Error in fopenReadStream: file not found
Error in pixRead: image file not found: <!DOCTYPE html>
Image file <!DOCTYPE html> cannot be read!
Error during processing.
此时,不用灰心,不是安装出的什么问题,而是输入文件test.png文件有问题,换文件即可。

本文详述了如何在macOS 10.13.4上使用Homebrew安装Tesseract OCR,包括解决安装过程中遇到的权限问题,并验证安装成功的步骤。最后,通过测试命令演示了Tesseract的基本用法。

266

被折叠的 条评论
为什么被折叠?



