不可否认python是一门强大的语言,但也不能否认的是目前来看python有太多第三方库安装失败率很高。tesserocr验证码识别库就是其中一个。今天就用一些时间来解决tesserocr安装过程中遇到的报错及麻烦(window系统)。
第一步:先安装tesseract
在安装tesserocr库之前,需要现在电脑上安装tesseract,下载地址传送门。下载适合你自己电脑的安装包即可。然后根据你的需求一路next即可。安装这个没什么特殊 。
安装完后,需要配置环境变量:桌面我的电脑(右键)→ 属性 → 高级系统设置 → 环境变量设置
首先在你的用户变量path里面新增一条你得tesseract的安装路径(比如我的路径):F:\software\tesseract
然后在你的系统变量里面新增一个变量名:TESSDATA_PREFIX;
变量值(你的tesseract安装目录下的tessdata目录):F:\software\tesseract\tessdata
配置好后什么也不说,点击保存确定。
第二步:下载匹配你电脑的tesserocr资源
上面执行完以后,本以为会顺顺利利的执行‘pip install tesserocr pillow’,结果会让你大失所望,甚至会抓耳挠腮。有点想骂街了。对,会报错,莫名其妙的报错。莫着急,咱有办法。
下载对应的tesserocr资源到本地,然后在通过命令行来执行安装这个文件。tesserocr资源传送门。同样下载和你电脑匹配的版本即可(比如我的是python3.10,window64位)。
下载完成后,记得在cmd中运行 pip install ‘你下载的文件’,文件可以直接拖进窗口。运行后终于看到了successful的字样。开心的像个200斤的胖子。
这个时候终于可以写代码了吧,当你在PyCharm编辑器中引入“import tesserocr”的时候发现,找不到此库。怎么办?
第三步:在PyCharm的终端中再执行一次安装tesserocr资源的命令
对,把上面的步骤在你的编辑器终端命令里在执行一次,这次你会惊奇的发现成功了。当然也看到有网友说这一步也存在报错的可能,那就把你的tesseract安装包里面的tessdata文件夹复制到你的python安装包的script目录下,在执行上面的操作。
终于终于算是一切进入正规了。
第四步:开始敲代码
引入tesserocr库,开始你的第一个验证码识别:
from PIL import Image
import tesserocr
# 新建一个image对象,传入要识别的图片地址
image = Image.open('y1.png')
# tesserocr库进行识别
result = tesserocr.image_to_text(image)
# 打印识别后的结果
print(result)