文档章节

也谈python使用 pytesser识别验证码

 夜游神
发布于 2014/06/29 11:35
字数 356
阅读 441
收藏 1

      一般安装步骤如下:

  1. 安装 PIL, 下载地址:http://www.pythonware.com/products/pil/  最新版本是1.1.7,并只支持 python 2.X版本。在windows环境下,可选择下载 PIL-1.1.7.win32-py2.7.exe 文件并执行后,PIL包会自动安装到 python目录中的lib\site-apckages子文件夹中。

  2. 安装 pytesser  下载地址 ,https://code.google.com/p/pytesser/downloads/detail?name=pytesser_v0.0.1.zip 。下载后展开zip文件到 第一步中的lib\site-apckages文件夹中。

  3. 安装Tesseract OCR engine。下载地址 http://code.google.com/p/tesseract-ocr/downloads/list 。此步很难做,本人从google下载了N次tesseract-ocr-setup-3.02.02.exe 都失败了。最后,从CSDN中成功下载此文件,但在安装时要在线从google中下载相关的Tesseract OCR包,所以总是安装不成功。

        因Tesseract不能安装成功,不能进行OCR识别。但分析pytesser发现,在pytesser包中有一个tesseract.exe文件,pytesser.py中就是调用 tesseract.exe 实现 image到text的识别和转换。所以,在实现简单的英文字母和数字识别时,不需要去下载安装   Tesseract OCR engine ,可直接用pytesser中的tesseract.exe和数据即可。

      还有最重要的一点:为了保证tesseract.exe能被正常调用执行,必须在windows的环境变量path设置中加入tesseract.exe的路径。

© 著作权归作者所有

共有 人打赏支持
粉丝 12
博文 14
码字总数 8786
作品 0
武汉
Python验证码识别:利用pytesser识别简单图形验证码

一、探讨 识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… 简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形...

j_hao104
2016/03/25
13.4K
1
python 验证码问题

tesseract-ocr-setup-3.02.02.exe 下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download?usemirror=jaist&r=https%3A%2F%2Fsourc......

lweihua
2017/06/12
0
0
博客园目录

table标签中thead、tbody、tfoot的作用http://www.cnblogs.com/zhouxinfei/p/8001510.html python selenium模拟滑动操作http://www.cnblogs.com/zhouxinfei/p/8001506.html Selenium webdriv......

_周小董
2017/12/09
0
0
Python3.6+selenium+pytesser3 实现爬虫:含验证码和弹框的页面信息爬取

最近帮实验室收集整理数据,学习并使用了一下爬虫,本篇 结合实例 系统的整理一下,教你如何写出一个你所需要的爬虫。 一、什么是爬虫 网络爬虫 也叫 网络蜘蛛 ,即 Web Spider,名字非常形象...

weberweber
2017/11/10
0
0
Python图像处理之图片验证码识别

  在上一篇博客Python图像处理之图片文字识别(OCR)中我们介绍了在Python中如何利用Tesseract软件来识别图片中的英文与中文,本文将具体介绍如何在Python中利用Tesseract软件来识别验证码...

jclian91
06/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

MySQL SQL 常见用法

某字段重复记录 select a.fieldA from tableA a group by a.fieldA having count(a.fieldA)>1;==select * from (select a.fieldA, count(1) as faCount from tableA a group......

园领T
16分钟前
0
0
如何使用 iptables 和 firewalld 工具来管理 Linux 防火墙规则

以下是如何使用 iptables 和 firewalld 工具来管理 Linux 防火墙规则。 防火墙 防火墙是一组规则。当数据包进出受保护的网络区域时,进出内容(特别是关于其来源、目标和使用的协议等信息)会...

linuxprobe16
39分钟前
0
0
发生系统错误 5 拒绝访问

1、使用命令net start *开启一个服务的时候,出现发生系统错误5,拒绝访问。 解决:切换到管理员模式执行此命令即可。

fang_faye
47分钟前
1
0
devops 成长路线

https://36kr.com/p/5157249.html

swingcoder
今天
1
0
Java内存区域的划分和异常

行时数据区域 JVM在运行Java程序时候会将内存划分为若干个不同的数据区域。 程序计数器 线程私有。可看作是当前线程所执行的字节码的行号指示器,字节码解释器的工作是通过改变这个计数值来读...

架构师springboot
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部