文档章节

也谈python使用 pytesser识别验证码

 夜游神
发布于 2014/06/29 11:35
字数 356
阅读 455
收藏 1

      一般安装步骤如下:

  1. 安装 PIL, 下载地址:http://www.pythonware.com/products/pil/  最新版本是1.1.7,并只支持 python 2.X版本。在windows环境下,可选择下载 PIL-1.1.7.win32-py2.7.exe 文件并执行后,PIL包会自动安装到 python目录中的lib\site-apckages子文件夹中。

  2. 安装 pytesser  下载地址 ,https://code.google.com/p/pytesser/downloads/detail?name=pytesser_v0.0.1.zip 。下载后展开zip文件到 第一步中的lib\site-apckages文件夹中。

  3. 安装Tesseract OCR engine。下载地址 http://code.google.com/p/tesseract-ocr/downloads/list 。此步很难做,本人从google下载了N次tesseract-ocr-setup-3.02.02.exe 都失败了。最后,从CSDN中成功下载此文件,但在安装时要在线从google中下载相关的Tesseract OCR包,所以总是安装不成功。

        因Tesseract不能安装成功,不能进行OCR识别。但分析pytesser发现,在pytesser包中有一个tesseract.exe文件,pytesser.py中就是调用 tesseract.exe 实现 image到text的识别和转换。所以,在实现简单的英文字母和数字识别时,不需要去下载安装   Tesseract OCR engine ,可直接用pytesser中的tesseract.exe和数据即可。

      还有最重要的一点:为了保证tesseract.exe能被正常调用执行,必须在windows的环境变量path设置中加入tesseract.exe的路径。

© 著作权归作者所有

共有 人打赏支持
粉丝 12
博文 14
码字总数 8786
作品 0
武汉
私信 提问
Python验证码识别:利用pytesser识别简单图形验证码

一、探讨 识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… 简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形...

j_hao104
2016/03/25
13.4K
1
python 验证码问题

tesseract-ocr-setup-3.02.02.exe 下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download?usemirror=jaist&r=https%3A%2F%2Fsourc......

lweihua
2017/06/12
0
0
Python外部模块介绍- pyocr 光学字符串识别 验证码破解相关

Python外部模块介绍- pyocr光学字符串识别 2013-05-24磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq 37391319 博客:http://blog.csdn.net/oychw #版权所有,转载刊登...

长平狐
2013/12/25
1K
0
Python3.6+selenium+pytesser3 实现爬虫:含验证码和弹框的页面信息爬取

最近帮实验室收集整理数据,学习并使用了一下爬虫,本篇 结合实例 系统的整理一下,教你如何写出一个你所需要的爬虫。 一、什么是爬虫 网络爬虫 也叫 网络蜘蛛 ,即 Web Spider,名字非常形象...

weberweber
2017/11/10
0
0
linux下安装使用pytesser,图片文本识别

pytesser是一个用于图片文本识别的python模块:http://code.google.com/p/pytesser/,即从文本的截图中还原出文本信息; 网上在windows上安装、使用的资料比较多,而没有linux的资料; 作者虽...

鉴客
2012/06/28
9.8K
3

没有更多内容

加载失败,请刷新页面

加载更多

day177-2018-12-14-英语流利阅读-待学习

艾滋病的治愈方法是否触手可及? Daniel 2018-12-14 1.今日导读 几十年来,艾滋病一直是世界上最难对付的“超级绝症”之一,从人类历史上第一次诊断出艾滋病病例的 20 世纪 80 年代早期到 20...

飞鱼说编程
6分钟前
0
0
java 合成两张图片或图片与二维码

java中偶尔会出现需要将一张小图片嵌入大图中或带二维码的海报图片,那么本文就是奔着这个目的来的,直接上腊肉! zxing是生成1D和2D条形或二维码的工具类库,java图形库Graphics2D进行图片的...

貔貅叔
11分钟前
0
0
80后阿里P10,“关老板”如何带着MaxCompute一路升级?

我是个幸运的人。虽然幸运不能被复制,但是眼光和努力可以。 关涛/关老板,80后的阿里P10,阿里巴巴通用计算平台负责人,阿里巴巴计算平台研究员。12年职场人生,微软和阿里的选择。 关涛的花...

阿里云官方博客
27分钟前
1
0
开源软件和开源模式面临的生存危机

开源模式可能正面临一场危机。越来越多的开源软件和平台被大型云计算服务商融入自家的云服务体系,并以此获利颇丰,但并不支付费用,也没有对开源社区做出相应的回馈。而实际上,大部分开源软...

Linux就该这么学
27分钟前
1
0
统一服务消息返回错误:{"errcode":40165,"errmsg":"invalid weapp pagepath hint: [bsAWua0201ge30]"}

{"errcode":40165,"errmsg":"invalid weapp pagepath hint: [bsAWua0201ge30]"} 原因:pagepath参数为所需跳转到小程序的具体页面路径,支持带参数,(示例index?foo=bar), 以前配置的是:m...

tianma3798
29分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部