文档章节

也谈python使用 pytesser识别验证码

 夜游神
发布于 2014/06/29 11:35
字数 356
阅读 414
收藏 1
点赞 0
评论 0

      一般安装步骤如下:

  1. 安装 PIL, 下载地址:http://www.pythonware.com/products/pil/  最新版本是1.1.7,并只支持 python 2.X版本。在windows环境下,可选择下载 PIL-1.1.7.win32-py2.7.exe 文件并执行后,PIL包会自动安装到 python目录中的lib\site-apckages子文件夹中。

  2. 安装 pytesser  下载地址 ,https://code.google.com/p/pytesser/downloads/detail?name=pytesser_v0.0.1.zip 。下载后展开zip文件到 第一步中的lib\site-apckages文件夹中。

  3. 安装Tesseract OCR engine。下载地址 http://code.google.com/p/tesseract-ocr/downloads/list 。此步很难做,本人从google下载了N次tesseract-ocr-setup-3.02.02.exe 都失败了。最后,从CSDN中成功下载此文件,但在安装时要在线从google中下载相关的Tesseract OCR包,所以总是安装不成功。

        因Tesseract不能安装成功,不能进行OCR识别。但分析pytesser发现,在pytesser包中有一个tesseract.exe文件,pytesser.py中就是调用 tesseract.exe 实现 image到text的识别和转换。所以,在实现简单的英文字母和数字识别时,不需要去下载安装   Tesseract OCR engine ,可直接用pytesser中的tesseract.exe和数据即可。

      还有最重要的一点:为了保证tesseract.exe能被正常调用执行,必须在windows的环境变量path设置中加入tesseract.exe的路径。

© 著作权归作者所有

共有 人打赏支持
粉丝 12
博文 12
码字总数 8786
作品 0
武汉
博客园目录

table标签中thead、tbody、tfoot的作用http://www.cnblogs.com/zhouxinfei/p/8001510.html python selenium模拟滑动操作http://www.cnblogs.com/zhouxinfei/p/8001506.html Selenium webdriv......

_周小董 ⋅ 2017/12/09 ⋅ 0

Python验证码识别:利用pytesser识别简单图形验证码

一、探讨 识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… 简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形...

j_hao104 ⋅ 2016/03/25 ⋅ 1

Python3.6+selenium+pytesser3 实现爬虫:含验证码和弹框的页面信息爬取

最近帮实验室收集整理数据,学习并使用了一下爬虫,本篇 结合实例 系统的整理一下,教你如何写出一个你所需要的爬虫。 一、什么是爬虫 网络爬虫 也叫 网络蜘蛛 ,即 Web Spider,名字非常形象...

weberweber ⋅ 2017/11/10 ⋅ 0

python 验证码问题

tesseract-ocr-setup-3.02.02.exe 下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download?usemirror=jaist&r=https%3A%2F%2Fsourc......

lweihua ⋅ 2017/06/12 ⋅ 0

使用python PIL库实现简单验证码的去噪

首先要感谢一下字符型图片验证码识别完整过程及Python实现的博主,我的大部分知识点都是从他那里学来的。 想要识别验证码,收集足够多的样本后,首先要做的就是对验证码原始图片进行处理,对...

u012067766 ⋅ 04/20 ⋅ 0

Python3.6实现12306火车票自动抢票,附源码

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象、直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理...

猫咪编程 ⋅ 06/05 ⋅ 0

使用Python爬取天猫店铺联系方式|思路与方法

1、获取商家信息 很多初创公司为了获得客户资源,通常会有大量的可拜访客户信息的需求。如果是在以前,那么可以通过查看黄页上的企业信息数据,获得企业的联系方式,从而联系上企业负责人得以...

州的先生 ⋅ 05/22 ⋅ 0

python 爬虫进阶

1. 爬取重 ajax 页面, 推荐谷歌优先搜索 phantomjs, 其次selenium. 破解图片验证码, 推荐谷歌开源库 pytesser 进一步深入可以学习, 谷歌搜索 pandas, numpy, k近邻算法. 过滤器, 推荐谷歌搜索...

铁扇公主1 ⋅ 2017/03/22 ⋅ 8

福利 | Python专场竞技,这些书给你加把力!

端午节将至,各地龙舟备战竞技,粽子部队也整装待发。小编掐指一算,这种热闹的时节,是时候展现真正的技(fu)术(li)了! (“Python号”龙舟闪亮登场!) Python作为当下最流行的编程语言...

⋅ 06/15 ⋅ 0

python版 —— 验证码校验 打码兔平台的使用介绍

python版 —— 验证码校验 打码兔平台的使用介绍 1. 背景 验证码(CAPTCHA)的全称是全自动区分计算机和人类的图灵测试(Completely Automated Public Turing Test to tell Computers and H...

zwq912318834 ⋅ 2017/11/23 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JavaScript零基础入门——(八)JavaScript的数组

JavaScript零基础入门——(八)JavaScript的数组 欢迎大家回到我们的JavaScript零基础入门,上一节课我们讲了有关JavaScript正则表达式的相关知识点,便于大家更好的对字符串进行处理。这一...

JandenMa ⋅ 今天 ⋅ 0

sbt网络问题解决方案

转自:http://dblab.xmu.edu.cn/blog/maven-network-problem/ cd ~/.sbt/launchers/0.13.9unzip -q ./sbt-launch.jar 修改 vi sbt/sbt.boot.properties 增加一个oschina库地址: [reposit......

狐狸老侠 ⋅ 今天 ⋅ 0

大数据,必须掌握的10项顶级安全技术

我们看到越来越多的数据泄漏事故、勒索软件和其他类型的网络攻击,这使得安全成为一个热门话题。 去年,企业IT面临的威胁仍然处于非常高的水平,每天都会看到媒体报道大量数据泄漏事故和攻击...

p柯西 ⋅ 今天 ⋅ 0

Linux下安装配置Hadoop2.7.6

前提 安装jdk 下载 wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz 解压 配置 vim /etc/profile # 配置java环境变量 export JAVA_HOME=/opt/jdk1......

晨猫 ⋅ 今天 ⋅ 0

crontab工具介绍

crontab crontab 是一个用于设置周期性被执行的任务工具。 周期性执行的任务列表称为Cron Table crontab(选项)(参数) -e:编辑该用户的计时器设置; -l:列出该用户的计时器设置; -r:删除该...

Linux学习笔记 ⋅ 今天 ⋅ 0

深入Java多线程——Java内存模型深入(2)

5. final域的内存语义 5.1 final域的重排序规则 1.对于final域,编译器和处理器要遵守两个重排序规则: (1)在构造函数内对一个final域的写入,与随后把这个被构造对象的引用赋值给一个引用...

江左煤郎 ⋅ 今天 ⋅ 0

面试-正向代理和反向代理

面试-正向代理和反向代理 Nginx 是一个高性能的反向代理服务器,但同时也支持正向代理方式的配置。

秋日芒草 ⋅ 今天 ⋅ 0

Spring 依赖注入(DI)

1、Setter方法注入: 通过设置方法注入依赖。这种方法既简单又常用。 类中定义set()方法: public class HelloWorldOutput{ HelloWorld helloWorld; public void setHelloWorld...

霍淇滨 ⋅ 昨天 ⋅ 0

马氏距离与欧氏距离

马氏距离 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。 如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也...

漫步当下 ⋅ 昨天 ⋅ 0

聊聊spring cloud的RequestRateLimiterGatewayFilter

序 本文主要研究一下spring cloud的RequestRateLimiterGatewayFilter GatewayAutoConfiguration @Configuration@ConditionalOnProperty(name = "spring.cloud.gateway.enabled", matchIfMi......

go4it ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部