文档章节

Centos5.5 安装Tesseract-OCR

雪人
 雪人
发布于 2012/02/15 17:23
字数 345
阅读 7045
收藏 6
安装Tesseract-OCR 
准备工作:
编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)
yum install gcc gcc-c++ make

依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)

1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2. leptonica 需要源码编译安装
参考资料:
http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113
http://www.leptonica.org/source/README.html
下载 leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz
解压后切换到 leptonica-1.68 根目录
./configure
make
make install
tesseract安装:
依赖安装完毕后开始安装tesseract
下载 tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
解压后切换到 tesseract-3.01 根目录
(如果在make时遇到类似 strngs.h:1: error: stray '\357' in program 的错误,请将 tesseract-3.01/ccutil/strngs.h 文件转为 ANSI 编码保存,再重新编译)
./autogen.sh
./configure
make
make install
ldconfig
tesseract英文语言包安装:
下载 tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
解压后将 tesseract-ocr/tessdata 下的所有文件全部拷贝到 /usr/local/share/tessdata 下
安装完毕.
测试一下:
切换到解压后的 tesseract-3.01 根目录(这个目录下有一个自带的 phototest.tif 可以做测试用)
命令行:
tesseract phototest.tif phototest -l eng

输出:
Tesseract Open Source OCR Engine v3.01 with Leptonica
Page 0

这时应该在当前目录生成一个 phototest.txt 文本文件,内容就是 phototest.tif 显示的文字.

© 著作权归作者所有

雪人
粉丝 16
博文 6
码字总数 3132
作品 0
海淀
程序员
私信 提问
加载中

评论(17)

雪人
雪人 博主

引用来自“夜清澄”的评论

大佬 打扰下 虽然挖个坟有点那啥 但是实在是解决不了
我遇到了这个错 请问一下是怎么解决的
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Error in pixReadMemPng: function not present
Error in pixReadMem: png: no pix returned
Error during processing.
参考:https://blog.csdn.net/airk000/article/details/23876389
夜清澄
夜清澄
大佬 打扰下 虽然挖个坟有点那啥 但是实在是解决不了
我遇到了这个错 请问一下是怎么解决的
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Error in pixReadMemPng: function not present
Error in pixReadMem: png: no pix returned
Error during processing.
李亮97

引用来自“郭东波”的评论

你好,我想问一下,我按照你的步骤安装,出现了
Tesseract Open Source OCR Engine v3.01 with Leptonica
Error in pixReadStreamGif: function not present
Error in pixReadStream: gif: no pix returned
Error in pixRead: pix not read
Unsupported image type.
怎么可以解决一下,万分紧急,谢谢

哥们你这个问题我也碰到了 我是把 leptonica 卸载了 重新编译安装了下 就好了
雪人
雪人 博主

引用来自“G.Conanca”的评论

引用来自“雪人”的评论

引用来自“G.Conanca”的评论

引用来自“郭东波”的评论

你好,我想问一下,我按照你的步骤安装,出现了
Tesseract Open Source OCR Engine v3.01 with Leptonica
Error in pixReadStreamGif: function not present
Error in pixReadStream: gif: no pix returned
Error in pixRead: pix not read
Unsupported image type.
怎么可以解决一下,万分紧急,谢谢

yum install giflib-devel

亲自试过吗?GIF好像没这么简单哦

试过非多帧的,如:
http://www.poseidonpools.com.au/images/gallery-text.gif

我一般用 ImageMagick 转成统一的格式处理
zhantan
zhantan

引用来自“雪人”的评论

引用来自“G.Conanca”的评论

引用来自“郭东波”的评论

你好,我想问一下,我按照你的步骤安装,出现了
Tesseract Open Source OCR Engine v3.01 with Leptonica
Error in pixReadStreamGif: function not present
Error in pixReadStream: gif: no pix returned
Error in pixRead: pix not read
Unsupported image type.
怎么可以解决一下,万分紧急,谢谢

yum install giflib-devel

亲自试过吗?GIF好像没这么简单哦

试过非多帧的,如:
http://www.poseidonpools.com.au/images/gallery-text.gif
雪人
雪人 博主

引用来自“G.Conanca”的评论

引用来自“郭东波”的评论

你好,我想问一下,我按照你的步骤安装,出现了
Tesseract Open Source OCR Engine v3.01 with Leptonica
Error in pixReadStreamGif: function not present
Error in pixReadStream: gif: no pix returned
Error in pixRead: pix not read
Unsupported image type.
怎么可以解决一下,万分紧急,谢谢

yum install giflib-devel

亲自试过吗?GIF好像没这么简单哦
zhantan
zhantan

引用来自“郭东波”的评论

你好,我想问一下,我按照你的步骤安装,出现了
Tesseract Open Source OCR Engine v3.01 with Leptonica
Error in pixReadStreamGif: function not present
Error in pixReadStream: gif: no pix returned
Error in pixRead: pix not read
Unsupported image type.
怎么可以解决一下,万分紧急,谢谢

yum install giflib-devel
雪人
雪人 博主

引用来自“lixuan3”的评论

当我使用tesseract phototest.tif phototest -l eng命令时,出现如下错误:
actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 56
Segmentation fault

原码我没有改动,如何修改??
您能否告知我,你的邮箱,我现在在学习Tesseract-OCR的开发,但不会!有资料分享吗?

参考一下这个
http://code.google.com/p/tesseract-ocr/wiki/FAQ
里面有提到这个错误信息:
"If you get error during running tesseract, please check if you use correct version of traineddata (e.g. 3.00 with 3.01). You can not use 3.01 traineddata with tesseract 3.00."

大致意思是 你的 语言包版本 和 t-ocr 主程序版本不兼容
雪人
雪人 博主

引用来自“lixuan3”的评论

当我使用tesseract phototest.tif phototest -l eng命令时,出现如下错误:
actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 56
Segmentation fault

原码我没有改动,如何修改??
您能否告知我,你的邮箱,我现在在学习Tesseract-OCR的开发,但不会!有资料分享吗?

看上去好像是语言包有问题,贴一下你安装t-ocr的一些信息吧,版本什么的.^^
lica
lica
当我使用tesseract phototest.tif phototest -l eng命令时,出现如下错误:
actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 56
Segmentation fault

原码我没有改动,如何修改??
您能否告知我,你的邮箱,我现在在学习Tesseract-OCR的开发,但不会!有资料分享吗?
Tesseract Ocr文字识别

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract...

王磊的博客
2018/04/20
0
0
安装 Tesserocr (填坑)

转载请注明出处:https://www.jianshu.com/u/5e6f798c903a 环境: Win10_64 Python 3.6.6,安装路径 (后面会用到该路径) 1. 安装 Tesserocr tesserocr 是 Python 下的一个 OCR 识别库,该库本...

曾翔翔
2018/07/19
0
0
python 验证码问题

tesseract-ocr-setup-3.02.02.exe 下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download?usemirror=jaist&r=https%3A%2F%2Fsourc......

lweihua
2017/06/12
0
0
文本识别 使用 Tesseract 进行 OpenCV OCR 和 文本识别

原文链接 文本识别 使用 Tesseract 进行 OpenCV OCR 和 文本识别 在 2019年7月18日 上张贴 由 hotdog发表回复 文本识别 用 Tesseract 进行 OpenCV OCR 和 文本识 在本教程中,您将学习如何应...

热分享hotdog29
07/18
0
0
tesseract OCR识别工具及pytesseract

简介 可以使用pytesseract库从图像中提取文本。Tesseract是一款由Google赞助的开源OCR。 pytesseract是python包装器,它为可执行文件提供了pythonic API。 Tesseract(/'tesərækt/) 这个词的...

人工智能python自动化测试
2018/08/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Java 运行时获取方法参数名

本文整理 Java 运行时获取方法参数名的两种方法,Java 8 的最新的方法和 Java 8 之前的方法。 Java 8 的新特性 翻阅 Java 8 的新特性,可以看到有这么一条“JEP 118: Access to Parameter Na...

xiaomin0322
25分钟前
7
0
varchar和nvarchar有什么区别?

只是nvarchar支持多字节字符吗? 如果是这种情况,除了存储问题之外,使用varchars什么意义吗? #1楼 nVarchar将帮助您存储Unicode字符。 如果要存储本地化数据,这是可行的方法。 #2楼 nvar...

javail
28分钟前
5
0
如何通过curl调用使用HTTP请求发送标头?

我希望在Linux机器上向我的Apache服务器发送一个标头。 如何通过卷曲调用实现此目的? #1楼 得到: 使用JSON: curl -i -H "Accept: application/json" -H "Content-Type: application/json......

技术盛宴
44分钟前
5
0
SQL语句的执行过程

(一)架构组件 (二)执行流程

麦馍
49分钟前
6
0
如何快速核对Excel数据表?这样操作不同的数据一目了然

怎么快速的核对两个Excel数据表呢?组长给了同事两份报表让他在半小时内核对完毕,不同的地方要标记起来,这时候同事抱怨起来:“数据那么多半小时怎么够呢”?虽然嘴上在抱怨,但是他还是乖...

百因必有果
55分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部