文档章节

通过maven调用tesseract引擎

请输入昵称被使用了
 请输入昵称被使用了
发布于 2017/05/15 20:04
字数 243
阅读 403
收藏 0

建议: 最好通过maven搭建自己的项目和引入相应的jar文件,这样可以避免版本不兼容的情况发生;

1、引入pom文件:

// tesseract-platform里面包含了所有tesseract所需要的jar
<dependency>
    <groupId>org.bytedeco.javacpp-presets</groupId>
    <artifactId>tesseract-platform</artifactId>
    <version>3.04.01-1.3</version>
</dependency>

2、下载上面pom文件里面对应的tessdata:

 https://github.com/tesseract-ocr/tessdata/blob/3.04.00/eng.traineddata

3、配置tessdata路径: 

// 第一个参数为tessdata文件夹所在路径,第二个参数为训练库名称
api.Init("E:\\tessdata", "eng")

4、测试代码:

package com.caxs.opencv;

import org.bytedeco.javacpp.*;
import static org.bytedeco.javacpp.lept.*;
import static org.bytedeco.javacpp.tesseract.*;

public class Main {
    public static void main(String[] args) {
        BytePointer outText;
        TessBaseAPI api = new TessBaseAPI();
        if (api.Init("E:\\tessdata", "eng") != 0) {
            System.err.println("Could not initialize tesseract.");
            System.exit(1);
        }

        // Open input image with leptonica library
        PIX image = pixRead("E:\\tessdata\\images\\ocr.png");
        api.SetImage(image);
        // Get OCR result
        outText = api.GetUTF8Text();
        System.out.println("OCR output:\n" + outText.getString());

        // Destroy used object and release memory
        api.End();
        outText.deallocate();
        pixDestroy(image);
     }
}

参考地址:

https://github.com/tesseract-ocr

© 著作权归作者所有

请输入昵称被使用了
粉丝 2
博文 67
码字总数 113687
作品 0
朝阳
程序员
私信 提问
百度BI平台--BiPlatform

百度开源的新一代一站式敏捷bi平台,提供报表和OLAP服务的敏捷BI平台 百度开源,业内领先的Holap敏捷BI分析平台,提供高性能、准实时、可扩展的、一站式的BI建模、分析平台。 如何快速构建B...

david_yuxue
2015/04/19
26.8K
6
图像识别类库 - Tesseract OCR

Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tessera...

匿名
2010/01/28
133.8K
1
Tesseract:简单的Java光学字符识别

1.1 介绍 开发具有一定价值的符号是人类特有的特征。对于人们来说识别这些符号和理解图片上的文字是非常正常的事情。与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们。 另一...

liululee
08/28
35
0
Java 验证码识别库 Tess4j 学习

Java 验证码识别库 Tess4j 学习 【在用java的Jsoup做爬虫爬取数据时遇到了验证码识别的问题(基于maven),找了网上挺多的资料,发现Tess4j可以自动识别验证码,在这里简单记录下学习过程及遇...

_TBHacker
2018/08/01
0
0
如何通过Tesseract开源OCR引擎创建Android OCR应用

Tesseract是遵守 Apache License 2.0协议的开源OCR引擎。这里介绍下如何在Android平台编译Tesseract,以及如何快速创建一个简单的OCR应用。 参考原文:Making an Android OCR Application w...

yushulx
2014/12/23
19.1K
3

没有更多内容

加载失败,请刷新页面

加载更多

代理模式之JDK动态代理 — “JDK Dynamic Proxy“

动态代理的原理是什么? 所谓的动态代理,他是一个代理机制,代理机制可以看作是对调用目标的一个包装,这样我们对目标代码的调用不是直接发生的,而是通过代理完成,通过代理可以有效的让调...

code-ortaerc
25分钟前
4
0
学习记录(day05-标签操作、属性绑定、语句控制、数据绑定、事件绑定、案例用户登录)

[TOC] 1.1.1标签操作v-text&v-html v-text:会把data中绑定的数据值原样输出。 v-html:会把data中值输出,且会自动解析html代码 <!--可以将指定的内容显示到标签体中--><标签 v-text=""></......

庭前云落
56分钟前
7
0
VMware vSphere的两种RDM磁盘

在VMware vSphere vCenter中创建虚拟机时,可以添加一种叫RDM的磁盘。 RDM - Raw Device Mapping,原始设备映射,那么,RDM磁盘是不是就可以称作为“原始设备映射磁盘”呢?这也是一种可以热...

大别阿郎
今天
10
0
【AngularJS学习笔记】02 小杂烩及学习总结

本文转载于:专业的前端网站☞【AngularJS学习笔记】02 小杂烩及学习总结 表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> <tr ng-repeat="x in names | orderBy ......

前端老手
昨天
14
0
Linux 内核的五大创新

在科技行业,创新这个词几乎和革命一样到处泛滥,所以很难将那些夸张的东西与真正令人振奋的东西区分开来。Linux内核被称为创新,但它又被称为现代计算中最大的奇迹,一个微观世界中的庞然大...

阮鹏
昨天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部