文档章节

OCR文字识别软件到底是什么?

ABBYY
 ABBYY
发布于 2015/09/17 11:21
字数 1525
阅读 87
收藏 0

什么是OCR?

        OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法 将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成 文本格式,供文字处理软件进一步编辑加工的技术。

        若有疑问可直接访问:http://www.abbyychina.com/zhishiku/ocr-jiandanjieshao.html

        一款OCR文字识别软件,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使 能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。 从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。


OCR识别技巧

         1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确 率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然 会得不偿失。


        2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不 断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加 亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。

        3.选好扫描软件。选一款好的适合自己的OCR软件是作好文字识别工作的基础。ABBYY FineReader 12 OCR文字识别软件提供快速、准确、方便的方式来扫描文件、PDF格式、数字或移动电话图像转换成可编辑的格式,与99,8%的识别准确率OCR技术即刻能够识别文本,复制和粘贴,搜索或编辑,转换几乎所有打印的文档类型,包括书籍,杂志上的文章与复杂的布局。


        再选一个图像软件,第一,OCR软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理。


        4.在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,只要在扫描原稿的背面附。盖一张黑纸,扫描时,增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率。


        5.一般文本扫描原稿都为黑、白两色原稿,但是在扫描设置时却常将扫描模式设为灰度模式。特别是在原稿质量较差时,使用灰度模式扫描,并在扫描软件处理完后再继续识别,这样会得到较好的识别正确率。


        6.遇到图文混排的扫描原稿,首先明确使用的识别软件是否支持自动分析图文这一功能。使用ABBYY FineReader 12就不用担心这个问题,在进行这类扫描识别时,软件会自动计算出文本的内容、位置和先后顺序,文字部分可以按照标示顺序正常识别。


        7.在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。同时应保护扫描仪玻璃的干净和不受损害。


        8.先“预览”整体版面,选定要扫描的区域,再用“放大预览”工具,选择一小块进行放大显示到全屏幕,观察其文字的对比度,文字的深浅浓度,据情况调整"阀值"的大小,最终要求文字清晰,不浓(文字成团),不淡(文字断笔伐),一般在“阀值”80左右为宜,最后再扫描。


        9.如果要扫描印刷质量稍微差一些的文章,比如说报纸,扫描的结果将不会黑白分明,会出现大量的黑点,而且在字体的笔画上也会出现粘连现象。为获得较好的识别结果,必须仔细进行色调调节,反复扫描多次才能获得比较理想的结果。


        以上就是关于OCR文字识别软件的全部介绍,希望通过上述内容能够帮助大家对于OCR这个概念有一个更加深刻的了解和概念,也能帮助大家选择自己合适的OCR文字识别软件。


© 著作权归作者所有

共有 人打赏支持
ABBYY
粉丝 7
博文 347
码字总数 188111
作品 0
南京
私信 提问
到底什么是OCR

OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字...

ABBYY
2016/08/09
14
0
ocr文字识别软件是做什么的?看过这篇文章你就会懂

  在日常工作中有一款常用的工具,不知道你是否知道,它是会将手机屏幕上的字符进行识别的工具,这个工具是现在广为流传的办公和学习,可能有一些朋友谁不知道自己使用的是否也是这款软件,...

华夏后裔
2017/04/14
38
0
OCR是什么?OCR技术特点介绍

OCR是什么?   假设你想要数字化一本杂志的文章或印刷合同。你可能需要花时间重新输入,然后纠正错字。或者,你可以使用扫描仪(或数码相机)和光学字符识别软件只需要花费几分钟转换成数字...

yidongkaifa
2014/09/25
0
3
有了 iText,你截图,腾讯、Google OCR 帮你识别文字

比如,在看类似上面的扫描版 PDF 时,想要复制其中的文字,怎么办?手打?太累。试试我新开发的工具 iText 吧。 iText 是 macOS 平台的 OCR 工具,自带截图功能,选择屏幕任意区域,即可识别...

atJason
2017/11/30
0
0
轻松将工作中的图片转换成word文档的方法

  古人云,事半功倍者乃真人也,事倍功半者乃小人也。这句话用在我们这些年轻人的身上是最好不过的了,不管做什么事只要能达到事半功倍就是非常成功的。   我是一名软文编辑人员,每天在...

华夏后裔
2017/04/11
452
0

没有更多内容

加载失败,请刷新页面

加载更多

Java网络编程

基本概念 网络IO会涉及到同步,异步,阻塞,非阻塞等几个概念。 一个网络IO读取过程是数据从 网卡 到 内核缓冲区 到 用户内存 的过程。同步和异步区别在于数据从内核到用户内存的过程是否需要...

春哥大魔王的博客
27分钟前
1
0
Spring "reg:zookeeper" 的前缀 "reg" 未绑定等类似问题解决方案。

今天同事遇到一个Spring启动加载配置文件时,不识别reg:zookeeper标签的问题。 我查看配置,发现是Spring配置文件的头部没有引入reg标签的命名空间,具体如下图: 所以,以后遇到类似的标签未...

花漾年华
56分钟前
1
0
阿里云领衔云市场

近期,2018年Q4及全年的全球云基础设施服务市场数据新鲜出炉,发布方是美国市场研究机构Synergy Research Group。这个机构是专做电信网络市场情报的公司,成立于1999年,每年都会公布各大公有...

linuxCool
今天
2
0
C++友元函数和友元类(C++ friend)详解

私有成员只能在类的成员函数内部访问,如果想在别处访问对象的私有成员,只能通过类提供的接口(成员函数)间接地进行。这固然能够带来数据隐藏的好处,利于将来程序的扩充,但也会增加程序书...

shzwork
今天
3
0
JAVA对map进行分组

public static Map<String, List<Map<String, Object>>> transition(List<Map<String, Object>> list){ Map<String, List<Map<String, Object>>> map = new HashMap<>(); //......

火龙战士
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部