文档章节

如何在ABBYY FineReader中创建正则表达式

ABBYY
 ABBYY
发布于 2015/10/28 11:27
字数 656
阅读 29
收藏 0

        ABBYY FineReader是一款OCR文字识别软件,在识别文本时,可通过创建自定义语言,识别包含很多非常用元素(如代码编号)的文本字符,今天就为大家列出了在ABBYY FineReader用于创建自定义语言词典的正则表达式具体方法。

       若有疑问可直接访问:http://www.abbyychina.com/FRshiyongjiqiao/abbyyfr-zhengzebds.html


注:

        1、要将正则表达式符号作为正常字符使用,请在符号前添加反斜线。例如,[t-v]x+ 代表tx、txx、txx 等和ux、uxx等,而\[t-v\]x+则代表[t-v]x、[t-v]xx、[t-v]xxx等。

        2、要分组正则表达式元素,请使用括号。例如,(a|b)+|c代表c或任何类似abbbaaabbb、ababab的组合(任何长度非零、其中可能有按任意顺序排列的任意个数的a和b的单词),而a|b+|c则代表a、c和b、bb、bbb等。 

 

示例:

        假设识别包含三列的表格:出生日期、姓名、电子邮件地址,在这种情况下,可以创建两种新语言、数据和地址,并为它们指定以下正则表达式:

日期的正则表达式:

        表示日的数字可由一位数字(1、2 等)或两位数字(02、12)组成,但不能为零(00 或 0),日的正则表达式应显示为:((|0)[1-9])|([1|2][0-9])|(30)|(31);

        月的正则表达式应显示为:((|0)[1-9])|(10)|(11)|(12);

        年的正则表达式应显示为:([19][0-9][0-9]|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])。

        接下来,需要将所有这些组合起来并用句点隔开数字(如 1.03.1999),句点也是正则表达式符号,所以必须在前面添加反斜线 (\),因此,完整日期的正则表达式应显示为: ((|0)[1-9])|([1|2][0-9])|(30)|(31)\.((|0)[1-9])|(10)|(11)|(12)\.((19)[0-9][0-9])|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])

        电子邮件地址的正则表达式

        [a-zA-Z0-9_\-\.]+\@[a-z0-9\.\-]+

        以上就是用于创建自定义语言词典的正则表达式的具体方法了,希望同属上述内容的描述能够帮助大家对于ABBYY FineReader中关于自定义语言词典的正则表达式中正则表达式的创建以及运用,有一个更详细的认识和运用。



© 著作权归作者所有

共有 人打赏支持
ABBYY
粉丝 5
博文 347
码字总数 188111
作品 0
南京
用户语言该怎么在ABBYY FineReader中创建

ABBYY FineReader是一款OCR文字识别软件,在识别文本时使用文档语言相关的数据,对于包含很多非常用元素(如代码编号)的文本,程序可能无法识别某些字符,因为文档语言可能没有包含此类字符...

ABBYY
2015/10/20
60
0
ABBYY FineReader中如何使用在线存储服务

ABBYY FineReader是一款OCR文字识别软件,使用该软件识别文本时,可以从在线存储服务中打开图像或PDF文件,并将已识别文本保存至在线存储服务中,如 Dropbox、SkyDrive或Google Drive等,通过...

ABBYY
2015/10/26
0
0
FineReader Pro for Mac中的Automator工具的用法

  ABBYY FineReader 12是一款图片文字识别软件,能够快速、准确、便捷地将扫描文件、PDF格式、数字或数码图像等转换成可编辑的格式。其中简体中文版和Professional版适合个人安装使用,而A...

ABBYY
2016/04/18
66
0
ABBYY FineReader中包含非常规符号的文本该怎么识别

ABBYY FineReader 12是一款OCR文字识别软件,可快速方便地将扫描纸质文档、PDF文件和数码相机的图像转换成可编辑、可搜索的文本,有时文本中可能会包含一些非常规的符号,此时ABBYY FineRea...

ABBYY
2015/12/15
33
0
ABBYY FineReader 12你可能经常会遇见的问题(二)

ABBYY FineReader 12是市场领先的OCR文字识别软件,可快速方便地将扫描纸质文档、PDF文件和数码相机的图像转换成可编辑、可搜索的文本,初次接触该软件的用户可能会有很多疑问,上文为大家整...

ABBYY
2016/01/06
518
0

没有更多内容

加载失败,请刷新页面

加载更多

Shell特殊符号总结以及cut,sort,wc,uniq,tee,tr,split命令

特殊符号总结一 * 任意个任意字符 ? 任意一个字符 # 注释字符 \ 脱义字符 | 管道符 # #号后的备注被忽略[root@centos01 ~]# ls a.txt # 备注 a.txt[root@centos01 ~]# a=1[root@centos01...

野雪球
今天
2
0
OSChina 周二乱弹 —— 程序员圣衣

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @达尔文:分享Skeeter Davis的单曲《The End of the World》 《The End of the World》- Skeeter Davis 手机党少年们想听歌,请使劲儿戳(这里...

小小编辑
今天
13
0
[ python import module ] 导入模块

import moudle_name ----> import module_name.py ---> import module_name.py文件路径 -----> sys.path (这里进行查找文件) # from app.web import Personimport app.web.Person as Pe......

_______-
昨天
5
0
Redis性能问题排查解决手册

一、性能相关的数据指标 通过Redis-cli命令行界面访问到Redis服务器,然后使用info命令获取所有与Redis服务相关的信息。通过这些信息来分析文章后面提到的一些性能指标。 nfo命令输出的数据可...

IT--小哥
昨天
2
0
mixin混入

①新建mixin.js文件 const mixin = { methods: { /** * 分页公共方法 */ handleSizeChange(val) { this.pageData.size = val; this.query(); }, hand......

不负好时光
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部