文档章节

大话文本识别经典模型:CRNN

雪饼
 雪饼
发布于 2019/05/10 09:39
字数 1973
阅读 2.5W
收藏 14

「深度学习福利」大神带你进阶工程师,立即查看>>>

在前一篇文章中(详见本博客文章:大话文本检测经典模型 CTPN),介绍了文字识别在现实生活中的广泛应用,以及文字识别的简单流程:

其中“文本检测”、“文本识别”是其中两个关键环节,“文本检测”已经在前一篇文章中介绍了详细的介绍,本文主要介绍“文本识别”的经典模型CRNN及其原理。

 

在介绍CRNN之前,先来梳理一下要实现“文本识别”的模型,需要具备哪些要素:

(1)首先是要读取输入的图像,提取图像特征,因此,需要有个卷积层用于读取图像和提取特征。具体原理可详见本公众号的文章:白话卷积神经网络(CNN);

(2)由于文本序列是不定长的,因此在模型中需要引入RNN(循环神经网络),一般是使用双向LSTM来处理不定长序列预测的问题。具体原理可详见本公众号的文章:白话循环神经网络(RNN);

(3)为了提升模型的适用性,最好不要要求对输入字符进行分割,直接可进行端到端的训练,这样可减少大量的分割标注工作,这时就要引入CTC模型(Connectionist temporal classification, 联接时间分类),来解决样本的分割对齐的问题。

(4)最后根据一定的规则,对模型输出结果进行纠正处理,输出正确结果。

以上就是“文本识别”模型的几个必须具备的要素。

接下来要介绍的CRNN模型,也是基本由这几部分组成的。

 

1、什么是CRNN

CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络),是华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition》提出的一个识别文本的方法,该模型主要用于解决基于图像的序列识别问题,特别是场景文字识别问题。

CRNN的主要特点是:

(1)可以进行端到端的训练;

(2)不需要对样本数据进行字符分割,可识别任意长度的文本序列

(3)模型速度快、性能好,并且模型很小(参数少)

 

2、CRNN模型结构

CRNN模型的结构如下:

正如前面梳理的“文本识别”模型必须具备的要素,CRNN模型主要由以下三部分组成:

(1)卷积层:从输入图像中提取出特征序列;

(2)循环层:预测从卷积层获取的特征序列的标签分布;

(3)转录层:把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果。

 

下面将展开对这三个层进行介绍:

(1)卷积层

① 预处理

CRNN对输入图像先做了缩放处理,把所有输入图像缩放到相同高度,默认是32,宽度可任意长。

② 卷积运算

由标准的CNN模型中的卷积层和最大池化层组成,结构类似于VGG,如下图:

从上图可以看出,卷积层是由一系列的卷积、最大池化、批量归一化等操作组成。

③ 提取序列特征

提取的特征序列中的向量是在特征图上从左到右按照顺序生成的,用于作为循环层的输入,每个特征向量表示了图像上一定宽度上的特征,默认的宽度是1,也就是单个像素。由于CRNN已将输入图像缩放到同样高度了,因此只需按照一定的宽度提取特征即可。如下图所示:

(2)循环层

循环层由一个双向LSTM循环神经网络构成,预测特征序列中的每一个特征向量的标签分布。

由于LSTM需要有个时间维度,在本模型中把序列的 width 当作LSTM 的时间 time steps。

其中,“Map-to-Sequence”自定义网络层主要是做循环层误差反馈,与特征序列的转换,作为卷积层和循环层之间连接的桥梁,从而将误差从循环层反馈到卷积层。

 

(3)转录层

转录层是将LSTM网络预测的特征序列的结果进行整合,转换为最终输出的结果。

在CRNN模型中双向LSTM网络层的最后连接上一个CTC模型,从而做到了端对端的识别。所谓CTC模型(Connectionist Temporal Classification,联接时间分类),主要用于解决输入数据与给定标签的对齐问题,可用于执行端到端的训练,输出不定长的序列结果。

由于输入的自然场景的文字图像,由于字符间隔、图像变形等问题,导致同个文字有不同的表现形式,但实际上都是同一个词,如下图:

而引入CTC就是主要解决这个问题,通过CTC模型训练后,对结果中去掉间隔字符、去掉重复字符(如果同个字符连续出现,则表示只有1个字符,如果中间有间隔字符,则表示该字符出现多次),如下图所示:

 

以上就是文本识别模型CRNN的介绍,该模型既可用于识别英文、数字,也可用于识别中文。一般是跟CTPN结合一起使用,使用CTPN进行文字的检测,使用CRNN进行文字的识别。

本人使用CTPN+CRNN对中文识别出来的效果如下(隐去私密信息):

 

墙裂建议

2015年,Baoguang Shi 等人发表了关于CRNN的经典论文《 An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 》,在论文中详细介绍了CRNN的思想和技术原理,建议阅读该论文以进一步了解该模型。

关注本人公众号“大数据与人工智能Lab”(BigdataAILab),然后回复“论文”关键字可在线阅读经典论文的内容

 

推荐相关阅读

雪饼

雪饼

粉丝 599
博文 61
码字总数 134328
作品 0
广州
私信 提问
加载中
请先登录后再评论。
浅入浅出Android(003):使用TextView类构造文本控件

基础: TextView是无法供编辑的。 当我们新建一个项目MyTextView时候,默认的布局(/res/layout/activity_main.xml)中已经有了一个TextView: <TextView 运行效果如下: 修改其文本内容...

樂天
2014/03/22
680
1
桌面即时贴软件--GloboNote

GloboNote 是一个桌面记事软件,可帮你创建待办事宜、提醒和其他笔记信息。无限制即时贴的数量,可分组整理,支持搜索,可定制文本的显示格式(字体、颜色和大小),可将某个即时贴始终显示在...

匿名
2013/01/21
6.8K
1
代码生成器--Codgen

Codgen是一个基于数据库元数据模型,使用freemarker模板引擎来构建输出的代码生成器。freemarker的数据模型结构通常来说都是一个Map树状结构模型,codgen也不例外,它的数据模型这棵树的根节...

黄天政
2013/01/29
1.4W
2
基于 ThinkPHP 的内容管理系统--歪酷CMS

歪酷网站管理系统(歪酷CMS)是一款基于THINKPHP框架开发的PHP+MYSQL网站建站程序,本程序实现了文章和栏目的批量动态管理,支持栏目无限分类,实现多管理员管理,程序辅助功能也基本实现了常见的文...

鲁大在线
2013/02/19
7K
2
iOS 语音识别

OpenEars是一个开源的iOS类库,用于在iPhone和iPad实现语音识别功能。本demo利用此开源类库实现了简单的语音识别。可以识别:CHANGE、LEFT、RIGHT、FORWARD、BACKWARD、GO等英文,其他语素需...

匿名
2013/03/15
6.3K
0

没有更多内容

加载失败,请刷新页面

加载更多

华为大危机!余承东:麒麟芯片告罄,今年或许是高端芯片最后一代

     大数据文摘出品   作者:牛婉杨   美国制裁下,华为麒麟芯片即将告罄。   华为消费者业务CEO余承东称,由于来自美国的持续经济压力,华为下个月将无法生产自己的麒麟芯片组。...

osc_qmxpov5s
19分钟前
0
0
狂神说Java多线程详解(二)

狂神的视频截图作为学习记录:线程同步和线程协作。 本文分享自微信公众号 - Android架构师成长之路(gh_07f996f00d9b)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计...

datoushiwoma
07/13
5
0
英特尔20GB数据泄漏!包含未发芯片文件,内部密码多为intel123

     大数据文摘出品   来源:Arstechnica   近日,英特尔发生了一起重大的数据泄漏事故,超过20GB的专有数据和源代码被放在了网上。   这20GB的泄漏数据不仅量大,而且包含的内容...

osc_tjee7sjs
21分钟前
9
0
postgresql 主键 id 设置自增

创建自增序列(起始值必须大于 0 ) CREATE SEQUENCE standard_detail_id_seq START 1; 主键 ID 默认设置为 nextval('standard_detail_id_seq'::regclass)...

青苗
21分钟前
0
0
Ubuntu-16.04安装 VS code

安装微软Visual Studio Code 首先需要安装Ubuntu Make。虽然Ubuntu Make存在Ubuntu15.04官方库中,但是需要Ubuntu Make 0.7以上版本才能安装Visual Studio。所以,需要通过官方PPA更新到最新...

贪狼lyb
2019/11/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部