文档章节

TextBoxes: A Fast Text Detector with a Single Deep Neural Network论文阅读

clgo
 clgo
发布于 2017/08/11 16:03
字数 929
阅读 198
收藏 0

**论文主题:**使用改进版的SSD实现文本检测。

论文贡献:

  1. 提出了一个可以用在场景文本检测的神经网络模型。
  2. 提出了一个结合文字检测和识别的端到端框架。
  3. 模型在保证有高的预测精度情况下还可以保存高的计算效率。

通常场景文本识别任务可以被分为两个步骤,第一,定位场景文本位置;第二,对定位后的场景文本进行识别。本篇论文对这两方面都有涉及,但是主要是解决文本定位问题。

场景文本定位问题通常有三种实现方法。第一,先识别字符,再识别单词;第二,直接识别单词,Textboxes就是基于单词识别实现的;第三,基于文本行实现文本定位。

Textboxes的实现是基于SSD算法的改进,SSD主要是检测一般图像中的对象,在用于场景文本检测时是不鲁棒的,因此论文提出了text-box神经网络层解决这个问题,是一个针对场景文本检测的修改版SSD算法。场景文本识别可以采用CRNN的方法,CRNN可以直接对输入的场景文本图片给一个文本输出,同时,可以使用CRNN的识别置信度来调整Textboxes算法。 输入图片说明

输入图片说明![![![输入图片说明]

Textboxes网络继承了VGG-16网络,前13层网络不变。最后两个全连接层通过参数降采样改为卷积层,最后三层跟有一个卷积层和池化层,由3层变为9层,text-box层也叫多输出层,由6层卷积层构成,每个卷积层都采用非极大值抑制。Textboxes网络只有卷积层和池化层组成,因此在训练和测试过程中适合任意尺寸的图片输入。

On a map location (i, j) which associates a default box b0 = (x0, y0, w0, h0), the text-box layer predicts the values of (∆x, ∆y, ∆w, ∆h, c), indicating that a box b = (x, y, w, h) is detected with confidencec, where

  • x = x0 + w0∆x,
  • y = y0 + h0∆y,
  • w = w0 exp(∆w),
  • h = h0 exp(∆h).

由于单词长短不确定性,我们定义了6个默认的长短比例(1,2,3,5,7,10),这样默认框会在水平方向上很稠密,为了避免在垂直方面很稀疏,每个框都设置了垂直便宜。而且在text-box层使用15的卷积层,不采用默认的33卷积层,1*5的卷积层更适合较大区域比例的文本输入,也能避免正方形的文本比例。

损失函数:L(x, c, l, g) = 1/N(Lconf(x, c) + αLloc(x, l, g)) x:匹配表明矩阵 c:置信度 l:预测位置 g:标签位置 N:是与标签位置匹配的框数量 We adopt the smooth L1 loss (Girshick 2015) for Lloc and a 2-class softmax loss for Lconf.

可以对原始图片进行拉伸来增加滤波器对极端情况下单词长宽比的识别,这样会稍微增加计算规模,但是可以提高预测精度。 An input image is rescaled into five scales, including (widthheight) 300300, 700700, 300700, 500700, and 16001600. Note that some scales squeeze image horizontally, so that some “long” words are shortened. Multi-scale inputs boost detection accuracy while slightly increasing the computational cost. On ICDAR 2013, they further improve f-measure of detection by 5 percents. Detecting all five scales takes 0.73s per image, and 0.24s if we remove the last 1600*1600 scale。

非极大值抑制:http://blog.csdn.net/u014365862/article/details/53376516

实验结果: 定位

输入图片说明

text spotting和端到端识别:

![输入图片说明]

效果展示:

输入图片说明

© 著作权归作者所有

共有 人打赏支持
clgo
粉丝 3
博文 99
码字总数 37086
作品 0
郑州
私信 提问
深度学习论文集锦(中英文对照):图像分类、物体识别等

论文译介是新智元最受欢迎的内容之一,这非常好理解,如今几乎每天都会新增几十乃至几百篇新的论文,其中不乏佳作,而新智元的任务则是将优秀论文和研究成果介绍给读者。 然而这只是第一步,...

技术小能手
2018/08/20
0
0
深度学习论文翻译

Deep Learning Papers Translation 如果觉得不错,可以去github给个star。 Image Classification ImageNet Classification with Deep Convolutional Neural Networks 中文版 中英文对照 Very......

Quincuntial
2018/01/25
0
0
GiovanniのCVPR2017之行

Author: Zongwei Zhou | 周纵苇 Weibo: @MrGiovanni Email: zongweiz@asu.edu CVPR官网信息: CVPR录用论文集 CVPR 2017 open access CVPR的流程 PDF: (link) Word: (link) At-a-Glance Sum......

MrGiovanni
2017/07/22
0
0
深度学习论文资源(截至2016年)

最近看到一篇不错的关于DL的论文索引(截止到2016年),内容质量还是很高的,都是些很经典的论文,值得一看,特此转载. 原文地址: http://www.dlworld.cn/YeJieDongTai/4385.html 从全局到枝...

Gavin__Zhou
2017/07/29
0
0
干货 | 深度学习论文汇总

  AI 科技评论按:本文作者罗浩,AI 科技评论授权转载。   本文用于记录自己平时收集的一些不错的往年(截止至 2017 / 12 / 29)深度学习论文,近9成的文章都是引用量3位数以上的论文,剩...

AI科技评论
2018/01/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周一乱弹 —— 白掌柜说了卖货不卖身

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @爱漫爱 :这是一场修行分享羽肿的单曲《Moony》 手机党少年们想听歌,请使劲儿戳(这里) @clouddyy :开不开心? 开心呀, 我又不爱睡懒觉…...

小小编辑
今天
14
3
大数据教程(11.7)hadoop2.9.1平台上仓库工具hive1.2.2搭建

上一篇文章介绍了hive2.3.4的搭建,然而这个版本已经不能稳定的支持mapreduce程序。本篇博主将分享hive1.2.2工具搭建全过程。先说明:本节就直接在上一节的hadoop环境中搭建了! 一、下载apa...

em_aaron
今天
4
0
开始看《JSP&Servlet学习笔记》

1:WEB应用简介。其中1.2.1对Web容器的工作流程写得不错 2:编写Servlet。搞清楚了Java的Web目录结构,以及Web.xml的一些配置作用。特别是讲了@WebServlet标签 3:请求与响应。更细致的讲了从...

max佩恩
今天
5
0
mysql分区功能详细介绍,以及实例

一,什么是数据库分区 前段时间写过一篇关于mysql分表的的文章,下面来说一下什么是数据库分区,以mysql为例。mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可...

吴伟祥
今天
5
0
SQL语句查询

1.1 排序 通过order by语句,可以将查询出的结果进行排序。放置在select语句的最后。 格式: SELECT * FROM 表名 ORDER BY 排序字段ASC|DESC; ASC 升序 (默认) DESC 降序 1.查询所有商品信息,...

stars永恒
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部