文档章节

TextBoxes: A Fast Text Detector with a Single Deep Neural Network论文阅读

clgo
 clgo
发布于 2017/08/11 16:03
字数 929
阅读 134
收藏 0
点赞 0
评论 0

**论文主题:**使用改进版的SSD实现文本检测。

论文贡献:

  1. 提出了一个可以用在场景文本检测的神经网络模型。
  2. 提出了一个结合文字检测和识别的端到端框架。
  3. 模型在保证有高的预测精度情况下还可以保存高的计算效率。

通常场景文本识别任务可以被分为两个步骤,第一,定位场景文本位置;第二,对定位后的场景文本进行识别。本篇论文对这两方面都有涉及,但是主要是解决文本定位问题。

场景文本定位问题通常有三种实现方法。第一,先识别字符,再识别单词;第二,直接识别单词,Textboxes就是基于单词识别实现的;第三,基于文本行实现文本定位。

Textboxes的实现是基于SSD算法的改进,SSD主要是检测一般图像中的对象,在用于场景文本检测时是不鲁棒的,因此论文提出了text-box神经网络层解决这个问题,是一个针对场景文本检测的修改版SSD算法。场景文本识别可以采用CRNN的方法,CRNN可以直接对输入的场景文本图片给一个文本输出,同时,可以使用CRNN的识别置信度来调整Textboxes算法。 输入图片说明

输入图片说明![![![输入图片说明]

Textboxes网络继承了VGG-16网络,前13层网络不变。最后两个全连接层通过参数降采样改为卷积层,最后三层跟有一个卷积层和池化层,由3层变为9层,text-box层也叫多输出层,由6层卷积层构成,每个卷积层都采用非极大值抑制。Textboxes网络只有卷积层和池化层组成,因此在训练和测试过程中适合任意尺寸的图片输入。

On a map location (i, j) which associates a default box b0 = (x0, y0, w0, h0), the text-box layer predicts the values of (∆x, ∆y, ∆w, ∆h, c), indicating that a box b = (x, y, w, h) is detected with confidencec, where

  • x = x0 + w0∆x,
  • y = y0 + h0∆y,
  • w = w0 exp(∆w),
  • h = h0 exp(∆h).

由于单词长短不确定性,我们定义了6个默认的长短比例(1,2,3,5,7,10),这样默认框会在水平方向上很稠密,为了避免在垂直方面很稀疏,每个框都设置了垂直便宜。而且在text-box层使用15的卷积层,不采用默认的33卷积层,1*5的卷积层更适合较大区域比例的文本输入,也能避免正方形的文本比例。

损失函数:L(x, c, l, g) = 1/N(Lconf(x, c) + αLloc(x, l, g)) x:匹配表明矩阵 c:置信度 l:预测位置 g:标签位置 N:是与标签位置匹配的框数量 We adopt the smooth L1 loss (Girshick 2015) for Lloc and a 2-class softmax loss for Lconf.

可以对原始图片进行拉伸来增加滤波器对极端情况下单词长宽比的识别,这样会稍微增加计算规模,但是可以提高预测精度。 An input image is rescaled into five scales, including (widthheight) 300300, 700700, 300700, 500700, and 16001600. Note that some scales squeeze image horizontally, so that some “long” words are shortened. Multi-scale inputs boost detection accuracy while slightly increasing the computational cost. On ICDAR 2013, they further improve f-measure of detection by 5 percents. Detecting all five scales takes 0.73s per image, and 0.24s if we remove the last 1600*1600 scale。

非极大值抑制:http://blog.csdn.net/u014365862/article/details/53376516

实验结果: 定位

输入图片说明

text spotting和端到端识别:

![输入图片说明]

效果展示:

输入图片说明

© 著作权归作者所有

共有 人打赏支持
clgo
粉丝 2
博文 92
码字总数 36496
作品 0
郑州
深度学习论文翻译

Deep Learning Papers Translation 如果觉得不错,可以去github给个star。 Image Classification ImageNet Classification with Deep Convolutional Neural Networks 中文版 中英文对照 Very......

Quincuntial
01/25
0
0
GiovanniのCVPR2017之行

Author: Zongwei Zhou | 周纵苇 Weibo: @MrGiovanni Email: zongweiz@asu.edu CVPR官网信息: CVPR录用论文集 CVPR 2017 open access CVPR的流程 PDF: (link) Word: (link) At-a-Glance Sum......

MrGiovanni
2017/07/22
0
0
干货 | 深度学习论文汇总

  AI 科技评论按:本文作者罗浩,AI 科技评论授权转载。   本文用于记录自己平时收集的一些不错的往年(截止至 2017 / 12 / 29)深度学习论文,近9成的文章都是引用量3位数以上的论文,剩...

AI科技评论
01/01
0
0
深度学习论文资源(截至2016年)

最近看到一篇不错的关于DL的论文索引(截止到2016年),内容质量还是很高的,都是些很经典的论文,值得一看,特此转载. 原文地址: http://www.dlworld.cn/YeJieDongTai/4385.html 从全局到枝...

Gavin__Zhou
2017/07/29
0
0
深度学习经典论文整理

awesome-free-deep-learning-papers https://github.com/HFTrader/awesome-free-deep-learning-papers Survey Review Deep learning (2015), Y. LeCun, Y. Bengio and G. Hinton [pdf] ✨ De......

geowangsh
2016/09/08
697
0
机器学习与人脸识别领域的一些代表性论文清单及简介

[1] Tolba A S, El-Baz A H, El-Harby A A A. Face Recognition: A Literature Review[J]. International Journal of Signal Processing, 2006, 2(1):88-103. 综述 [2]Hinton, G.E., Osinder......

wang7807564
05/13
0
0
资源 | 机器学习、NLP、Python和Math最好的150余个教程(建议收藏)

编辑 | MingMing 尽管机器学习的历史可以追溯到1959年,但目前,这个领域正以前所未有的速度发展。最近,我一直在网上寻找关于机器学习和NLP各方面的好资源,为了帮助到和我有相同需求的人,...

dqcfkyqdxym3f8rb0
2017/12/29
0
0
深度学习论文分类整理

1 深度学习历史和基础 1.0 书籍 █[0] Bengio, Yoshua, Ian J. Goodfellow, and Aaron Courville. "Deep learning." An MIT Press book. (2015). [pdf] (Ian Goodfellow 等大牛所著的教科书,......

u011239443
01/03
0
1
每周「Paper + Code」清单:句子嵌入,文本表示,图像风格转换

在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。 点击本文底部的「阅读原文」...

c9yv2cf9i06k2a9e
2017/12/21
0
0
计算机视觉、机器学习相关领域论文和源代码大集合

一、特征提取Feature Extraction: · SIFT [1] [Demo program][SIFT Library] [VLFeat] · PCA-SIFT [2] [Project] · Affine-SIFT [3] [Project] · SURF [4] [OpenSURF] [Matlab Wrapper]......

wangdy
2016/08/02
213
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

设计模式-工厂模式

工厂模式 解释 根据参数返回对应的实例使用该实例进行操作 BeanFactory Object obj = BeanFactory.getBean(String name);getBean方法中根据name参数进行处理在程序外部使用obj实例增加n...

郭里奥
9分钟前
0
0
python使用有序字典

python自带的collections包中有很多有用的数据结构可供使用,其中有个叫OrderedDict类,它可以在使用的时候记录元素插入顺序,在遍历使用的时候就可以按照原顺序遍历。 a = {"a":1,"b"...

芝麻糖人
34分钟前
0
0
RestTemplate HttpMessageConverter

RestTemplate 微信接口 text/plain HttpMessageConverter

微小宝
35分钟前
0
0
mysql视图/存储过程/函数/事件/触发器

--语法参考:https://dev.mysql.com/doc/ (当前用的是5.6) https://dev.mysql.com/doc/refman/5.6/en/sql-syntax-data-manipulation.html --视图 CREATE VIEW test.v AS SELECT * FROM t;......

坦途abc
36分钟前
0
0
MySQL参数优化案例

环境介绍 硬件配置 cpu核心数 内存大小 磁盘空间 16核 256G 3T 软件环境 操作系统版本 mysql版本 表数目 单表行数 centos-7.4 mysql-5.7.22 128张表 2kw行 优化层级与指导思想 优化层级 MySQ...

小致dad
46分钟前
0
0
【HAVENT原创】NodeJS 短网址开发(调用第三方接口)

最近想弄个短网址的示例站点,在网上搜集了一些代码,都需要数据库支持,所以只能自己写个简单的不需要数据库支持的(PS:那就只能借调第三方的接口了)。 index.js 启动文件 'use strict';...

HAVENT
46分钟前
0
0
219. Contains Duplicate II - LeetCode

Question 219. Contains Duplicate II Solution 题目大意:数组中两个相同元素的坐标之差小于给定的k,返回true,否则返回false 思路:用一个map记录每个数的坐标,如果数相同,如果坐标差小...

yysue
55分钟前
0
0
Android 自动生成java bean

背景: 想搞一个自动生成java bean 的方案。 首先想到的是注解自动生成代码的方法。但是看了看注解相关的东西,发现对已有的类,增加方法,目前没有找到办法。 继续goole :发现了这里。 ht...

Carlyle_Lee
59分钟前
0
0
图片加载相关

本文记载有关于 图片懒加载、图片模糊加载等与图片加载相关的知识,后续会更新 图片懒加载 利用img标签src属性,在该图片快到达客户可视范围时,给img添加src属性(添加后,会发起请求下载图...

littleFaye
今天
0
0
面试宝典-怎么实现分布式锁

1. 基于数据库表做乐观锁,用于分布式锁。 2. 使用memcached的add()方法,用于分布式锁。 3. 使用redis的setnx()、expire()方法,用于分布式锁。 设置过期时间防止死锁,但是如果在setnx和e...

suyain
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部