文档章节

AAAI 2020 | 反向R?削弱显著特征为细粒度分类带来提升

晓飞的算法工程笔记
 晓飞的算法工程笔记
发布于 03/27 11:27
字数 2018
阅读 31
收藏 0

> 论文提出了类似于dropout作用的diversification block,通过抑制特征图的高响应区域来反向提高模型的特征提取能力,在损失函数方面,提出专注于top-k类别的gradient-boosting loss来优化训练过程,模型在ResNet-50上提升3.2%,算法思路巧妙,结构易移植且效果也不错,值得学习

论文:Fine-grained Recognition: Accounting for Subtle Differences between Similar Classes

Introduction


  在FGVC(fine-grained visual categorization)上,一般的深度学习模型都是通过学习输入图片到输出标签的映射,这样会导致模型倾向于专注少部分显著区域来同时区分模糊的种群内(inter-class)相似性和种群间(intra-class)的变化

  如图1所示,一般的深度学习模型的attention经常密集地集中在小部分区域,因此只会提出有限的特征。因此,论文建议分散attention来构建多样的分布在特征图上的特征。因为在特征层面进行attention分散,在预测时则需要反过来,例如只关注最相似的类别来提高模型的辨别能力。通过关注相似的类别以及分散模型的attention,论文实际是在让模型避免对训练集的overfiting,增加泛化能力。论文的主要贡献如下:

  • 提出gradient-boosting loss,通过适当地调整梯度更新的幅度来解决高度相关类别的模糊部分
  • 提出diversification block,掩盖显著的特征,从而迫使网络去寻找外观相似的类别的不易察觉的不同点
  • 论文提出的方法能够加速模型的收敛以及提高识别的效果

Method


  论文提出的方法能简单地接到所有分类网络中,结构如图2所示。使用论文的方法,需要将主干网络的所有global pooling layer和最后的fully conntected layer替换成1x1 convolution,ouput channel等于类别数,模型主要包含两个部分:

  • diversification module,用于迫使网络去获取更多不易察觉的特征,而非专注于明显特征
  • gradient boosting loss,使模型在训练时专注于容易混淆的类别

Diversification Block

  考虑如图2中$C$个类别的多标签分类任务,$I$为训练图片,$l\in J, J={1,2,...,C}$是对应的GT,diversification block的输入是类别特定(category-specific)的特征图$M\in R^{C\times H\times W}$ ,由修改后的主干网络输出。标记$M={M_c : c\in [1,C]}$,其中$M_c\in \mathbb{R}^{H\times W}$是对应类别$c^{th}$的独立特征图。diversification block的核心思想是抑制$M$中的明显区域,从而迫使网络去提取其它区域的特征,主要面临两个问题:1) 抑制哪些特征? 2) 怎么抑制?

  • Mask Generation

  下面解释如何产生用于指明抑制区域的mask,定义$B={B_c : c\in [1, C]}$,$B_c\in \mathbb{R}^{H\times W}$是二值抑制mask对应特征图$M_c$,1表示抑制,0表示不抑制

  1. Peak suppression

  首先对特征图的峰值进行随机抑制,因为这是对分类器最显著的部分,$P_c\in \mathbb{R}^{H\times W}$是$M_c$的峰值mask,'*'是element-wise的相乘,而$r_c$是服从伯努利分布的随机值,即有$p_{peak}$的概率为1

  1. Patch suppression

  将每个$M_c$分成多个固定大小的patch,定义l行m列的patch为$M_c^{[l,m]}\in \mathbb{R}^{G\times G}$,$G_c$为patch的集合

  $B_c^{''}\in \mathbb{R}^{H\times W}$对应$M_c$的抑制mask,跟峰值的mask一样,使用伯努利分布对块进行赋值,随机值为1的块将整块进行抑制,$[0, 1]\in \mathbb{R}^{G\times G}$

  由于只考虑非峰值点,因此将峰值点的值设为0

  最后将两种mask相加得到最后的抑制mask

  • Activation Suppression Factor

  $M_c^{'}$为抑制后的特征图,$\alpha$为抑制因子,后面的实验设置为0.1

  在进行特征抑制后,对特征进行global average pooling来获取最后的置信度$s\in \mathbb{R}^{1\times C}$

Gradient-boosting Cross Entropy Loss

  diversification module用于发现更多不易察觉的细微特征,而gradient-boosting loss则是避免容易混淆的类别的误分

  • Loss Function

  论文认为,目前使用最广的交叉熵损失函数平均地考虑了所有的负类别,而在细粒度分类中,模型更应该关注相似的负类别,因此提出gradient-boosting cross entropy(GCE),只专注于top-k个负类别

  首先定义$J'$为所有的负类别,$J'={i : i\in [1,C]\land i\neq l }$,$s'={s_i, i\in J'}$为所有负类别的得分,$t_k$为负类别的top-k类别集合,将$J'$分别top-k集合和非top-k集合

  对交叉熵进行改造,只考虑top-k类别的计算,k一般设置为15

  • Gradient Boosting

  公式13和公式14分别是交叉熵和GCE的梯度回传公式

  根据公式10和公式11的定义,可以发现公式15的包含关系

  因此可以推出GCE的梯度是要比交叉熵的梯度要大的,使用GCE能够让模型专注于区分混淆类别

Training and Inference

  diversification block仅在训练阶段使用,在测试阶段不再使用,改为将完整的特征图输入到global average pooling中

Experiments


  实验在5个最常用的数据机上进行

Quantitative Results

  其中两个数据集的结果如表2、表3所示,可以看到,论文提出的方法在效果上的提升还是挺不错的,而且参数量比较小,在另外几个数据集上,论文提出的方法也是比其它方法要出色

Ablation Study

  • Diversification block (DB)

  使用diversification block能让ResNet-50的性能提升0.8%

  • Gradient-boosting loss

  如表4所示,使用gradient-boosting loss能让ResNet-50+DB从86.3%提升到87.7%,提升要比其它损失函数方法要好

  • Suppressing Factor

  从实验看出,抑制因子$\alpha$对实验结果影响挺大的,选择0.1的时候表现最好

  • Choices of k

  top-k的数量选择对结果影响也是比较大的,选择top-15的时候效果最好

  • Convergence Analysis

  从图5可以看出,论文提出的方法收敛速度更快,尽管可以看到原始方法在训练集上的准确率比论文提出的方法要好,但是在测试集的表现不好,这说明原始方法对训练集有点过拟合了

Qualitative Results

  从图4可以看出,论文提出的方法提取了更多的特征区域

ImageNet Results

  为了进一步验证论文提出的模型的效果,在ImageNet上进行了实验。由于论文的方法专注于难样本,因此在50轮后的训练才进行对比,可以看到论文的方法的效果在ImageNet上还是不错的

Conclusion


  论文提出了diversification block以及gradient-boosting loss,diversification block通过随机抑制响应高的区域引导模型学习更多的不易察觉的特征,有点类似dropout的思想,而gradient-boosting loss则让模型专注于top-k个类别的学习,加大对应类别的梯度回传,使得训练收敛更快且提升性能。总体而言,论文的思路清晰,而且效果还是有的,可以实验下,然后当作基本方法加入到平时网络的架构中,特别是后面的gradient-boosting loss

>写作不易,未经允许不得转载~
更多内容请关注 微信公众号/知乎专栏【晓飞的算法工程笔记】

work-life balance.

© 著作权归作者所有

晓飞的算法工程笔记
粉丝 0
博文 14
码字总数 34052
作品 0
广州
私信 提问
加载中

评论(0)

反向R?削弱显著特征为细粒度分类带来提升 | AAAI 2020

作者 | VincentLee 来源 | 晓飞的算法工程笔记 导读:论文提出了类似于dropout作用的diversification block,通过抑制特征图的高响应区域来反向提高模型的特征提取能力,在损失函数方面,提出...

02/02
0
0
更优的ImageNet模型可迁移性更强?谷歌大脑论文给出验证

选自arXiv,作者:Simon Kornblith、Jonathon Shlens、Quoc V. Le,机器之心编译。 现代计算机视觉研究的一个隐含的假设是,在 ImageNet 上性能更好的模型必定在其它的视觉任务上表现得更好。...

机器之心
2018/06/27
0
0
专访 | 五一出游赏花,如何优雅地解释百度细粒度识别方案

  机器之心原创   作者:思源      近日,百度发布了用于花卉识别的移动端应用,这种基于全卷积注意力网络的细粒度识别方法在计算和准确度上都有非常强大的优势。在百度主任研发架构...

机器之心
2018/04/28
0
0
今日 Paper | 社交媒体谣言检测;连续手语识别;细粒度服装相似性学习;混合图神经网络等

目录 基于双向图卷积神经网络的社交媒体上谣言检测 用于连续手语识别的时空多线索网络 基于属性特定嵌入网络的细粒度服装相似性学习 混合图神经网络在人群计数中的应用 使用卫星图像中的目标...

AI研习社
02/18
0
0
AAAI 2020 | 这 10 篇论文值得你了解(附PPT下载)

美国太远,望京很近。 在21世纪20年代的最后一个周末,雷锋网AI研习社联合阿里文娱和北理工等共同举办了一场「AAAI 2020论文解读会」。 AAAI 无需多言。2020年2月7日-12日,AAAI 2020 将于美...

camel
2019/12/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

郑州哪哪里可以开工程款发票-郑州_新闻网

【电薇同步;1.3.8 - 2.7.4.1 - 5.2.9.7.】张生、诚、信、合、作,保、真、售、后、保、障、长、期、有、效。adb的全称为Android Debug Bridge,是Android手机通用...

yyqqvip
35分钟前
30
0
Nginx 反向代理访问

在Nginx 配置 server { listen 80; server_name www.xiaocx.org www.xiaocx.org www.xiaocx.org; root /Users/maison/work/xiaocx/dist; index i......

韩庚庚
39分钟前
33
0
python笔记:环境变量已设置CMD中一直报错"python"不是内部命令,也不是可运行的程序或批处理文件

这些天虽然也写了几个小工具,但是打包都是在anaconda prompt中完成的,因为CMD中一直报错"python"不是内部命令,也不是可运行的程序或批处理文件,各种查度,千篇一律的是环境变量配置的问题...

小玲_001
40分钟前
13
0
AI+BI服务模式

术语与缩写解释 缩写、术语 解 释 BI 商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析...

zoegu228
41分钟前
20
0
leetcode1227(面试题 17.09. 第 k 个数)--C语言实现

求: 有些数的素因子只有 3,5,7,请设计一个算法找出第 k 个数。注意,不是必须有这些素因子,而是必须不包含其他的素因子。例如,前几个数按顺序应该是 1,3,5,7,9,15,21。 示例 1:...

拓拔北海
今天
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部