156个参考文献!Visual Transformer 调研survey - 知乎

01/05 08:34
阅读数 1.5K

作者单位:华为、北大、悉尼大学 (kai han、王云鹤、陶大程等人)
论文 A Survey on Visual Transformer

注:文末附【深度学习与自然语言处理】交流群

随着Transformer在NLP的成功应用,大量的研究者开始借鉴这个思路应用到CV领域,并且最近也出了很多惊艳的表现,那未来该方向如何发展呢。

最近一篇华为、北大和悉尼大学的一篇survey详细的总结了已有的应用和讨论了未来的趋势。

@瑟木 在问题如何看待Transformer在CV上的应用前景,未来有可能替代CNN吗?的回复下游对这篇综述也进行了总结,直接复制转载:

在这份综述的最后,我们初步思考并给出了未来3个研究方向:
1、现有的Visual Transformer[1]都还是将NLP中Transformer[2][3]的结构套到视觉任务做了一些初步探索,未来针对CV的特性设计更适配视觉特性的Transformer将会带来更好的性能提升。
2、现有的Visual Transformer[1][4]一般是一个模型做单个任务,近来有一些模型可以单模型做多任务,比如IPT[5],未来是否可以有一个世界模型,处理所有任务?
3、现有的Visual Transformer参数量和计算量多大,比如ViT[1]需要18B FLOPs在ImageNet达到78%左右Top1,但是CNN模型如GhostNet[6][7]只需600M FLOPs可以达到79%以上Top1,所以高效Transformer for CV亟需开发以媲美CNN。



机器学习算法-自然语言处理交流群

已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号:HIT_NLP。加的时候备注一下:知乎+学校+昵称 (不加备注不会接受同意,望谅解),即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。

推荐阅读

NLP生成任务痛点!58页generation评价综述

机器学习画图模板ML Visuals更新

谷歌最新28页高效 Transformer 模型综述

Papers with Code 2020 全年回顾

最新14页《图神经网络可解释性》综述论文

陶大程等人编写!最新41页深度学习理论综述

使用PyTorch时,最常见的4个错误

加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生

【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架

一文搞懂 PyTorch 内部机制

AAAI 2021论文接收列表放出!!!

参考

  1. ^abcDosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
  2. ^Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
  3. ^Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  4. ^Carion, Nicolas, et al. "End-to-End Object Detection with Transformers." arXiv preprint arXiv:2005.12872 (2020).
  5. ^Chen, Hanting, et al. "Pre-Trained Image Processing Transformer." arXiv preprint arXiv:2012.00364 (2020).
  6. ^Han, K., Wang, Y., Tian, Q., Guo, J., Xu, C., & Xu, C. (2020). GhostNet: More features from cheap operations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1580-1589).
  7. ^Han, K., Wang, Y., Zhang, Q., Zhang, W., Xu, C., & Zhang, T. (2020). Model Rubik’s Cube: Twisting Resolution, Depth and Width for TinyNets. Advances in Neural Information Processing Systems, 33.
展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部