文档章节

OpnAI推出深度神经网络模型 拥有自我注意力机制

w
 wowloop
发布于 04/25 15:58
字数 984
阅读 7
收藏 0

OpnAI近日开发了一套深度神经网络模型Sparse Transformer,透过改良过的注意力(attention)机制算法,来萃取出更多序列中的模式,进而预测出序列中下一段文字、图像或是语音,OpenAI指出,在AI研究领域现存的一项挑战就是,训练并预测长范围、不易察觉相互关系的复杂数据,像是图像、影片或是语音等数据,Sparse Transformer模型加入了自我注意力机制,再加上一些改良,试着解决这项挑战。

过去,用于预测这些数据的模型,都会特定为一个领域所设计,或是模型也很难扩展到多个不同的序列上,相反地,OpenAI这次开发的深度神经网络模型,可以利用好几百层神经网络,为数万个数据元素建立序列,用于跨多个领域的应用中,OpenAI将用这套模型,来协助打造出更了解世界的AI系统。

在Transformer模型中,每个输出元素都与输入元素都息息相关,且在每个输入和输出数据之间的权重,都是动态改变的,权重会依据各种情况来计算,这个过程称之为注意力(attention)机制,虽然这项机制被认为能够使Transformer比固定连接模式的模型,更加有弹性,但是实行上来说,每一层网络都要生成N x N的注意力矩阵,因此,用于数据类型含有多个元素的数据时,会需要耗费庞大的内存计算资源,像是影像或是原始语音文件。

其中一项降低内存资源的方式,就是在反向传播算法(backpropagation)中,从checkpoints重新计算注意力矩阵,反向传播算法是在深度学习中,被广泛应用于降低内存用量的sbf胜博技术,该技术用于Transformer注意力矩阵运算后,内存成本和层数就会无关,因此,相比以往,OpenAI现在能够训练更深的神经网络,在OpenAI的实验中,Transformer最多能够到128层,为了训练这些越深的模型,OpenAI还针对Transformer模型的操作顺序,以及scheme初始化做了一些调整,OpenAI也将详细的研究内容发表成论文。

但是,即使只计算单一个注意力矩阵,也会因为庞大的输入数据变得不切实际,因此,OpenAI改用稀疏(sparse)注意力模式,也就是只针对每个输出位置,从输入位置的子集合中计算权重,当子集合比整个输入集相对小时,就算是非常大的序列,注意力计算结果也会变得较容易处理。

为了实现该方法,OpenAI首先将用于预测影像的Transformer模型中的学习注意力模式可视化,找出许多可解释和结构化的稀疏模式,当输入部分聚焦于小的子集上,且出现高度的规则性时,该层就属于易稀疏化,不过,虽然有许多层都显现出稀疏的架构,有些层在整张图上还是会清楚地出现动态的注意力,为了保留模型学习这类型模式的能力,OpenAI对注意力矩阵进行二维分解,因此,模型就可以透过稀疏注意力,来检视图像中的所有位置。

© 著作权归作者所有

w
粉丝 1
博文 88
码字总数 58057
作品 0
崇明
私信 提问
学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

  选自arXiv   机器之心编译   机器之心编辑部      近日,AAAI 2018 公布论文接收列表,百度机器翻译团队的论文《Multi-channel Encoder for Neural Machine Translation》上榜。...

机器之心
2017/12/14
0
0
神经机器翻译的编码-解码架构有了新进展, 具体要怎么配置?

作者/ Jason Brownlee 译校/ 崔跃辉、叶倚青 整理/ 雷锋字幕组 用于循环神经网络的编码-解码架构,在标准机器翻译基准上取得了最新的成果,并被用于工业翻译服务的核心。 该模型很简单,但是...

雷锋字幕组
2018/01/08
0
0
谷歌 Transformer 模型再进化,「图灵完备」版已上线

雷锋网 AI 科技评论按:NLP 任务中具有标杆意义的 Transformer 模型喜提新升级,不仅翻译表现进一步提升,更成为了图灵完备的通用计算模型。 在过去的两三年中,注意力机制(Attention Mecha...

杨晓凡
2018/08/17
0
0
学界 | 百度AAAI 2018录用论文:基于注意力机制的多通道机器翻译模型

  AI 科技评论消息,近日,百度机器翻译团队在 arxiv.org 上发布了最新研究成果「Multi-channel Encoder for Neural Machine Translation」,这一论文已被 AAAI 2018 录用。   论文链接:...

AI科技评论
2017/12/22
0
0
百度AAAI 2018录用论文:基于注意力机制的多通道机器翻译模型

雷锋网 AI 科技评论消息,近日,百度机器翻译团队在 arxiv.org 上发布了最新研究成果「Multi-channel Encoder for Neural Machine Translation」,这一论文已被 AAAI 2018 录用。 论文链接:...

sunshine_lady
2017/12/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
昨天
59
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
昨天
28
0
全世界到底有多少软件开发人员?

埃文斯数据公司(Evans Data Corporation) 2019 最新的统计数据(原文)显示,2018 年全球共有 2300 万软件开发人员,预计到 2019 年底这个数字将达到 2640万,到 2023 年达到 2770万。 而来自...

红薯
昨天
65
0
Go 语言基础—— 通道(channel)

通过通信来共享内存(Java是通过共享内存来通信的) 定义 func service() string {time.Sleep(time.Millisecond * 50)return "Done"}func AsyncService() chan string {retCh := mak......

刘一草
昨天
58
0
Apache Flink 零基础入门(一):基础概念解析

Apache Flink 的定义、架构及原理 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速...

Vincent-Duan
昨天
60
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部