综述论文《Deep Reinforcement Learning and Its Neuroscientific Implications》精华总结 & 近期RL前沿方向汇总

2020/10/31 13:02
阅读数 60

综述论文《Deep Reinforcement Learning and Its Neuroscientific Implications》精华总结 & 近期RL前沿方向汇总


阅读了一篇2020年发在Neuron上的文章《Deep Reinforcement Learning and Its Neuroscientific Implications》。

文中探讨了关于深度强化学习和神经科学的联系在这里主要盘点一下论文中提到的强化学习前沿方向,以作备忘。

前沿方向概览

  • Representation Learning
  • Model-Based RL
  • Memory
  • Exploration
  • Cognitive Control and Action Hierarchies
  • Social Cognition

深度强化学习速览

所谓“深度强化学习”,即借助深度学习解决强化学习的问题。深度学习的引入使得强化学习可以解决更复杂的问题,以及算法稳定性得到了很大的改善。

而强化学习本身是从生物行为中总结出来的,强化学习中的“奖励(reward-prediction error, aka. RPE)”,则很大程度上等价于生物中的编码“欲望”的多巴胺。

Representation Learning

在深度强化学习中,基于奖励的学习塑造了网络表示,而网络表示又反过来支持了基于奖励的决策。

预测学习(prediction learning):在预测学习中,Agent需要根据现在的状态去预测下一步它最可能观测到的状态,以此完成对任务潜在规则的建模:
Wayne et al.,2018
Gelada et al.,2019

通过将环境分解为物体来更有效地探索和学习环境:
Watters et al.,2019

Model Based RL

在某些情况下,类似于基于模型的RL的过程可能会自发地出现在训练过我们的无模型RL算法的系统中。
Guez et al., 2019

基于模型的行为也可以在使用特定形式的预测代码的RL系统中看到,这被称为“继承者表示(successor representation)”
Ve´ rtes and Sahani,2019
Momennejad, 2020

Memory

深度强化学习中,记忆主要有两种形式:

  1. 长时记忆,通常是把一轮(episodic)的记忆以某种形式保存在内存中。
    Wayne et al.,2018
  2. 短时记忆,保存在循环网络的神经元中(比如"LSTM"和"GRU")。
    Stalter et al.,2020

在记忆中引入注意力机制:
Parisotto et al.,2019

Exploration

在高维空间中,随机探索策略几乎不再有效。
其中一种解决策略是赋予Agent好奇心,在这方面有很多工作:
Burda et al.,2019
Badia et al.,2020


另外一种策略则是基于不确定性,比如选择置信度更低的策略:
Osband et al.,2016

还有一些研究致力于让个体在任务开销的基础上学习或发展自己的内在动机:
Zheng et al.,2018

此外,meta-learning是一个解决探索问题的全新思路,在meta-learning基础上的探索自带了对世界规则的一些先验知识,比之无目的地随即探索,更像是在进行假设-验证实验:
Dasgupta et al.,2019

最后,一些深层行为分析的研究提出通过在层次行为空间中随机抽样来解决问题:
Jinnai et al.,2020
Hansen et al.,2020

Cognitive Control and Action Hierarchies

类似于顶层Agent做抽象决策,底层Agent做更具体的决策,还待深入学习:
Barreto et al.,2019
Harb et al., 2018

Social Cognition

比如在有竞争性的团队游戏中,多智能体应该如何考虑协作以及竞争的问题。
Jaderberg et al.,2019
Berner et al.,2019

以及合作游戏中的协调问题:
Foerster et al.,2019

当前深度强化学习中面临的一些困难与挑战

  1. 当任务中涉及到涉及到基于结构化推理的灵活适应,或者是利用强大的背景知识存储时,深度强化学习的表现远逊于人。
  2. 在长时间跨度任务时,奖励的”信用分配“问题,即在任务的最后给一个奖励,Agent应该如何根据过往的表现,以及最后的奖励,以何种方式,何种程度更新不同网络部分的参数?
  3. 主流观点认为在生物体中是不存在BP这种全局反传误差信号的机制的。目前的网络训练大多都是基于BP的,然而在反向传播中,在面对新学习时保留旧学习的结果存在固有的困难。
展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部