深度强化学习整理

原创
2023/12/18 21:30
阅读数 79

强化学习来自于心理学里的行为主义理论,是在环境给予的奖励或惩罚信号的反馈下,逐步形成能获得最大利益的行为策略。与监督学习相比,强化学习不需要事先准备样本集,而是通过不断尝试,发现不同动作产生的反馈,来指导策略的学习。与无监督学习相比,强化学习不只是探索事物的特征,而是通过与环境交互建立输入与输出之间的映射关系,得到最优策略。

强化学习的特点:

  1. 试错学习:智能体与环境交互,每一步通过试错的方式学习最佳策略,没有任何的指导。
  2. 延迟反馈:智能体的试错获得环境的反馈,可能需要等到过程结束才会得到一个反馈。‘
  3. 过程性学习:强化学习的训练过程是一个随着时间变化的过程。
  4. 环节之间的行为相关性:当前的行为影响后续的状态和行为。
  5. 探索和利用的综合:强化学习开始时,智能体更偏向于探索,行为具有一定的随机性,尝试多种可能性,训练很多轮后再降低探索的比例。

强化学习的基本概念

  • 智能体(agent)

不可避免的要与环境进行交互,必须了解环境将如何响应所采取的操作,这是一种多次试验的试错学习方法。

在强化学习的概念中,状态表示智能体的当前状态。智能体执行动作以探索环境。

  • 策略(policy)

定义了智能体在给定状态下的行为准则。

策略函数(可以是连续的也可以是离散的)是从智能体的状态到其在该状态下要采取的行为映射。通常表示为\(π(a_t|s_t)\),表示在给定状态\(s_t\)中采取动作\(a_t\)条件概率分布

比如在上图中,马里奥的任务为拿到更多的金币,并且躲避障碍。策略函数π:(s,t)的结果是一个概率,处于[0,1]之间。

\(π(a|s)=p(A=a|S=s)\)

马里奥有三个方向可以行动,那么为了达到更好效果,他向三个方向行动的概率为

  1. π(left | s)=0.2
  2. π(right | s)=0.1
  3. π(up | s)=0.7
  • 回合(episode)

每个从开始到结束的试验称为一个回合。起始位置可能来自不同位置。回合的结束或结尾可能是预期或非预期的结果。

当智能体完成其预定目标时,可以得到一个好的结果,该目标可以成功完成任务。回合也可能得到一个不令人满意的结局,智能体撞到障碍物或陷入迷宫。

\(s_1,a_1,r_1,s_2,a_2,r_2,...,s_T,a_T,r_T\)

上面的符号表示回合开始处于状态1,根据某个策略实施动作1,此时返回一个回报1;此时进入状态2,根据策略实施动作2,以此往复到状态T。

  • 奖励(reward)

奖励函数定义了智能体可能碰到的有利和不利情境。例如:达到目标会得到奖励,撞到障碍物会受到惩罚。奖励函数度量智能体策略的价值

智能体的长期目标是最大限度的获得高的奖励或者最大限度的减少惩罚。

时刻t的奖励通常表示为\(R_t\),在一个回合中获得的总奖励\(R=R_1+R_2+...+R_T\),其中T是一个回合的长度。

未来的奖励会通过折扣率(discount rate)来对未来奖励进行加权处理。

智能体的目标是最大化累计奖励,即总折扣奖励。总折扣奖励\(G_t\)定义为:

\(G_t=\sum_{k=t}^T{γ^{(k-t)}r_k(s_k,a_k)}\)

γ表示折扣系数,0≤γ≤1,γ=0,使智能体目光短浅(机会主义),只针对眼前的奖励。γ=1,使智能体目光长远,考虑完成最终目标的程度(争取长期高回报)。γ值一般在0~1取值。γ确保智能体对其行为进行优先排序,以便在时刻t最大化总折扣奖励。

在公式中,我们也能看到随着时间t的流逝,前面步骤的折扣奖励对总折扣奖励的影响越来越小

  • 状态价值函数

价值函数(valuefunction)用来评估不同策略或状态的好坏,预估未来收益期望。

价值函数用于定义智能体的状态好坏。状态s处的价值函数表示为V(s),意味着处于该状态的期望长期平均奖励。

状态价值函数(state-value functioan)用来度量给定策略的情况下当前状态的好坏。

\(V(s)=E[G_t|s_t=s]=E[\sum_{k=0}^Tγ^kτ_{t+k+1}|s_t=s]\)

将其展开,有

\(V(s)=E[G_t|s_t=s]=E[R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...|s_t=s]\)

\(=E[R_{t+1}+γ(R_{t+2}+γR_{t+3}+...)|s_t=s]\)

\(=E[R_{t+1}+γG_{t+1}|s_t=s]\)

\(=E[R_{t+1}+λv(s_{t+1})|s_t=s]\)

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部