文档章节

涨知识,什么是强化学习(Reinforcement Learning)

雪饼
 雪饼
发布于 2018/01/29 13:04
字数 1231
阅读 3944
收藏 3

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”(BigdataAILab),欢迎关注。

 

机器学习算法可以分为3种:有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),如下图所示:

有监督学习、无监督学习、强化学习具有不同的特点:

  • 有监督学习是有一个label(标记)的,这个label告诉算法什么样的输入对应着什么样的输出,常见的算法是分类、回归等;

  • 无监督学习则是没有label(标记),常见的算法是聚类;

  • 强化学习强调如何基于环境而行动,以取得最大化的预期利益。

强化学习(Reinforcement Learning)灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。

强化学习采用的是边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得reward之后再更新模型,不断迭代重复直到模型收敛。在这个过程中,非常重要的一点在于“在已有当前模型的情况下,如果选择下一步的行动才对完善当前的模型最有利”,这就涉及到了RL中的两个非常重要的概念:探索(exploration)和开发(exploitation),exploration是指选择之前未执行过的actions,从而探索更多的可能性;exploitation是指选择已执行过的actions,从而对已知的actions的模型进行完善。

强化学习最重要的3个特点是:

(1)基本是以一种闭环的形式;

(2)不会直接指示选择哪种行动(actions);

(3)一系列的actions和奖励信号(reward signals)都会影响之后较长的时间。

强化学习决策实现过程需要设定一个agent(图中的大脑部分),Agent能够接收当前环境的一个observation(观察),Agent还能接收当它执行某个action后的reward,而环境environment则是agent交互的对象,它是一个行为不可控制的对象,agent一开始不知道环境会对不同action做出什么样的反应,而环境会通过observation告诉agent当前的环境状态,同时环境能够根据可能的最终结果反馈给agent一个reward,它表明了agent做出的决策有多好或者有多不好,整个强化学习优化的目标就是最大化累积reward。

 

在强化学习中,有四个非常重要的概念:

(1)规则(policy)

Policy定义了agents在特定的时间特定的环境下的行为方式,可以视为是从环境状态到行为的映射,常用π来表示。policy可以分为两类:

确定性的policy(Deterministic policy): a=π(s) 

随机性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]

其中,t是时间点,t=0,1,2,3,……

St∈S,S是环境状态的集合St代表时刻t的状态,s代表其中某个特定的状态;

At∈A(St),A(St)是在状态St下的actions的集合,At代表时刻t的行为,a代表其中某个特定的行为。

(2)奖励信号(a reward signal)

Reward就是一个标量值,是每个time step中环境根据agent的行为返回给agent的信号,reward定义了在该情景下执行该行为的好坏,agent可以根据reward来调整自己的policy。常用R来表示。

(3)值函数(value function)

Reward定义的是立即的收益,而valuefunction定义的是长期的收益,它可以看作是累计的reward,常用v来表示。

(4)环境模型(a model of the environment),预测environment下一步会做出什么样的改变,从而预测agent接收到的状态或者reward是什么。

 

总之,强化学习作为一个序列决策(Sequential Decision Making)问题,它需要连续选择一些行为,从这些行为完成后得到最大的收益作为最好的结果。它在没有任何label告诉算法应该怎么做的情况下,通过先尝试做出一些行为——然后得到一个结果,通过判断这个结果是对还是错来对之前的行为进行反馈。

 

欢迎关注本人的微信公众号“大数据与人工智能Lab”(BigdataAILab),获取更多资讯

© 著作权归作者所有

雪饼

雪饼

粉丝 412
博文 61
码字总数 134328
作品 0
广州
私信 提问
【强化学习】1-1-1 强化学习、监督学习和非监督学习

title: 【强化学习】1-1-1 强化学习、监督学习和非监督学习 categories: - Reinforcement Learning - RL-An Introduction keywords: - Supervised Learning - Unsupervised Learning - Rein......

TonyShengTan
2018/08/26
0
0
【强化学习】1-1-0 强化学习介绍 【强化学习】1-1-0 强化学习介绍

title: 【强化学习】1-1-0 强化学习介绍 categories: - Reinforcement Learning - RL-An Introduction keywords: - Reinforcement Learning - Situation - Action - Enviroment - Closed-lo......

TonyShengTan
2018/08/25
0
0
新书《深入浅出强化学习:原理入门》已上市

时光匆匆,转眼距离上次写贴已经一个多月了,其间几次提笔都被琐事烦扰,如今新书《深入浅出强化学习:原理入门》已在京东,亚马逊等网站开始预售,借此时机才有机会继续更新帖子。 这本书的...

天津包子馅儿
2017/12/21
0
0
【ICML2018】63篇强化学习论文全解读

一年一度的国际机器学习会议( ICML ),于7月15日在瑞典斯德哥尔摩闭幕,ICML 的会议日程之紧凑,会议内容之丰富,令人目不暇接。今年从2,473份提交论文中接收了621篇,其中有63余篇强化学习相...

技术小能手
2018/07/25
0
0
强化学习 9: 当 Action 的空间连续时

如果 Action 的空间不是离散的而是连续的时候要怎么做呢? 之前骑自行车的例子中,action 可以是向左或者向右,现在的话可能是一个实数值的区间。 例如在机器人控制中就经常是这样的情况,我...

不会停的蜗牛
2018/11/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
今天
2.4K
15
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
今天
41
0
计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
40
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
61
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
21
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部