文档章节

让人工智能学习增强好奇心 玩游戏分数超越人类

o
 ohuim
发布于 2018/11/06 17:09
字数 911
阅读 17
收藏 0

OpenAI发表了RNDRandom Network Distillation),以基于预测的方法,透过好奇心带领增强学习代理人探索环境。OpenAI提到,这是首次人工智能游玩「蒙特祖马的复仇」(Montezumas Revenge)这款游戏,能够超过人类的平均表现,而且不需要人类示范,就能完成第一关。

OpenAI提到,要让人工智能代理人实现默认的目标,必须要使其探索环境中可能存在的内容以及完成目标的元素。不少游戏的奖励讯号都提供了一个课程(Curriculum),只要简单的探索策略就可以实现游戏目标,而之所以「蒙特祖马的复仇」对于人工智能是一个重要的指标,是因为在应用DQN算法中,「蒙特祖马的复仇」是唯一一款远低于人类平均得分的游戏,只使用简单的探索策略,是无法在游戏中收集到任何奖励的,或是仅能探索游戏世界24个房间的一小部分。

2016年,OpenAI透过将DQN结合基于计数的探索奖励,而使整体结果大幅前进,让人工智能代理人可以探索15个房间,最高获得6.6K的分数,平均达3.7K,但从那之后,增强学习代理所获得明显的分数改进,都来自于人类专家的展示或是存取仿真器的基础状态。

RND的发展,再次大幅推进了成果,让人工智能游玩「蒙特祖马的复仇」的分数正式超过人类,而且还能完整探索24个房间。OpenAI1,024Workers进行了大规模的RND实验,在9次的实验中平均分数达10K,最佳平均值达14.5K,每次实验都能发现2022个房间。另外,OpenAI还进行了一个较小规模但时间较长的实验,人工智能最佳分数达17.5K,通过第一级关卡并且探索完24个房间,OpenAI提到,好奇心驱使人工智能代理人发现新房间,并找到提高游戏分数的方法。

这个好奇心的机制,OpenAI使用之前与柏克莱大学一同研发基于预测的奖励方法,代理人从经验中学习下一个状态的预测模型,并使用预测误差作为内在奖励。Google在不久前,发表了基于情境记忆模型,以提供增强学习获得类似好奇心的奖励以探索环境,扩展增强学习可以解决问题的范围,Google提到,基于预测的内在奖励机制,有机会让代理人产生自我放纵获取实时满足感的现象。

OpenAI特别解释,虽然基于预测的好奇心模型,在Unity的仿真迷宫中,的确会在电视机关中发生问题,透过不停预测随机的电视频道以获得高内在奖励,但是该算法应用在「蒙特祖马的复仇」这类大型确定性的环境仍是没有问题的,好奇心会驱使代理人发现新房间,并且与物体互动。
文章截自:http://www.gloryhome.org.tw/post.asp

© 著作权归作者所有

o
粉丝 0
博文 82
码字总数 54458
作品 0
东城
私信 提问
机器好奇心有助于人工智能的发展

感谢superstition.cn的投递 会学习的软件正在改变世界,但需要监督。人类以两种方式监督它们。一是向机器学习算法展示描述当下任务的大量数据。例如有标记的猫和狗的图片,让算法学习区分两者...

superstition
2018/09/27
0
0
让AI拥有好奇心,它就可以一直看电视了

对大部分人工智能来说,包括用于翻译的AI,在Facebook上标记照片以及优化最佳导航路线的AI,都依赖于人类向其提供一些信息,比如,我们要向算法展示不同语言中具有相同含义的句子,不同照片下...

技术小能手
2018/08/24
0
0
AI有了好奇心会怎样?一整天对着电视打《超级玛丽》

大多数人工智能都被用来翻译,标记照片以及优化导航路线,依赖人类自己向AI提供一些信息。但是一些人工智能研究人员正在探索如何给算法赋予好奇心,可以在没有人为指导的情况下学习。来自加州...

3DMGame
2018/08/24
0
0
多任务智能体的一大步:DeepMind 一次搞定 57 种 Atari 游戏的 PopArt

雷锋网 AI 科技评论按:多任务学习,也就是让单个智能体学习解决许多不同的问题,是人工智能研究中的长期目标。最近,该领域取得了许多重大进展,DQN 等智能体可以使用相同的算法玩不同的游戏...

刘肉酱
2018/09/24
0
0
一个AI玩57个游戏,DeepMind离真正「万能」的AGI不远了!

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/82719489 郭一璞 栗子 安妮 发自 凹非寺 量子位 报道 | 公众号 QbitAI D...

量子位
2018/09/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
今天
13
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
今天
7
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
今天
12
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
今天
12
0
实验分析性专业硕士提纲撰写要点

为什么您需要研究论文的提纲? 首先当您进行研究时,您需要聚集许多信息和想法,研究论文提纲可以较好地组织你的想法, 了解您研究资料的流畅度和程度。确保你写作时不会错过任何重要资料以此...

论文辅导员
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部