文档章节

AI强化学习正渗入“更高级学科”,比如心理学!

读芯术
 读芯术
发布于 07/20 17:40
字数 1968
阅读 7
收藏 0

全文共2359字,预计学习时长5分钟

图片来源:pexels.com/@pixabay

最近,拉斯维加斯举行了AWSre: MARS大会,会议的主题是机器学习、自动化和机器人技术(包括太空中的)将如何改变未来。很多人的关注点都放到了小罗伯特·唐尼身上,但其实,几乎每一个主题演讲会议上都出现的模拟和强化学习才是最瞩目的:

第一天:通过强化学习,Boston Dynamics公司的机器人已经掌握了后空翻、跳上窗台和托举的数据。而迪斯尼幻想工程已经把这一点带到了一个新的层面——让人形机器人来执行玩命的特技。

第二天:亚马逊通过模拟在Go商店中的困难场景来训练模型机。亚马逊配送中心的机器人在接受过强化学习的培训后还可以对包裹进行分类。Alexa使用模拟交互自动学习对话流。亚马逊无人机快递使用模拟数据来训练如何检测无人机下方的人。而像Insitro这样的公司已经开始通过生成生物交互数据来解决生物医学问题。

第三天:吴恩达呼吁元学习。成百上千的不同的模拟器被用来建立更通用的强化学习代理,这可以说是AI的“下一件大事”。自动驾驶汽车公司Zoox和Aurora就在利用RL和元学习以解决城市环境中驾驶的复杂性的问题。而Dexnet试图通过模拟建造一个庞大的3D模型数据库,以更好的掌握问题所在。Jeff Bezos对Daphne Koller关于RL生物工程将在10年内发展壮大的观点表示赞同。

总而言之:

如若一个领域的相关事务可以被准确地模拟,强化学习将能够在未来的几年急剧地抬升此领域的技术水平。

那么又关物理什么事呢?

一个4岁的孩子,进入了人生中的“为什么”阶段,这个时候她的大脑开始从简单的认知事物转移成了想要理解这个世界的所有东西。这就是大人和孩子之间典型的交流:

绘制使用http://cmx.io

那这些又和数据科学有什么关系呢?

Jeff Dean在今年谷歌I/O会议上发表关于深度学习的演讲时提到,神经网络已经被训练得近似物理模拟器所能生成的结果,并且速度是物理模拟器的30万倍,也就是说,研究人员甚至可能一顿午餐的时间就测试了100M的分子。

 

图片来源: Jeff Dean在谷歌 I/O 2019的演讲

这是一个巨大的进步,因为它允许我们使用re: MARS上引人瞩目的强化学习来解决新的各种问题。在这些进步之前,为每个潜在的结果完整运行一个物理模拟器所需的循环时间太长,以至于RL很难达成一个有回报的结果。但现在,RL可以学习分子的物理特性,从而优化化学工程师的预期收获。

图片来源:https://xkcd.com/435/

鉴于一切都可以被简化为物理学,我们甚至可以想象一个能以最基础的原理建立更多方案的世界。在这个会议之前,很多人都以为模拟生物学相关的研究是遥不可及的,但事实上,Insitro这样的公司已经着手应对这些问题。

那时RL将可用于“更高级别的”科学,如心理学:

 

1. 原始计算能力:谷歌发布了T3 TPU Pods的私有数据,拥有超过100的每秒浮点运算次数的处理能力,为运行神经网络训练构架而造。拥有这样的计算能力后,像材质分析这类的任务就变得十分易学。另外,谷歌开始使用RL设计他们自己的芯片,随着时间的推移也预期能够带来更多的进展。

2. 更优良的可重用性:DeepMind被用于多层网络构架中,而RL负责根据任务需要选择合适的下游网络。这类的RL代理通过训练就可以把高难的任务通过分解的方式简单化,并运用迁移学习解决多任务。

3. 更好的归纳:上述的元学习技术正被用于提高RL代理应对未遇到过的情景的能力。

4. 更好的优化:麻省理工学院的彩票假设论文展示了神经网络可以通过寻找“优胜票”的路径来进行进一步压缩,随后仅使用这些路径来进行训练。

5. 更好的训练数据生成:类似AutoCad的生成设计的界面可以帮助设计师/工程师找到所需的规格,以使RL代理正确运行。每次新的人接管时,自动驾驶汽车公司都会生成新的训练情景。

你又该做些什么呢?

图片来源:

https://en.wikipedia.org/wiki/Reinforcement_learning#/media/File:Reinforcement_learning_diagram.svg

首先,你需要去了解强化学习,这里简明扼要地介绍了RL代理获取情景状态,选择一个行动影响环境,观察新的情景,重复步骤。如果行动得到了积极的结果,代理得到奖励,它就倾向于在将来类似的情景中给出相同的一系列动作。

这些步骤被大量重复,最终,它变得十分擅长获得奖励(我们也为此训练它)。丰富经验的最好办法就是使用AWS Deep Racer,这是一个可以提供模拟环境的缩小版的赛车、一个RL训练装置,以及一块与模拟相对应的物理硬件。你只需要调控奖励机制来训练你的赛车代理。

图片来源:

https://www.semanticscholar.org/paper/OpenAI-Gym-Brockman-Cheung/2b10281297ee001a9f3f4ea1aa9bea6b638c27df/figure/0

其次,你需要积极寻找可以更好模拟业务系统的方法。任何现有的模拟器都是很好的起点,但更新的模拟器更可能带来显著的影响。AWS在这类领域中提供名为“RoboMaker”的服务,但还有许多其他的备选方案,而其中大多数都基于开放式API Gym。

最后,应当密切关注那些驾驭这股技术潮流的新公司。很可能最终会发展出一系列互相构建的开放资源模拟器,附带压缩每层可学习的信息的神经网络。在此之前,有众多领域可能会有许多专有的解决方案超越当前最先进的水平。随着时间推移,这项技术终将给以科学为基础的领域带来可观的收益,例如药物、材料科学、医学、石油与天然气,及各种各样的其他领域。

AI未来说*青年学术论坛 火热报名中

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

© 著作权归作者所有

读芯术
粉丝 1
博文 67
码字总数 168006
作品 0
东城
私信 提问
高校“人工智能热”引热议 人工智能应该怎么学?

原标题:高校“人工智能热”:人工智能应该怎么学?南京大学、吉林大学、天津大学等多所高校近日宣布成立人工智能学院,人工智能越来越多地进入高等教育。面对这一全新的专业,高校应如何开 ...

新华网
2018/05/30
0
0
《麻省理工科技评论》“2017年全球十大突破性技术”系列之:Renforcement Learning

Job vs. Career vs. Calling “A calling is the most satisfying form of work because, as a gratification, it is done for its own sake rather than for the material benefits it bri......

竹说
2017/02/25
0
0
两种不同的人工智能观:工程观点和科学观点

来源:人机与认知实验室 作者按:人工智能是作为工程还是科学,这个问题是一个很严肃的问题,如果从工程技术角度来看人工智能,那么认知科学尤其是认知心理学、神经生理学对人类这样的生物智...

人工智能学家
2018/09/30
0
0
初识人工智能——人工智能的冷落与兴起

今天开始慢慢进入人工智能的介绍与算法网络等的实现的“传送期”,希望大家能够喜欢! 好,揭幕!! 一、人工智能介绍 什么是人工智能?可能是大家一开始最想了解的。 大家看图中关于人工智能...

极客Array
2018/11/14
0
0
中国高校人工智能科研教育高峰论坛 | “智能与开放”巅峰对话

     5月22日,由微软亚洲研究院、北京大学、中国科学技术大学、西安交通大学和浙江大学共建的新一代人工智能开放科研教育平台在微软大厦宣布成立,在同时举办的“中国高校人工智能科研教...

微软亚洲研究院
2018/05/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

正则表达式匹配

请实现一个函数用来匹配包括 '.' 和 '*' 的正则表达式。模式中的字符 '.' 表示任意一个字符,而 '*' 表示它前面的字符可以出现任意次(包含 0 次)。 在本题中,匹配是指字符串的所有字符匹配...

Garphy
56分钟前
6
0
Laravel 5.1的多路由文件的配置

默认的路由配置文件只有一个, \app\Http\routes.php。 在同一个文件中写路由容易起冲突,文件会越来越大,就需要定义多个路由文件。 找到加载\app\Http\routes.php的文件, 打开\app\Provid...

mdoo
今天
5
0
Hibernate 5 开始使用指南前言

同时在面向对象软件和关系型数据库进行工作,可能会非常复杂和费时。数据在对象和数据库之间可能会不一致,然后导致开发成本会非常高。 Hibernate 是一个针对 Java 环境的对象关系映射(Obj...

honeymoose
今天
6
0
聊聊nacos ServiceManager的UpdatedServiceProcessor

序 本文主要研究一下nacos ServiceManager的UpdatedServiceProcessor ServiceManager.init nacos-1.1.3/naming/src/main/java/com/alibaba/nacos/naming/core/ServiceManager.java @Compone......

go4it
今天
7
0
正则表达式的使用(QQ格式的判断与空格的切割)

//正则表达式的使用 public static void main(String[] args) throws IOException, ClassNotFoundException { //test1("123456"); test2("-1 99 kk"); } /** * ......

zhengzhixiang
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部