文档章节

谷歌论文抢鲜看:教机器画画

Qcloud_KID
 Qcloud_KID
发布于 2017/04/18 19:45
字数 2561
阅读 54
收藏 0

本文的 “我们” 所指的是谷歌,本文为翻译文章。

前言

抽象的视觉传达是人们彼此之间交流的一种方式,占着交流方式的主要一部分。从小的时候开始,孩纸们就可以通过简单的描绘来形容一个具体的物体或者描述他们的心情,但是他们所画的东西不像照片所拍摄的一样与现实事物一样,但是它可以告诉我们一些关于人们如何代表和重建周围世界图像的方式。

图 : sketch-rnn 矢量绘图

正文

在谷歌最近的论文“A Neural Representation of Sketch Drawings”中,提出了一种能够产生普通物体草图的生成式复现神经网络,其目的是训练机器人以和人类相似的方式绘制和概括一些抽象概念,在手绘草图训练模型,每一个笔:移动方向、什么时候抬起笔、什么时候停止绘画,在这个过程中,他们创建了一个可能有着诸多应用的程序模型,从辅助创作家创作到帮助学生绘制。

虽然现在已经有大量使用神经网络的图像生成建模工作,但大部分工作着重于对2D网格像素的光栅图像进行建模,虽然这些模型均能生成一些逼真的图像,由于2D网格像素的高维度,它们的关键是生成具有相干结构的图像,比如它们可能会生成拥有3只或者更多眼睛的猫、拥有多个头部的狗。

用128x128 ImageNet数据集训练,使用以前的GAN模型产生的身体部位数量错误的动物的例子, Generative Adversarial Networks, Ian Goodfellow, NIPS 2016 Tutorial.

在本文中,我们研究了一个基于人体绘制的低维向量的表示,我们的模型,sketch-rnn是基于序列到序列(seq2seq)自动编码器框架。 它包含变分推理,并将超网络用作复发神经网络单元。seq2seq自动编码器的目标是训练网络将输入序列编码为浮点数的向量,称为潜向向量,并且从该潜矢量使用解码器来重构输出序列,该解码器尽可能复制输入序列 。

图 : sketch-rnn原理图

在我们的模型中,我们刻意的在向量中添加噪声,在我们的论文中,我们表明,通过将噪声引入到编码器和解码器之间的通信通道中,该模型不能够准确地再现输入草图,而是必须学会将草图的本质捕获为嘈杂的潜在向量。我们的解码器采用这个潜在的向量,并产生用于构建新草图的一系列运动动作。 在下图中,我们将几个实际的猫的草图提供给编码器,以使用解码器产生重建的草图。

图 : 猫草图的重建

强调:

重建的猫草图不是输入的草图的副本,而是与输入具有相似特征的猫的新草图,为了证明该模型不是简单的复制,并且实际学到了一些关于人们绘制猫的方式,我们可以尝试将非标准的草图提供给编码器:

当我们提供一只拥有3只眼睛的猫作为输入草图时,该模型产生了一只两只眼睛的猫,这表明我们的模型已经知道了猫通常只有两只眼睛,为了表明我们的模型不是简单的从大量记忆猫草图中选择最接近正常猫,所以我们尝试输入不同的东西,如牙刷草图,我们看到了该编码器产生了一个像猫的形状,长满胡须,模仿牙刷的特征和方向。这表明网络已经学会将草图编码嵌入到潜在向量的一组抽象猫概念,并且还能基于这个潜在向量构建全新的草图。

如果不相信我们可以重复一次对猪草图训练的模型,并且得出类似的结论,当出现一只有8只脚的猪时,该模型生成一只只有四条腿的猪,如果在这个输入草图中再加入卡车,我们会得到一直看起来像卡车的猪。

图 : 猪草图的重建

为了研究这些潜在载体如何编码概念动物特征,在下图中,我们首先获得两个非常不同的猪编码的两个潜在载体,在这种情况下,猪头(绿色盒子)和一头满完整和猪(橙色) 框)。 我们想知道我们的模型如何学习代表猪,一种方法是在两个不同的潜在向量之间进行插值,并从每个内插潜在向量中可视化每个生成的草图。 在下图中,我们可以看出猪头的草图如何缓慢地变成全猪的草图,并在此过程中展示了模型如何组织猪草图的概念。 我们看到,潜伏矢量控制鼻子相对于头部的相对位置和大小,以及草图中身体和腿部的存在。

图 :潜在空间插值生成的一个模型训练猪草图

我们还想知道我们的模型是否可以学习多种动物的特征表现,如果可以,会是什么样子? 在下图中,我们通过在猫头和一只完整的猪之间插入潜在载体产生草图。 我们看到这个表现如何从猫头,一只尾巴猫到一只胖胖的身体的猫,慢慢地变成一只全猪。 像一个学习绘画动物的孩子一样,我们的模型通过将头,脚和尾巴附着在身上来学习建造动物。 我们看到,该模型还能够绘制与猪头不同的猫头。

图 :猫和猪一起作为输入草图训练图

这些插值示例表明潜在的矢量确实对草图的概念特征进行了编码。 但是,我们可以使用这些功能来增加没有这些功能的其他草图 - 例如,向猫添加一个身体?

图 :使用潜在的向量算法探索抽象概念之间的学习关系

事实上,我们发现草图绘制类比是可能的,我们的模型训练猫和猪草图。 例如,我们可以从完整猪的潜在载体中减去编码猪头的潜在载体,以获得代表身体概念的载体。 将这种差异添加到猫头的潜在载体中会产生一只完整的猫(即猫头+身体=完整的猫)。 这些绘图类比使我们能够探索模型如何组织其潜在空间,以便在生成的草图的多边形中表示不同的概念。

创意应用

除了这项工作的研究部分,我们对草图的潜在创意应用也感到非常兴奋。 例如,即使在最简单的用例中,模式设计人员也可以应用sketch-rnn为纺织品或壁纸打印生成大量相似但独特的设计。

图 :由单一输入草图(绿色和黄色框)生成的类似但独特的猫

如前所述,如果给出卡车的输入草图,则可以制作一个训练成猪仔的模型来绘制猪式卡车。 我们可以将此结果扩展到应用程序,这些应用程序可能有助于创意设计师提出可以与目标受众更多共鸣的抽象设计。

例如,在下图中,我们将四把椅子的草图放入我们的绘图模型中,生产四只椅子般的猫。 我们可以进一步,并结合前面介绍的插值方法来探索座椅猫的潜在空间,并产生一个大的网格生成的设计来选择。

探索不同对象之间的潜在空间可能使创意设计师能够找到有趣的交叉点和不同图形之间的关系

探索生成的日常物品草图的潜在空间

从左到右的潜在空间插值,然后从上到下

我们也可以使用sketch-rnn的解码器模块作为独立模型,并对其进行训练,以预测不完整草图的不同结果。 这种技术可以让应用程序通过提供完成不完整草图的替代方法来协助艺术家的创作过程。 在下图中,我们绘制不同的不完整草图(红色),并使模型得到不同的可能方式来完成绘图。

该模型可以从不完整的草图(垂直线左侧的红色部分草图)开始,并自动生成不同的图像

我们可以进一步把这个概念,并有不同的模型完成相同的不完整素描。 在下图中,我们看到如何使同一个圆圈和方形图成为各种蚂蚁,火烈鸟,直升机,猫头鹰,沙发甚至油漆刷的一部分。 通过使用训练有素的多种模式来绘制各种对象,设计人员可以探索创造性的方式来向观众传达有意义的视觉信息。

使用训练了不同对象的sketch-rnn模型 预测圆和矩形(中间)的结尾

这些模型将使许多令人兴奋的新的创意应用程序在各种不同的方向。 他们也可以作为一个工具来帮助我们提高对自己创意思维过程的理解。 通过阅读我们的论文“A Neural Representation of Sketch Drawings”,了解更多关于sketch-rnn的信息。

致谢

感谢Ian Johnson,Jonas Jongejan,Martin Wattenberg,Mike Schuster,Ben Poole,Kyle Kastner,Junyoung Chung,Kyle McDonald对这个项目的帮助。 这项工作是Google Brain Residency计划的一部分。

© 著作权归作者所有

Qcloud_KID
粉丝 5
博文 49
码字总数 98480
作品 0
深圳
私信 提问
谷歌大脑2017总结下篇:从医疗、机器人等6个领域开始的改变世界之旅

雷锋网(公众号:雷锋网) AI 科技评论按:昨天谷歌大脑(Google Brain)负责人 Jeff Dean 在 Google Research Blog 上发表了谷歌大脑团队 2017 年的回顾总结上篇,详述了谷歌大脑过去一年中在...

camel
2018/01/13
0
0
从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

  选自Statsbot   作者:Eduard Tyantov   机器之心编译      2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了。来自机...

机器之心
2017/12/22
0
0
2017年深度学习重大研究进展全解读

来源:机器之心 概要:想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答。 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展...

jtnbcoc8n2i9
2017/12/25
0
0
“谷歌大脑”年度官方总结:9个基础方向研究、6大具体领域成果定义谷歌 AI 进展

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文” 作为谷歌 AI 帝国的重要部分,谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年...

DeepTech深科技
2018/01/14
0
0
【一文打尽 ICLR 2018】9大演讲,DeepMind、谷歌最新干货抢鲜看

     来源:iclr、Google/DeepMind blog   【新智元导读】ICLR 2018即将开幕,谷歌、DeepMind等大厂这几天陆续公布了今年的论文,全是干货。连同3篇最佳论文和9个邀请演讲一起,新智元...

深度学习
2018/05/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

全球第一时间响应:Rancher发布2.3.1,支持K8S CVE修复版本

北京时间2019年10月17日,Kubernetes发布了新的补丁版本,修复了新近发现的两个安全漏洞:CVE-2019-11253和CVE-2019-16276。Rancher第一时间响应,就在当天紧随其后发布了Rancher v2.3.1和R...

RancherLabs
13分钟前
2
0
EMQ X 规则引擎系列 (八)桥接消息到 MQTT Broker

桥接概念 桥接是一种连接多个 EMQ X 或者其他 MQTT 消息中间件的方式。不同于集群,工作在桥接模式下的节点之间不会复制主题树和路由表。桥接模式所做的是: 按照规则把消息转发至桥接节点;...

EMQX
17分钟前
3
0
《2019年上半年云上企业安全指南》详解安全建设最易忽视的问题!

《2019年上半年云上企业安全指南》是阿里云基于对云安全中心监测到的威胁情报进行分析,形成的一份云上企业安全建设指南。通过对云上企业安全建设现状及多维度威胁情报的分析,得出企业安全建...

开源中国小二
17分钟前
2
0
一天之际在于晨之KMP算法

(我觉得不需要明白原理,应该是在面试或者工作的时候,该想到用什么算法以及之后直接赋值我这里的代码就好了) 下面的情况我们第一时间考虑想到的是用KMP算法。 情况一:// ts字符串是否包...

木九天
20分钟前
2
0
如何通过反射机制创建对象?

// 获取类路径的完全限定名 String classname = "test.Interval"; // 通过类的完全限定名获取类对象 Class pClass = Class.forName(classname); // 通过类对象获取类的构造器对象 Constructo......

happywe
20分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部