文档章节

让机器耳濡目染:MIT提出跨模态机器学习模型

Airship
 Airship
发布于 2017/06/13 09:31
字数 1054
阅读 3
收藏 0
点赞 0
评论 0

时间 2017-06-11 17:28:22  机器之心

原文  https://www.jiqizhixin.com/articles/015f1f8e-5dca-486a-961c-b4b4b76647df

主题 数据挖掘

不变性表示(invariant representation)是视觉、听觉和语言模型的核心,它们是数据的抽象结果。人们一直希望在视觉、有噪音的音频、有同义词的自然语言中获取观点和大量不变性表示。具有识别能力的不变性表示可以让机器从大量数据中学习特征,从而获得近似于人类的识别效果。但在机器学习领域,目前这一方面的研究进展有限。

对此,麻省理工学院(MIT)的 Yusuf Aytar 等人最近在一项研究中提出了全新的方法:研究人员通过多种关联信息的输入让机器学习了跨模态数据的通用表达方式。在文字语句「她跳入了泳池」中,同样的概念不仅出现在视觉上,也出现在了听觉上,如泳池的图像和水花飞溅的声音。如果这些跨模态的表示存在关联,那么它们的共同表示就具有鲁棒性。上文中的句子、泳池的图像和水声应当具有相同的内在表示。

论文:See, Hear, and Read: Deep Aligned Representations

链接:https://arxiv.org/abs/1706.00932

摘要

我们利用大量易于获得的同步数据,让机器学习系统学会了三种主要感官(视觉、声音和语言)之间共有的深度描述。通过利用时长超过一年的视频配音和百万条配和图片匹配的句子,我们成功训练了一个深度卷积神经网络对不同信息生成共同的表示。我们的实验证明,这种表示对于一些任务是有效的,如跨模式检索或在形态之间的传递分类。此外,尽管我们的神经网络只经过了图片+文字和图片+声音的配对训练,但它也在文本和声音之间建立了联系——这在训练中未曾接触。我们的模型的可视化效果揭示了大量自动生成,用于识别概念,并独立于模态的隐藏单元。

图 1. 共同表示:研究人员提出了深度跨模态卷积神经网络,它可以学习三种表征方式:视觉、听觉和文字阅读。在此之上,研究人员展示了输入信息可以激活网络中的隐藏单元,其中被激发的概念位置独立于模态。

图 2. 数据集:研究人员使用了大量未加工、无约束的数据对概念表达进行训练。

图 3. 学习通用表示方法:研究人员设计了一种能够同时接收图像、声音和文字输入的神经网络。该模型从模态专属表示(灰色)中产生一种通用表示,同时适用于不同模态(蓝色)。研究人员同时使用模型转换损失和配比排名损失来训练这个模型。模态专有层是卷积的,不同模态的共享层则是全连接的。

图 4. 跨模式反演示例:MIT 的研究人员展示了使用深度表示,跨声音、图像和文字三种模态的顶层反演

图 5. 隐藏单元的可视化:研究人员通过模型的可视化发现了一些隐藏单元。注意:频谱图(红/黄色的热区显示)之外,还有原始视频和与之对应的描述声音,后者仅用于可视化目的。

不变性表示可以让计算机视觉系统可以在不受约束的、现实世界环境中高效运行。在实验中,研究人员发现了一些联结表达方式具有更高的分类和检索性能,可以应对未遇到过的新情况。麻省理工学院的学者们相信,对于下一代机器感知而言,跨模态的表示具有重要意义。

本文转载自:http://www.tuicool.com/articles/2mqem2m

共有 人打赏支持
Airship
粉丝 34
博文 852
码字总数 18996
作品 0
南京
高级程序员
CVPR 2018 | 自监督对抗哈希SSAH:当前最佳的跨模态检索框架

  选自arXiv   作者:Chao Li等   机器之心编译   参与:Pedro、刘晓坤      近日,西安电子科技大学、优必选和腾讯 AI Lab 联合提出了一种新型跨模态哈希方法:SSAH 模型框架。...

机器之心
04/14
0
0
德国汉堡科学院院士张建伟:人工智能交互的未来是多模态共享模式 | CCF-GAIR 2018

雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网(公众号:雷锋网)、香港中文大学(深圳)承办,得到了宝安区政府的大力指导,是国...

张莉
07/04
0
0
学界 | MIT提出像素级声源定位系统PixelPlayer:无监督地分离视频中的目标声源

  选自arxiv   作者:Hang Zhao、Chuang Gan、Andrew Rouditchenko、Carl Vondrick Josh McDermott、Antonio Torralba   机器之心编译   参与:刘晓坤、李泽南      相比单模态信...

机器之心
04/12
0
0
CVPR 2018 | 逆视觉问答任务:一种根据回答与图像想问题的模型

  选自arXiv   作者:Feng Liu等人   机器之心编译   参与:李诗萌、路      一般而言,视觉问答都是输入图像和问题,并期望机器能给出合理的回答。而最近东南大学的研究者提出一...

机器之心
06/17
0
0
南京大学机器学习与数据挖掘所ECCV16视频性格分析竞赛冠军技术分享

基于第一印象 表象的性格自动分析是计算机视觉和多媒体领域中一类非常重要的研究问题。 英文中有句谚语叫:“You never get a second chance to make a first impression.”(你永远没有第二...

行者武松
03/01
0
0
CVPR 2018视频行为识别挑战赛结果出炉:前三名均由国内团队包揽

  机器之心报道   参与:李亚洲、刘晓坤      6 月 18 号,CVPR 2018 将在犹他州盐湖城开幕。作为计算机视觉领域的全球顶会,吸引了国内外众多学界、产业界的研究人员参与。而华人力...

机器之心
06/17
0
0
机器人也能拥有人类情感:“情感计算”让机器人学会“读心术”

来源:《情感计算与情感机器人系统》 作者:吴敏,刘振焘,陈略峰著 随着机器人进入日常生活中的各个方面,人们对其提出了更高的要求,希望它们具有感知人类情感、意图的能力,这类机器人称为...

cf2suds8x8f0v
05/05
0
0
CNCC2017中的深度学习与跨媒体智能

转载请注明作者:梦里茶 目录 机器学习与跨媒体智能 传统方法与深度学习 生成模型 跨媒体智能 正片开始 传统方法与深度学习 图像分割 图像分割是医疗图像中一个很重要的任务,通常分为分割,...

梦里茶
2017/12/04
0
0
十年机器学习结果不可靠?伯克利&MIT研究质疑了30个经典模型

近年来人工智能发展,大的,比如一项又一项“超越人类水平”的进步,以及小的、甚至几乎每天都在发生的(这要感谢Arxiv),比如在各种论文中不断被刷新的“state-of-the-art”,无不让人感叹...

技术小能手
06/06
0
0
优必选4篇CVPR 2018录用论文摘要解读

雷锋网(公众号:雷锋网) AI 科技评论按:CVPR 2018 总投稿量超 4000 篇,最终录取数超 900 篇,录取率不到 23%。其中,优必选悉尼 AI 研究院有 4 篇论文被录用为 poster。论文详细解读如下:...

奕欣
04/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

一款成功的全球服游戏该如何进行架构选型与设计?

全球服游戏如今正在成为出海游戏的主要考虑模式,跨国对战、全球通服打破国界的限制,将不同地区不同语言的玩家放在一起合作/竞技,成功吸引了大量玩家的关注,并逐渐成为主流的游戏玩法。 ...

UCloudTech
5分钟前
0
0
StringUtils类中isEmpty与isBlank的区别

org.apache.commons.lang.StringUtils类提供了String的常用操作,最为常用的判空有如下两种isEmpty(String str)和isBlank(String str)。 StringUtils.isEmpty(String str) 判断某字符串是否为...

说回答
18分钟前
0
0
react native使用redux快速上手

看例图 要求点击组件一中的按钮,改版组件二的背景色。 利用state和props和容易实现。 //app.jsimport React, {Component} from 'react';import {StyleSheet, Button, View, Text} from ...

燕归南
20分钟前
0
0
页面输出JSON格式数据

package com.sysware.utils;import java.io.IOException;import javax.servlet.ServletResponse;import org.apache.log4j.Logger;import com.sysware.SyswareConstant;pub......

AK灬
41分钟前
0
0
springCloud-2.搭建Eureka Client的使用

1.使用IDEA,Spring Initializr创建 2.填写项目资料 3.选择spring boot版本,插件选择Cloud Discovery→Eureka Discovery 4.选择保存地址 5.修改application.yml eureka: client: s...

贺小康
44分钟前
0
0
CenOS 6.5 RPM 安装 elasticsearch 6.3.1

下载 wget --no-check-certificate https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.1.rpm...

阿白
47分钟前
0
0
1.4 创建虚拟机&1.5 安装CentOS7&1.6 配置ip(上)&1.7 配置ip(下)

1.4 创建虚拟机 知识点 虚拟机网络链接模式 桥连 直接将虚拟网卡桥接到一个物理网卡上面。需要手工为虚拟系统配置IP地址、子网掩码,而且还要和宿主机器处于同一网段,这样虚拟系统才能和宿主...

小丑鱼00
53分钟前
0
0
TrustAsia(亚洲诚信)助力看雪2018安全开发者峰会

2018年7月21日,看雪2018安全开发者峰会在北京国家会议中心圆满落下帷幕。拥有18年悠久历史的老牌安全技术社区——看雪学院联手国内最大开发者社区CSDN,汇聚业内顶尖的安全开发者和技术专家...

亚洲诚信
54分钟前
0
0
Spring注解介绍

@Resource、@AutoWired、@Qualifier 都用来注入对象。其中@Resource可以以 name 或 type 方式注入,@AutoWired只能以 type 方式注入,@Qualifier 只能以 name 方式注入。 但它们有一些细微区...

lqlm
今天
0
0
32位汇编在64位Ubuntu上的汇编和连接

本教程使用的操作系统是Ubuntu Linux 18.04 LTS版本,汇编器是GNU AS(简称as),连接器是GNU LD(简称ld)。 以下是一段用于检测CPU品牌的汇编小程序(cpuid2.s): .section .dataoutput...

ryanliue
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部