文档章节

增强自动语音识别的新方法 将语音数据增强视为视觉

 甜甜甜草
发布于 04/23 15:37
字数 1125
阅读 4
收藏 0

Google AI研究团队发布用于自动语音识别的数据增强新方法SpecAugment,该新方法是将语音数据增强视为视觉的问题,而不是语音的问题,因此,Google并不用传统数据增强的方式,针对语音音波输入数据增强,SpecAugment是直接对声学音谱图(spectrogram)输入数据进行增强,Google指出,这个方法是个简单又便宜的方法,此外,也不需要额外的数据,同时还能有效地改善自动语音识别模型的效能。

自动语音识别是将语音输入转为文字的过程,也因为深度神经网络的进展,语音识别技术应用在许多现代设备和产品中,像是Google语音助理、Google Home智能音响和YouTube,但是在开发以深度学习为基础的语音识别系统时,还是有许多重要的挑战要解决,其中一项含有很多参数的语音识别模型挑战,就是会有训练数据过度学习(overfit)的问题,若训练数据集不够广泛,模型很难处理未识别过的数据。

在缺乏足够训练样本的情况下,可以透过资料增强的方法,来增加有效训练数据,这个方法有助于大幅提升图像分类领域的深度网络表现,一般来说,在语音识别的sbf胜博案例中,数据增强的方式是靠着改变声音音波,像是加快、减缓语音速度,或是加入背景噪音,来使得数据集有效地变大,让神经网络模型学习更多相关特征,来帮助模型变得更稳固、准确,不过,现有增强语音数据的传统方法会带来更多的运算成本,有时候还需要更多额外的数据。

传统的自动语音识别模型,在将数据输入网络模型之前,通常会将音波编译为视觉的代表值,像是声学音谱图,而训练数据增强工作通常是在音波转换为音谱图之前,但是,Google团队是直接针对音谱图的数据进行增强,并不是用音波数据,且因为SpecAugment方法是直接针对模型输入数据的特征进行增强,因此,可以在训练的过程中在在线执行,并不会显着地影响训练速度。

SpecAugment是在时间方向上,利用改变音谱图的方式来修改、屏蔽连续频率信道的区块和时间内的语句区块,这些增强工作能够帮神经网络模型,在时间方向上的分解、部分频率信息遗失和小片段语音输入的遗失等过程,变得更加稳固。

为了测试SpecAugment方法,Google用语音数据集LibriSpeech来进行一些实验,再透过语音识别评估标准Word Error RateWER),比对模型生成的文字与目标文字的差异,实验执行的过程中,Google将所有的超参数固定,只有改变输入网络模型的数据,结果显示SpecAugment方法能够改善网络的效能,且不需要额外调整模型或是训练参数。

更重要的是,SpecAugment能够防止模型因为给予模型特定训练数据,而产生过度学习的问题,此外,用SpecAugment方法训练出来的模型,意外地超越先前所有方法的结果,甚至不需要语言模型的协助,语言模型在改善自动语音识别网络中,扮演重要的角色,但是通常语言模型和自动语音识别模型是分开训练的,且语言模型因为需要海量存储器,很难应用在小的装置中,像是手机,因此,该研究结果能够实际运用在训练模型中,并且不需要语言模型的协助。

© 著作权归作者所有

粉丝 0
博文 105
码字总数 71309
作品 0
台湾
私信 提问
“眼”来助听:谷歌视觉-音频分离模型解决「鸡尾酒会效应」

雷锋网 AI 科技评论按:人类很擅长在嘈杂的环境下将其他非重点的声响「静音」化,从而将注意力集中在某个特定人物身上。这也就是众所周知的「鸡尾酒会效应」,这种能力是人类与生俱来的。然而...

刘鹏
2018/04/13
0
0
谷歌用新的语音数据扩增技术大幅提升语音识别准确率

雷锋网 AI 科技评论按:把一段输入音频转换为一段文本的任务「自动语音识别(ASR)」,是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生...

杨晓凡
04/24
0
0
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

  选自Google Research Blog   作者:Inbar Mosseri等   机器之心编译      在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上「屏蔽」其他所有声音。这种能...

机器之心
2018/04/12
0
0
浙江天搜浅谈人工智能AI的四大应用

  如今已进入人工智能时代,代表了社会的进步,高科技的发展,那么人工智能如今运用在哪方面呢,浙江天搜总结了人工智能应用的四大方面:   一、语音识别   语音识别是指我们自然发出的...

tszj12
2018/06/12
0
0
马云如何坐地铁?语音购票、刷脸进站,还有防拥挤的智能人流分析

  对着售票机喊句话就能买到地铁票?这个在过去看来完全无法想象的事,在阿里的黑科技加持下已成现实。    13秒视频感受“语音售票机”   12月5日,语音购票、刷脸进站、智能客流监测等...

天池大数据科研平台
2017/12/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

浅谈FlyWeight享元模式

一、前言 享元(FlyWeight)模式顾名思义,即是轻量级,原因就是享元,共享元素,这里的元素指的是对象。如何共享对象,那就是在检测对象产生的时候,如果产生的是同一个对象,那么直接使用已...

青衣霓裳
9分钟前
2
0
Python学习10.14:Python set集合详解

Python 中的集合,和数学中的集合概念一样,用来保存不重复的元素,即集合中的元素都是唯一的,互不相同。 从形式上看,和字典类似,Python 集合会将所有元素放在一对大括号 {} 中,相邻元素...

太空堡垒185
9分钟前
5
0
好程序员大数据教程分享Scala系列之文件以及正则表达式

好程序员大数据教程分享Scala系列之文件以及正则表达式 1 读取行 导入scala.io.Source后,即可引用Source中的方法读取文件信息。 import scala.io.Source object FileDemo extends App{ val ...

好程序员官网
10分钟前
3
0
75.nosql memcached与安装及查看状态

21.1 nosql介绍 21.2 memrcached介绍 21.3 安装memcached 21.4 查看memcachedq状态 21.1 nosql介绍 什么是NoSQL: 1.非关系型数据库就是NoSQL,关系型数据库代表MySQL 也是一种数据库,来存储...

oschina130111
12分钟前
3
0
玩转阿里云 Terraform(二):Terraform 的几个关键概念

上一篇《玩转阿里云Terraform(一):Terraform 是什么》介绍了 Terraform 的基本定义和特点之后,本文将着重介绍几个Terraform中的关键概念。 Terraform 关键概念 在使用Terraform的过程中,通...

阿里云官方博客
12分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部