文档章节

语音识别真的比肩人类了?听听阿里iDST初敏怎么说

暖夏未眠丶
 暖夏未眠丶
发布于 2017/06/27 17:08
字数 3168
阅读 0
收藏 0
点赞 0
评论 0

摘要: 语音识别真的比肩人类了吗?各种算法之间该如何选择?如何提升语音交互的用户体验?带着这些问题,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是怎么说的。

编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,大会期间阿里云iDST智能交互总监初敏将在“语言智能与应用”论坛上分享语音交互技术的趋势,在此之前,阿里云云栖社区作为独家直播合作伙伴采访了初敏。

围绕语音交互的入口之争正愈演愈烈,siri、echo这些产品风靡全球的同时,国内外科技巨头、创业团队也在暗流涌动,各种智能音箱以及语音解决方案层出不穷。

毫无疑问,语音交互已经成为人工智能领域最成熟也是落地最快的技术。尤其是深度学习的起势,让语音识别、语音合成以及自然语言处理的发展速度提升到了一个新的高度。

于是乎,各种美化宣传扑面而来!

“XXX产品识别准确率高达99%,识别准确率比肩人类!”

然而,事实并非如此。市面上已有的语音交互产品或多或少都存在一些通病:在特定领域效果不错,但超出指定范围就差强人意了,这样的问题让用户整体体验大打折扣…

语音识别真的比肩人类了吗?各种算法之间该如何选择?如何提升语音交互的用户体验?带着这些问题,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是怎么说的。

51c6931ad8cb4450f0ce10c663b949383825c344

(注: iDST语音识别团队曾在2016年以0.67%的准确率优势击败了世界速记大赛亚军蒋毅,据了解,iDST团队使用了BLSTM算法,这种算法对单位时间内的计算量要求很高,为此他们做了很多针对性的优化工作,才能让这个算法提供实时服务,并第一次在工业界进行了大规模部署。)

以下内容整理自采访录音:

云栖社区:从国内外的趋势来看,语音交互技术的应用越来越多,您认为推动语音技术普及的主要原因是什么?

初敏:语音有两个大的方向在用,第一个把语音当成数据,例如在讲座、法院,或者是客服这些场景中,之前有的会录音,有的不录音,讲完就过去了,而现在这些语音都会记录下来,而且还会识别成文字,这实际上是一个数据积累的过程,我们可以对这些文本化的数据进行各种分析、挖掘和加工等等。

另外一个就是大家更关注的语音交互,语音交互之所以越来越被重视,我觉得是因为互联网、智能硬件的普及。未来智能电视、智能音箱,甚至到以后的日常设备,都可以变成一个互联网的入口,语音就是最简单的,最直接的交互方式,是通用的输入模式。

当然现有的很多语音产品还没有那么成功,我认为虽然现在产品比较多,但是真正好用的,让人经常想用的却不多。

云栖社区:就像您提到的现在语音识别产品用起来其还会有各种各样的问题,要达到真正完全可用的状态我们还需要克服哪些难题?

初敏:我觉得脱离了应用场景讲识别准确率、讲产品根本就是不靠谱的,大家谈到的百分之多少的识别准确率理论上不存在,任何一个准确率都是在特定场景下测出来的,不同的场景测出来不一样,做一套模型在所有场景上都达到非常高的准确率,是不太现实的。

以云栖大会为例,云栖大会的Talk,语音识别准确率基本上能做到95%以上,但如果突然邀请一个特殊领域的讲演者,比如医疗领域,可能就很难达到同样好的效果,因为现有模型在医疗领域的知识积累不够。所以,要把语音技术在各种领域普及开来,能快速针对不同场景进行模型调优和定制变得非常重要,这也是我们下面主要推进的一个方向。

云栖社区:阿里在语音交互上重点做了哪些事?

初敏:这两年来我们其实做了很多工作。

一方面是在算法方面的尝试,语音这两年进步的比较快实际上就是深度学习的成功应用,我们尝试了各种深度学习模型,如DNN、CNN、BLSTM(双向长短时记忆神经网络),特别是在业界最先大规模上线了基于BLSTM的系统。同时,我们也会尝试各种新算法。需要提到的是有些算法比较复杂,实验效果好,但是上线就有些难度,所以我们需要进行大量的尝试。另外,现在这些模型的训练是复杂度挺高的,训练的时间一般会很长,特别是当你的数据特别多的时候。 模型训练的很大一部分任务要由GPU处理,在多台机器上的多块GPU卡上并行训练,才能提升模型优化的效率,因此我们也需要进行一些这种底层基础设施的建设(详见:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware)。

另一方面,我们也在在建模单元上做一些尝试,传统的做法是对状态建模(通常把一个音素切成三个状态),现在我们成功的使用音素作为建模单元,在准确率保持的前提下,解码效率提升高三到五倍。更大的建模单元也在尝试中。

除了语音识别,我们在语音合成、对话管理,问答等方面也做了很多工作,还包括在不同端上的信号处理,例如麦克风阵列等等都是要去实践的。这样才能完成语音交互的完整过程。

云栖社区:在算法的选择上是怎么考量的?

初敏:算法实际上有很多,DNN是全连接的,CNN是有卷积的,然后RNN基本上是序列的,我们实验最成功的是双向的BLSTM,而现在还是有些其他的选择,包括优化准则方面的变化。最终在线上系统采用什么算法,需要综合考虑,既要看效果,同时还要考虑到计算效率,部署成本等因素。

云栖社区:去年双十一阿里ET语音交互系统有亮相,它还有哪些提升空间?

初敏:ET语音交互系统确实还有改善的空间,我们平常准确率能做到95%、96%的水平,但当时主持人讲的语速太快,准确率也就不尽如人意了。此外,跟主持人交互的自由度方面,也还有很多可以做的事情。

云栖社区:团队做了哪些改善方案?

初敏:要在更多的场景用好就必须要有大量的数据。因为场景的磨合都是和数据有关,数据是什么场景来的,它就可以在这个场景下取得好的效果。之前我们在客服领域的数据特别多(详见:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用),然后还有一些就手机端的,比如说手淘(详见:阿里小蜜:语音识别、语义分析、深度学习在手机淘宝的实战分享),但是视频类的就会差一些。因此,我们就有针对性的增加数据,同时增加各种可能的背景噪声,在专门优化后,视频里的语音的识别效果就大幅提升了。因此,快速的模型定制对语音技术的广泛应用非常重要。

我们现在花了很多时间研发系统的定制能力,这样用户在系统上提交数据就可以通过我们的自动流程来定制他们的模型,这个模型在他们需要的场景下可以取得比通用模型更好的效果。我们现在很多的工作是从这个角度来看。我认为将来这方面是谁的能力最强,谁就能真正在市场上快速把它用起来。

目前市面上,基本上还没有哪个团队在提供快速定制化服务,我们是非常领先的。

云栖社区:下个月举行的CCAI大会上开设了“语言智能与应用”论坛,针对这一方向,您认为现在学术界和产业界还存在哪些痛点?

初敏:就像你刚才问到的,语音识别宣传得很好,但很多时候用起来还没有预期的那么好,主要是因为技术到产品的落地之间还有很多工作没有做好、做细致。

语音识别不是万能的,随便一接就可以的用的很顺畅的。

技术使用起来往往需要一个迭代的过程的,需要先上线,然后在场景里收集数据去评估,优化模型,改善用户体验。经过几轮迭代,才可以发挥最佳效果。其他AI技术也是相似的。今天很多AI技术的用户很容易把技术的能力理想化,感觉一引入,就应该立竿见影的看到效果。看到实际效果不尽人意时,就会感觉有很大的落差,失望和放弃。所以,我想强调的是,一方面智能语音技术已经达到广发应用的水平,同时在真正落地的时候,要充分认识到可能遇到的困难,有持久战的思想准备。

云栖社区:下个月您会在CCAI语音交互分论坛上分享,作为演讲嘉宾您希望能给开发者带来什么样的帮助?

初敏:语音交互技术在未来三五年内会大规模应用,这是大家都看到的趋势,但是换句话说,大家都希望产品在目标场景中取得好的效果,但现实很残酷,并不是每个人都是算法或者人工智能领域的资深专家,需要一个不断学习和迭代的过程。AI技术的应用是一个系统工程,我们要有足够的耐心去打通产品和体验的优化链路,在应用中不断提升效果。

CCAI大会简介:

CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。报名请戳这里

大会讲师采访:

CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich:人类将如何受到AI威胁

CCAI讲师专访 | Toby Walsh:用AI提高器官移植的成功率

原文链接

本文转载自:

共有 人打赏支持
暖夏未眠丶
粉丝 0
博文 250
码字总数 427
作品 0
太原
阿里推动AI走向普通人:双11用语音抢红包

  【IT168 资讯】人工智能(AI)是今年科技业最火热的单词。今年双11期间,阿里要让普通用户也与AI来个亲密接触。你只需打开张张嘴巴,就有机会抢到大量语音红包,如互动狂欢城、粉丝趴、语音...

it168网站 ⋅ 2017/11/15 ⋅ 0

【云周刊】第145期:2017天猫双11总交易额1682亿,背后阿里绝密50+技术揭秘!

本期头条 2017天猫双11总交易额1682亿,背后阿里绝密50+技术揭秘! 2017年天猫双11全球狂欢节28秒破10亿,3分01秒破百亿,40分12秒破500亿,9小时破1000亿,交易峰值32.5万/秒,支付峰值25....

场景研读 ⋅ 2017/11/13 ⋅ 0

我和春天有个约会,阿里云 MVP第4期公布

自2017年6月10日,阿里云宣传 MVP计划启动,并在11月向全球公开招募。阿里云最有价值专家,简称 MVP(Most Valuable Professional),是专注于帮助他人充分了解和使用阿里云技术的意见领袖。...

tech君 ⋅ 03/22 ⋅ 0

阿里 iDST 新人「物理学家」冯津伟:声学设计与语音信号处理,是 AI 算法的核心前提

雷锋网 AI 科技评论按:阿里巴巴人工智能核心团队 iDST 近期又将一名顶级大牛纳入麾下——世界级声学专家、原宝利通(Polycom)声学设计与信号处理首席工程师冯津伟博士于近期加入阿里巴巴 ...

奕欣 ⋅ 2017/11/30 ⋅ 0

盘点 BAT 顶级人才变动,窥探各家AI战略

本文转自THU数据派(ID:datapi) 几年前,人工智能技术还是“冷门”,在国内互联网公司中,早早挑头呐喊的李彦宏还略显孤独。而现在,人工智能已经走上风口,AI成为了创投界的热词,该领域的...

dqcfkyqdxym3f8rb0 ⋅ 2017/12/25 ⋅ 0

独家 | 盘点BAT顶级人才变动,窥探各家AI战略

几年前,人工智能技术还是“冷门”,在国内互联网公司中,早早挑头呐喊的李彦宏还略显孤独。而现在,人工智能已经走上风口,AI成为了创投界的热词,该领域的相关人才也跟着大为紧缺。当中国公...

enohtzvqijxo00atz3y8 ⋅ 2017/12/18 ⋅ 0

马云如何坐地铁?语音购票、刷脸进站,还有防拥挤的智能人流分析

  对着售票机喊句话就能买到地铁票?这个在过去看来完全无法想象的事,在阿里的黑科技加持下已成现实。    13秒视频感受“语音售票机”   12月5日,语音购票、刷脸进站、智能客流监测等...

天池大数据科研平台 ⋅ 2017/12/11 ⋅ 0

干货 :盘点BAT顶级人才变动,窥探各家AI战略

几年前,人工智能技术还是“冷门”,在国内互联网公司中,早早挑头呐喊的李彦宏还略显孤独。而现在,人工智能已经走上风口,AI成为了创投界的热词,该领域的相关人才也跟着大为紧缺。当中国公...

Tw6cy6uKyDea86Z ⋅ 2017/12/25 ⋅ 0

推荐指数五星丨错过直播!不能再错过的百场技术直播全回顾

细数2017,几乎每晚20:00,云栖君都和大家相约在屏幕两端。云栖社区2017年共举办300余场在线直播,10+在线技术峰会,内容涵盖多个技术领域,开发者们可谓是过足了瘾。 考虑到大家忙忙碌碌的工...

云迹九州 ⋅ 01/09 ⋅ 0

阿里巴巴跨物理界招人,世界级音频专家冯津伟入职人工智能团队iDST

摘要: 11月30日阿里巴巴正式宣布,前Polycom(宝利通)声学设计和信号处理首席工程师(Principal Engineer)冯津伟入职人工智能核心团队iDST,担任智能语音交互团队研究员,将负责语音交互设...

阿里云云栖社区 ⋅ 2017/11/30 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

一篇文章学懂Shell脚本

Shell脚本,就是利用Shell的命令解释的功能,对一个纯文本的文件进行解析,然后执行这些功能,也可以说Shell脚本就是一系列命令的集合。 Shell可以直接使用在win/Unix/Linux上面,并且可以调用...

Jake_xun ⋅ 21分钟前 ⋅ 0

大数据工程师需要精通算法吗,要达到一个什么程度呢?

机器学习是人工智能的一个重要分支,而机器学习下最重要的就是算法,本文讲述归纳了入门级的几个机器学习算法,加大数据学习群:716581014一起加入AI技术大本营。 1、监督学习算法 这个算法由...

董黎明 ⋅ 54分钟前 ⋅ 0

Kylin 对维度表的的要求

1.要具有数据一致性,主键值必须是唯一的;Kylin 会进行检查,如果有两行的主键值相同则会报错。 2.维度表越小越好,因为 Kylin 会将维度表加载到内存中供查询;过大的表不适合作为维度表,默...

无精疯 ⋅ 57分钟前 ⋅ 0

58到家数据库30条军规解读

军规适用场景:并发量大、数据量大的互联网业务 军规:介绍内容 解读:讲解原因,解读比军规更重要 一、基础规范 (1)必须使用InnoDB存储引擎 解读:支持事务、行级锁、并发性能更好、CPU及...

kim_o ⋅ 今天 ⋅ 0

代码注释中顺序更改 文件读写换行

`package ssh; import com.xxx.common.log.LogFactory; import com.xxx.common.log.LoggerUtil; import org.apache.commons.lang3.StringUtils; import java.io.*; public class DirErgodic ......

林伟琨 ⋅ 今天 ⋅ 0

linux实用操作命令

参考 http://blog.csdn.net/qwe6112071/article/details/50806734 ls [选项] [目录名 | 列出相关目录下的所有目录和文件 -a 列出包括.a开头的隐藏文件的所有文件-A 同-a,但不列出"."和"...

简心 ⋅ 今天 ⋅ 0

preg_match处理中文符号 url编码方法

之前想过直接用符号来替换,但失败了,或者用其他方式,但有有些复杂,这个是一个新的思路,亲测可用 <?php$str='637朗逸·超速新风王(300)(白光)'; $str=iconv("UTF-8","GBK",$s...

大灰狼wow ⋅ 今天 ⋅ 0

DevOps 资讯 | PostgreSQL 的时代到来了吗 ?

PostgreSQL是对象-关系型数据库,BSD 许可证。拼读为"post-gress-Q-L"。 作者: Tony Baer 原文: Has the time finally come for PostgreSQL?(有删节) 近30年来 PostgreSQL 无疑是您从未听...

RiboseYim ⋅ 今天 ⋅ 0

github太慢

1:用浏览器访问 IPAddress.com or http://tool.chinaz.com 使用 IP Lookup 工具获得github.com和github.global.ssl.fastly.net域名的ip地址 2:/etc/hosts文件中添加如下格式(IP最好自己查一...

whoisliang ⋅ 今天 ⋅ 0

非阻塞同步之 CAS

为解决线程安全问题,互斥同步相当于以时间换空间。多线程情况下,只有一个线程可以访问同步代码。这种同步也叫阻塞同步(Blocking Synchronization). 这种同步属于一种悲观并发策略。认为只...

长安一梦 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部