本周AI热点回顾:和欧阳娜娜一起搞研发?强大的神经网络新算子involution,超越卷积、自注意力机制!...

2021/03/29 00:50
阅读数 30

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

01

我和欧阳娜娜一起搞研发

AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家——见怪不怪了。

在这档口,作为这背后AI语音合成技术的研发人员,除了常规收集语音数据、训练模型、优化模型……

还能玩出什么花儿来?

……跟欧阳娜娜一起搞研发,算不算?(误)

如何把欧阳娜娜的声音装进词典里

首先,需要工程师们采集欧阳娜娜的语音。

但很显然,他们本身不可能完整地去录制全部的语音。

甚至因为时间成本的关系,最后能真正喂给TTS(语音合成)模型的源语音也非常有限:几个小时的录音,最后能用的可能只有一小部分。

要用极少的数据,最终合成出高质量的语音,从采集训练数据开始,就要做到严格的把控。

单词和句子所需要的语音合成效果不同,在建模方面需要分别进行调整。

同时,针对模型本身,工程师们进行了多次对比实验,包括经典的基于注意力的Tacotron2模型,业内最新的Non-Attention架构等,以期实现最接近欧阳娜娜本人声音质感,同时发音准确、地道的合成效果。

而除了模型方面的精挑细选、精细打磨,值得一提的是,工程师们在此次AI语音算法的新明星语音新增了大量高采样率的英文女声数据,将采样率从16K提升到了24K,这就让合成语音在音质、听感和真实性方面有了进一步的提升。

私以为是欧阳娜娜本娜没错了。

信息来源:量子位

02

超越卷积、自注意力机制:强大的神经网络新算子involution

本文是对CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介绍,同时也分享一些对网络结构设计(CNN和Transformer)的理解。

贡献点简单来讲:

  • 提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。

  • 通过involution的结构设计,能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

  • 论文链接:

    https://arxiv.org/abs/2103.06255

  • 代码和模型链接:

    https://github.com/d-li14/involution

总体来讲:

  • 参数量、计算量降低,性能反而提升

  • 能加在各种模型的不同位置替换convolution,比如backbone,neck和head,一般来讲替换的部分越多,模型性价比越高。

这篇工作也留了一些坑供大家进一步探索:

  1. 关于广义的involution中kernel生成函数空间进一步的探索;

  2. 类似于deformable convolution加入offest生成函数,使得这个op空间建模能力的灵活性进一步提升;

  3. 结合NAS的技术搜索convolution-involution混合结构(原文Section 4.3);

  4. 在上文论述了self-attention只是一种表达形式,但希望(self-)attention机制能够启发设计更好的视觉模型,类似地detection领域最近不少好的工作,也从DETR的架构中获益匪浅。

希望2021年backbone网络结构设计能有更本质,更多元的发展!

信息来源:机器之心

03

快来尝鲜!移动开发者实现AI业务的必选神器——飞桨移动端部署工具LiteKit

LiteKit提供视频超分、人像分割、手势识别等一系列AI能力,这些AI能力均来自于百度各个业务线AI场景多年的技术沉淀,并以SDK的形式提供,做到了开箱即用

即使是没有任何AI实践的APP开发者,只需通过调用两三个简单API连接LiteKit提供的SDK软件包,就可以顺利接入AI能力。就像拆开快递箱一样简单,打开箱子就可以直接用。

你可以把SDK想象成一个虚拟的程序包,在这个程序包中有一份做好的软件功能,这份程序包几乎是全封闭的,只有一个小小接口可以连通外界,而这个接口就是API。

LiteKit的接入只需要创建、推理、释放三步即可完成AI能力的开发。虽然对于视频超分、人像分割、手势识别,甚至包括未来将要开源的新AI能力,输入输出会各有不同,但是整体流程和API的样式都被抽象成类似的步骤,甚至API的命名都会保持高度一致,让学习成本降到最低。

内容持续更新中,最新内容可以访问此链接获取。

https://github.com/PaddlePaddle/LiteKit

想进一步了解LiteKit的小伙伴,可以上Github点star并查看完整文档及Demo。

信息来源:飞桨PaddlePaddle

04

每天生产45亿词!GPT-3已渗透进300+应用中,网友:边吃边拉

现在,GPT-3每天都生产约45亿个词!

用来做什么?

例如,让曾经“只能看不能撩”的动画角色,通过GPT-3,隔空与你对话。

甚至ta还能看着自己出演的电影,和你“吐槽”电影里面的情节。

但GPT-3可不会只和你一个人聊天,它还同时做着不少事情。

毕竟,它现在可是个大忙人。

每天生产45亿个词

GPT-3就像是一个“大型文字生产机”,每天平均得产出约45亿个词。

而且,这个量还会越来越大。

具体用在什么地方?

分析需求、洞察情绪、扮演虚拟角色、充当搜索引擎……

只要是语言模型能做到的事情,GPT-3都能做,也还做的不错。

不断进化的GPT-3

GPT-3目前已经增加了许多新功能。

其中之一,就是回答端口(answer endpoint)。

采用这一功能的话,你只需要将相关信息告诉GPT-3,例如文档、或者数据库,它就能代替你回答客户的问题。

网友:边拉边吃

在OpenAI公布的这一结果后,许多网友更期待用上GPT-3了。

但也有网友认为,这种现象令人担忧。

因为GPT-3正在成为生产垃圾邮件、虚假信息的最佳选择,更何况以每天45亿个词的速度。

也有网友表示,这种情况下,更要做好分离,不然后果难以想象。

然而,如果GPT-3每天都得生产45亿个词的话,那么不久的将来,它也许就得开始用自己写的东西训练。

有网友吐槽:简直像是边拉边吃……

确实让人有种不好的预感。

信息来源:量子位

05

显卡暴涨,等等党输了,这我万万没想到啊

万万没想到,去年信心满满准备好钱包要买30系显卡的我,现在连1660Ti都快买不起了。

不仅官方原价3899的RTX 3070,一路狂涨到了8000以上的价格,成功以一卡之力斩次时代主机PS5于马下。

连早已停产古董级10系显卡,都实现了完美保值,4年过去还能以接近原价的价格二手出售。

说好的等等党永不为奴呢?

这一次价格暴涨甚至惊动了央视,显卡话题连续登上多档新闻节目。

英伟达在做什么

在今年2月份RTX 3060发布前夕,英伟达为了让玩家买到显卡,决定把3060的挖矿效率限制在50%,同时计划推出专用矿卡CMP系列。

但很快解锁驱动又被官方意外放出,3060也不可避免地加入了缺货、涨价的队伍。

而矿卡系列本身,虽然涨得没有游戏卡夸张,但也……

矿卡中的最低端型号30HX近日开卖,720美元的初始售价迅速被突破,已上涨到815美元

这价格,比起与其算力和功耗都相仿的游戏显卡GTX 1660s还要贵上一些,再加上阉割了图形输出接口难以二次销售,恐怕也很难让矿老板们放过游戏显卡。

另一方面,英伟达把旗下云游戏服务GeForce Now的价格直接翻倍,即使你买不到显卡想玩云游戏,也会被收割一波。

英特尔下场,I卡来了

对了,英特尔也宣布将在美国时间3月26日发布全新游戏显卡Xe HPG系列。

共有6个型号,据爆料最高配型号将搭载512个执行单元、4096个流处理器,核心频率 1800MHz,16GB的GDDR6显存。

对此有网友评价,只要英特尔做到有货,哪怕性能弱一些也能躺赢显卡战争。

信息来源:量子位

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

本文同步分享在 博客“飞桨PaddlePaddle”(CSDN)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中

作者的其它热门文章

打赏
0
0 收藏
分享
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部