文档章节

关于webrtc的VAD(voice activity dectctor)算法说明

李有常
 李有常
发布于 2015/01/16 11:01
字数 456
阅读 716
收藏 2

                                   关于webrtc的VAD(voice activity dectctor)算法说明

        webrtc 的vad使用GMM(Gaussian Mixture Model)对语音和噪声建模,通过相应的概率来判断语音和噪声。这种算法

的优点是它是无监督的,不需要严格的训练。GMM的噪声和语音模型如下:

       p(xk|z,rk)={1/sqrt(2*pi*sita^2)} * exp{ - (xk-uz) ^2/(2 * sita ^2 )} 

       XK是选取的特征量,webrtcVAD中具体是指子带能量,rk是包括均值uz和方差sita的参数集合。z=0,代表噪声;z=1,代表语音。

webrtc中的vadC代码的详细步骤如下:

      1.设定模式 :

                 依据hangover、单独判决和全局判决门限将VAD检测模式分为以下4类

                 0-quality mode  

                 1- Low bitrate mode  

                 2-Aggressive mode 

                 3- Very aggressive mode

          

      2.webrtc的VAD只支持帧长10ms,20ms和30ms,为此事先要加以判断,不符合条件的返回-1。

 

      3.webrtc 的VAD核心计算只支持8KHz采样率,所以当输入信号采样率为32KHz  或者16KHz 时都要先下采样到8KHz 

 

       4.在8Khz采样率上分为两个步骤

 

              4.1 计算子带能量

                        子带分为80~250Hz,250~500Hz,500~1000Hz,1000~2000Hz,2000~3000Hz,3000~4000Hz

                需要分别计算上述子带的能量feature_vector。

 

              4.2 通过高斯混合模型分别计算语音和非语音的概率,使用假设检验的方法确定信号的类型。

                          首先通过高斯模型计算假设检验中的H0和H1(C代码是用h0_test和h1_test表示),通过门限判决vadflag;

                         然后更新概率计算所需要的语音均值(speech_means)、噪声的均值(noise_means)、语音方差(speech_stds)

                和噪声方差(noise_stds)。



本文转载自:http://blog.csdn.net/u012931018/article/details/16903027

上一篇: linux 文件查找
下一篇: 用qt编译webrtc
李有常
粉丝 5
博文 126
码字总数 31866
作品 0
威海
后端工程师
私信 提问
WebRTC源码架构浅析

WebRTC源码架构浅析 Google 在2010年花了6千8百万美元收购了大名鼎鼎的 Global IP Sound/Solutions (GIPS) 公司, 得到了它的 VoIP 相关技术的专利和软件. 第二年, Google就把这些软件开源了,...

ideawu
2013/08/14
4.6K
2
用Rose构建需要视频聊天的跨平台app

  实现视频聊天存在两个技术难点,一是网络传输,二是视音频编解码。这些技术问题不是靠几个人就能解决的,为此开发者一般都选择某个SDK,然后以它为基础写出app。作为众多SDK中一个,Goo...

rose-sdk
2016/12/21
462
0
Google开源实时通信项目WebRTC

最近,Google正式开源了WebRTC实时通信项目,希望浏览器厂商能够将该技术内建在浏览器中,从而使Web应用开发人员能够通过HTML标签和JavaScript API就实现Web音频、视频通信功能。 WebRTC(W...

墙头草
2011/06/07
0
0
webRTC——浏览器里的音视频通话

背景 webRTC是Google在2010年收购GIP公司之后获得的一项技术。如下图所示,它提供了音视频的采集、处理(降噪,回声消除等)、编解码、传输等技术。 webRTC的目标是实现无需安装任何插件就可以...

simon_z
03/12
0
0
Android端实现1对1音视频实时通话

前言 在学习 WebRTC 的过程中,学习的一个基本步骤是先通过 JS 学习 WebRTC的整体流程,在熟悉了整体流程之后,再学习其它端如何使用 WebRTC 进行互联互通。 本文将讲解 Android 端是如何使用...

音视频直播技术专家
05/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

【AI实战】手把手教你深度学习文字识别(文字检测篇:基于MSER, CTPN, SegLink, EAST等方法)

文字检测是文字识别过程中的一个非常重要的环节,文字检测的主要目标是将图片中的文字区域位置检测出来,以便于进行后面的文字识别,只有找到了文本所在区域,才能对其内容进行识别。 文字检...

雪饼
今天
5
0
思维导图XMind 8 Pro 绿化方法(附序列号)

按部就班: Step 1 -全新下载最新版本的 Xmind 8(注必须是英文官方的版本,中文代{过}{滤}理网站的版本修改过,无法使用pj); Step 2 -安装完毕后,点击文末的下载按钮下载pj补丁文件包,将...

一只小青蛙
今天
10
0
数据结构(ER数据库)设计规范

表命名规范 表命名的规则分为3个层级,层级之间通过_分割,例如b_r_identity、d_l_identity。规约为: [leavel]_[type]_[name] [leavel] 表示数据库表的层级和功能,分为: s:业务无关的系统...

随风溜达的向日葵
今天
5
0
阿里Sentinel控制台源码修改-对接Apollo规则持久化

https://github.com/alibaba/Sentinel/wiki/%E5%9C%A8%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E4%B8%AD%E4%BD%BF%E7%94%A8-Sentinel 动态规则扩展 https://github.com/alibaba/Sentinel/wiki......

jxlgzwh
昨天
8
0
在Linux系统中创建SSH服务器别名

如果你经常通过 SSH 访问许多不同的远程系统,这个技巧将为你节省一些时间。你可以通过 SSH 为频繁访问的系统创建 SSH 别名,这样你就不必记住所有不同的用户名、主机名、SSH 端口号和 IP 地...

老孟的Linux私房菜
昨天
12
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部