文档章节

语音特征参数MFCC提取过程详解

找一片天空散步
 找一片天空散步
发布于 2014/01/15 17:19
字数 2370
阅读 71922
收藏 40

     折腾了好几天,看了很多资料,终于把语音特征参数MFCC搞明白了,闲话少说,进入正题。

一、MFCC概述


               在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。

梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:

式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:


图1 Mel频率与线性频率的关系




二、语音特征参数MFCC提取过程

      基本步骤:



图2 MFCC参数提取基本流程

1.预加重

预加重处理其实是将语音信号通过一个高通滤波器:

(2)

式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。

2.分帧

先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。

3.加窗(Hamming Window)

将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n), n=0,1…,N-1, N为帧的大小,那么乘上汉明窗后,W(n)形式如下:

(3)

不同的a值会产生不同的汉明窗,一般情况下a取0.46

4.快速傅里叶变换

由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:


(4)

           式中x(n)为输入的语音信号,N表示傅里叶变换的点数。

           5. 三角带通滤波器

           将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界            带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M通常取22-26。各                f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图所示:



图3 Mel频率滤波器组

           

三角滤波器的频率响应定义为:

(5)


              式中


三角带通滤波器有两个主要目的:

对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。(因此一段语音的音调或音高,是不会呈现在 MFCC 参数内,换句话说,以 MFCC 为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响) 此外,还可以降低运算量。

6.计算每个滤波器组输出的对数能量为:

(6)

7.经离散余弦变换(DCT)得到MFCC系数:


(7)

                

将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。

8.对数能量

此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。

注:若要加入其它语音特征以测试识别率,也可以在此阶段加入,这些常用的其它语音特征包含音高、过零率以及共振峰等。

9.动态差分参数的提取(包括一阶差分和二阶差分)

标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:

(8)

式中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差,可取1或2。将上式的结果再代入就可以得到二阶差分的参数。

总结:

因此,MFCC的全部组成其实是由:

N维MFCC参数(N/3 MFCC系数+ N/3 一阶差分参数+ N/3 二阶差分参数)+帧能量(此项可根据需求替换)

MATLAB实现

[x fs]=wavread('8.wav');
bank=melbankm(24,256,fs,0,0.4,'t');%Mel滤波器的阶数为24,fft变换的长度为256,采样频率为16000Hz
%归一化mel滤波器组系数
bank=full(bank);
bank=bank/max(bank(:));
for k=1:12			%归一化mel滤波器组系数
n=0:23;
dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));
end
w=1+6*sin(pi*[1:12]./12);%归一化倒谱提升窗口
w=w/max(w);%预加重滤波器
xx=double(x);
xx=filter([1-0.9375],1,xx);%语音信号分帧
xx=enframe(xx,256,80);%对x 256点分为一帧
%计算每帧的MFCC参数
for i=1:size(xx,1)
y=xx(i,:);
s=y'.*hamming(256);
	t=abs(fft(s));%fft快速傅立叶变换
t=t.^2;
	c1=dctcoef*log(bank*t(1:129));
c2=c1.*w';
m(i,:)=c2';
end
%求取一阶差分系数
dtm=zeros(size(m));
for i=3:size(m,1)-2
dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);
end
dtm=dtm/3;
%求取二阶差分系数
dtmm=zeros(size(dtm));
for i=3:size(dtm,1)-2
dtmm(i,:)=-2*dtm(i-2,:)-dtm(i-1,:)+dtm(i+1,:)+2*dtm(i+2,:);
end
dtmm=dtmm/3;
%合并mfcc参数和一阶差分mfcc参数
ccc=[m dtm dtmm];
%去除首尾两帧,因为这两帧的一阶差分参数为0
ccc=ccc(3:size(m,1)-2,:);
ccc
% subplot(2,1,1) 
% ccc_1=ccc(:,1);
% plot(ccc_1);title('MFCC');ylabel('幅值');
% [h,w]=size(ccc);
% A=size(ccc);
% subplot(212)    
% plot([1,w],A);
% xlabel('维数');
% ylabel('幅值');
% title('维数与幅值的关系') 

                HTK实现:


运行:
HCopy config 8.wav 8.mfcc
其中,涉及mfcc的参数为:
TARGETKIND=MFCC_E_D_A
-目标是MFCC文件,以及energy(E), delta(D),delta-delta(A)
TARGETRATE=100000
-窗间隔为10ms
WINDOWSIZE=250000
-窗长为25ms
注:HTK中时间单位为100ns
ZMEANSOURCE=T
-将来源文件取zero mean,即去掉DC值
USEHAMMING=T
-使用hamming window
PREEMCOEF=0.97
-预加重系数0.97
NUMCHANS=31
-在MEL刻度下等分成31个频带
USEPOWER=F
-不使用c(0)参数 



以上即是语音特征参数MFCC的提取过程详解,希望能够帮助到大家!






© 著作权归作者所有

找一片天空散步
粉丝 64
博文 37
码字总数 27844
作品 0
南开
私信 提问
加载中

评论(12)

末牍
末牍
博主,请问:采样率为16000Hz的时候,帧长度设置为256是不是有所不妥?512会不会更好?
还有,要如何得出关于一小段语音信号的MFCC参数?怎么融合很多帧的mfcc才不会丢失信息?
忠_仰
忠_仰
第7步“这里M是三角滤波器个数”应该有误,M是滤波器阶数,来自NUMCHANS=31
Aderic
Aderic
MFCC提取的特征参数有啥用啊
shui1234
shui1234
您好,请问哪个差分系数计算的时候按照楼主给的公式是dtm/根号10,为什么是dtm /3呢?
tanghy
tanghy
请问能解释一下代码中的预加重吗?因为感觉和前面的理论介绍不同,另外在我看到别的博文中预加重放在最前面进行的,而您代码中C2=C1.*w'是已经求出MFCC系数了,能说说两者的差别吗?谢谢
O
ORALOG
請問有關藉由"人類的聽覺系統"設計出MFCC這一塊可以再說得詳細點嗎?

我整理一下我的問題,主要有兩個:
第一個問題是,您說對人耳來說低頻的聲音比較容易蓋過高頻者,這叫屏蔽效應,
也說低頻音的臨界帶寬比高頻還要小。
但是屏蔽效應不是指兩個頻率相近的音在頻率差小於臨界帶寬時會被誤認為一個音的現象嗎?
這樣來看如果低頻容易蓋過高頻,那低頻的臨界帶寬應該比高頻大吧?
否則低頻要怎麼覆蓋掉高頻的聲音使之被屏蔽呢?
我想我應該有什麼地方搞錯了,可能是屏蔽效應的定義之類的。

第二個問題是mel-bank filter的設計,也就是你說的三角帶通濾波器,它的設計和人耳的聽力響應有關嗎?
因為它在低頻的三角形較窄,高頻的較寬,這剛好和您說的人耳的低頻臨界帶寬比高頻小相符。
然而我在您寫的"三角帶通濾波器的目的"這裡並沒有看到您提到這點,所以想問這是不是單純的巧合而已。
謝謝您!
找一片天空散步
找一片天空散步 博主

引用来自“Fagon”的评论

请问下能否给出具体的参考文献?
你可以看一下赵力的那本儿语音信号处理和张雪英的数字语音处理及matlab实现
找一片天空散步
找一片天空散步 博主

引用来自“vThinker”的评论

请问三角滤波器的频率响应公式是怎么给出的?能解释一下或推荐看什么资料吗?看你博文时我只能猜测每个三角形的中心顶点纵坐标为 2/(f(m+1)-f(m-1))才能得到这些公式,但又不知道为什么,是否正确?
你可以看一下赵力的那本儿语音信号处理和张雪英的数字语音处理及matlab实现
v
vThinker
请问三角滤波器的频率响应公式是怎么给出的?能解释一下或推荐看什么资料吗?看你博文时我只能猜测每个三角形的中心顶点纵坐标为 2/(f(m+1)-f(m-1))才能得到这些公式,但又不知道为什么,是否正确?
F
Fagon
请问下能否给出具体的参考文献?
MFCC一些知识与Kaldi中的MFCC特征解读

因为想用Kaldi去实现一个GMM-UBM的说话人识别和loglike打分,所以想把Kaldi计算的统计量对一对, 看能不能把二进制文件里的数值单独拿出来,自己写个代码做结合Kaldi中的MAP做统计量计算,然...

robingao1994
2018/04/20
0
0
可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法

这篇文章基于 GitHub 中探索音频数据集的项目。本文列举并对比了一些有趣的算法,例如 Wavenet、UMAP、t-SNE、MFCCs 以及 PCA。此外,本文还展示了如何在 Python 中使用 Librosa 和 Tensorfl...

uwr44uouqcnsuqb60zk2
2017/12/13
0
0
什么是end-to-end神经网络?

来源:知乎 著作权归作者所有。 讨论: 张旭---------------------------------> 端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征...

langb2014
2016/11/03
0
0
语音合成的思路、语音的声学特征、声音采样的一些资料

语音合成:把语音波形文件重现,以一种灵活的方式,只用极少数的基础数据,比如元音辅音的语音参数,那么首先需要研究元音辅音的语音学性质。 先从元音开始,根据相关资料,不同的元音是由相...

FreeBlues
2012/06/24
5.3K
0
探秘身份认证利器——声纹识别!

探秘身份认证利器——声纹识别! 声纹识别神秘面纱 在这个移动互联网大行其道的年代,人们不用互相见面就可以完成很多事情,比如社交、购物、网上开店、金融交易等等,但是如何验证身份变成了...

阿里聚安全
2016/12/14
86
0

没有更多内容

加载失败,请刷新页面

加载更多

64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
昨天
64
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
昨天
26
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
昨天
43
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
昨天
27
0
实验分析性专业硕士提纲撰写要点

为什么您需要研究论文的提纲? 首先当您进行研究时,您需要聚集许多信息和想法,研究论文提纲可以较好地组织你的想法, 了解您研究资料的流畅度和程度。确保你写作时不会错过任何重要资料以此...

论文辅导员
昨天
44
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部