基于声音信号的特征提取方法的研究

2006年第1期信息技术　Information T echnology 　

　　中图分类号:TN912. 3　　文献标识码:A　　文章编号:1009-2552(2006) 01-0091-04

基于声音信号的特征提取方法的研究

李宏松, 苏健民, 黄英来, 于慧伶

(东北林业大学, 哈尔滨150040)

摘　要:主要介绍了利用MAT LAB 语言对声音文件的采集、调入和一些基本处理方法, 对预处

理过程及特征参数的选取做了详细的说明, 并着重介绍了线性预测系数(LPC ) 及其倒谱系数(LPCC ) 和梅尔频率倒谱系数(MFCC ) , 且对它们进行了比较关键词:语音识别; 特征提取; 信号采集; LPCC ; The research on signal

LI s , 2, Y U Hui 2ling

(U niversity , H arbin 150040, China )

Abstract :introduces s ome basic processing methods of collecting and loading v oice mes 2sages using LAB language , als o explains the choice of operation processes and characteristic parameter in detail. And this paper als o mainly gives a clear explanation of LPC , LPCC and MFCC and makes a contrast between them.

K ey w ords :v oice recognition ; characteristics extraction

; signal collection ; LPCC ; MFCC

0　引言

语音识别是以声音为研究对象, 它是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到生理学、心理学、语言学、计算机科学以及信号处

理等诸多领域, 甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信。

语音识别的一个根本问题是合理的选用特征。选择的标准应体现对于异字音, 相应特征间的距离应大, 而对于同字音, 彼此间距离应小。若以前者距离与后者距离之比作为优化准则用的“目标量”, 则应使此量最大。

语音信号的特征向量一般分为两类:第一类为时域特征向量, 通常将帧语音信号的各个时域采样值直接构成一个向量。第二类为变换域特征向量, 即对一帧语音信号进行某种变换后产生的特征向量。前者的优点在于计算简单, 缺点是不能压缩维数且不适于表征幅度谱特性。与此对应, 各种变换域特征向量的计算比较复杂, 但能从不同的角度反映幅度谱的特征。

[2]

[1]

1　语音识别原理

图1　语音识别的原理框图

语音识别本质上是一种模式识别的过程, 其基本结构原理框图如图1所示, 主要包括语音信号预

处理、特征提取、特征建模(建立参考模式库) 、模式匹配等几个功能模块。

一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别, 都需要首先对输入的原始语音进行预处理, 并进行特征提取。

收稿日期:2005-09-06

作者简介:李宏松, 男, 东北林业大学信息与计算机工程学院本

科生。

—91—

2　声音采集方法

[采样定理]被分析的信号必须有一个截止频

分进行加重, 以增强声音的高频分辨率, 可由软件来实现, 表示为:

数字信号S ^(n ) 通过一个高通滤波器,

-1

H (z ) =1-αZ 　(0. 9

后得到经过预加重的信号为:

S ^(n ) =S (n ) -aS (n -1) 　(0. 9

率, 采样频率必须大于信号截频的2倍。

声音的获取, 硬件设备可以利用PC 机和声卡来采集, 并可以由声卡实现滤波和A ΠD 转换过程。录制方法可以由Windows 自带的录音机录制或其它录音工具来录制后储存到硬盘, 也可以由软件编写录音程序来实现。介绍两种基于MAT LAB 实现语音采集的方法:

(1) 由Windows 录音机预先录制的声音文件(3. wav ) , 再由MAT LAB 语言调入, 其调入语句为:

(d :\你好. wav ’) ; wavread ‘

虽然声音信号是非线性时变信号, 但它同时具有短时平稳的特点, 所以对其进行分帧可以提取其短时特性。在处理语音信号时一般取帧长为10～30ms , , 所以帧

此语句的功能是调入保存在d 盘根目录下的“你好”语音文件, 并将其转换为MAT LAB 数据类型, 然后对其进行分析。

(2) 由MAT LAB

数据类型, :

Fs =11025

) ; x =wavrecord (53Fs ,Fs ‘, double ’

11, 这在理论上应使用两端具有平滑过渡特性的窗口。即其目的就是为了减少帧起始和结束处的信号不连续性。常用的窗函数有:

(1) 方窗(Rectangular Window ) :

1　　(0≤n ≤N -1)

w (n ) =

0　　(n

(2) 哈明窗(Hamming Window ) :

0. 54-0. 46cos (

w (n ) =

此代码是通过Windows 的录音设备用单通道, 11025H z 的采样频率录制5秒的数据, 采样精度为16位, 存储格式为双精度型。通过以上语句调入或

录制后, 就可以在MAT LAB 语言中进行下一步的数据处理工作。

) N -1

3　预处理分析

语音信号特征的提取如图2所示, 在特征提取部分以前为声音信号预处理过程, 主要包括A ΠD 转换、去噪、端点检测、预加重、分帧和加窗等计算。

　　(0≤n ≤N -1)

0　　(n

)

(3) 哈宁窗(Hann Window ) :

0. 5(1-cos (

w (n ) =

) ) N -1

　　(0≤n ≤N -1) 0　　(n

其中最常用的窗函数是汉明窗。3. 5　端点检测

所谓端点检测, 就是在实时输入的声音信号中,

图2　声音特征提取过程框图

区分背景噪声和环境噪声, 准确地判断出声音信号的开始点和结束点。这一过程应由特定地算法自动完成, 通常利用短时能量来检测浊音, 用过零率来检测清音, 两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的有双门限法, 以及由短时能量和过零率的乘积构成的能频值法。

3. 1　放大、滤波、A ΠD 转换

这部分采用Windows 自带的音频设备及MAT 2LAB 语言即可实现, 其采样频率可以自由设定; 如11025H z 或22050H z 等, 精度为16bit 。

PC 机的声卡可以完成放大和滤波的反混叠过

程, 并可以完成A ΠD 转换过程。3. 2　预加重

4　特征提取方法

特征的选取取决于具体的系统, 下面的特征是有代表性的:

预加重是一阶网络, 用来对声音信号的高频部—92

—

①幅度(或功率) ②过零率

③邻界带特征矢量

④线性预测系数特征矢量(LPC ) ⑤LPC 倒谱特征矢量(LPCC ) ⑥Mel 倒谱参数(MFCC ) ⑦前三个共振峰F1,F2

,F3

特征提取完成从语音信号提取出对语音识别有用的信息, 它对语音信号进行分析处理, 去掉与语音识别无关的冗余信息, 获得影响语音识别的重要信息。一般而言, 由于倒频谱(cepstrum ) 有着能将频谱上的高低频分开的优点, 因此被广泛地应用在语音识别的研究上, 例如过去常用的线性预测编码导出

[3～4]

的倒频谱参数(LPCC ) 和梅尔频率倒谱参数

音识别已经足够了。但要采用迭代算法计算LPC 倒谱参数则需要自己再另行编写一段复倒谱递推程序, 其推导公式为:

^h (0) =0　　(n Φ0) ^h (1) =a 1

n -1

^h (n ) =a n +

k =1

∑(1-

k Πn ) a k ^h (n -k )

　　　　(1Φn Φp )

^h (n ) =

k =1

∑(1-

k Πn ) a k ^h (n -k )

　　　　(n >p )

其中a k 为LPC 系数, 而p 一般LPC 倒谱2MFCC )

(MFCC ) 等都是常用的语音特征。4. 1　线性预测(LPC ) 3所示, 由于语音信号在时域上的变化快速而不稳定,

所以通常都将它转换到频域上来观察, 此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过快速傅立叶变换(FFT ) , 求出每帧的频谱参数。再将每帧的频谱参数通过一组N 个(N 一般为20～30个) 三角形带通滤波器所组成的梅尔频率滤波器, 将每个频带的输出取对数, 求出每一个输出的对数能量(log energy ) Ek , k =1,2,. . .

N 。再将此N 个参数进行余弦变换(cosine trans form )

数提取技术, 线性预测技术提取的LPC 倒谱系数作为系统的特征矢量。这里讲的LPC 倒谱其实是复倒谱, 所谓复倒谱就是信号通过Z 变换以后取对数, 再求反Z 变换而得到的。线性预测分析方法是一种谱估计的方法, 而且其声道模型系统函数H (z ) 反映了声道的频率响应和原始信号的谱包络, 因此用lgH (z ) 做反Z 变换即可求出其复倒谱系数。该复倒谱系数根据线性预测模型直接得到, 因此又称之为LPC 倒谱系数(LPCC ) 。之所以线性预测分析(LPC ) 法是目前进行语音特征分析的最有效、最重要的方法之一, 这是由于:

(1) 它有效地解决了短时平稳信号的模型化问

求出L 阶的Mel -scale cepstrum 参数。

题, 可把语音信号看成是由全极点模型产生的。

(2) 能很好地逼近共振峰, 提供谱估计。(3) 提供的语音信号模型参数(如基音、共振峰、

图3　M el 倒频谱特征参数提取流程图

谱、声道面积函数等) 简洁而准确, 计算量较小, 便于实时处理。

(4) 可用于低数率传输的环境。

(5) 将LPC 参数形成的模型参数储存起来, 在

余弦转换公式如下:

C m =

k =1

∑

E k cos m k -

, m =1,2, …L

上面用MFCC 进行特征提取方法, 用MAT LAB 语言书写程序如下, 图4为Mel 刻度滤波器组。

=fft (s ) ;

x =melbankm (24,256,8000) ; n2=1+floor (n Π2) ;

z =lof (x 3abs (f (1:n2) ) .^2) ; c =dct (z ) ; c (1) =[];

语音识别中提高识别率和减少识别时间。

在M A T LA B 语言处理工具箱中已经提供了LPC 系数的函数。这个函数的名字就是lpc , 它的语法为:

a =lpc (x ,p )

[5]

这里x 为一帧语音信号, p 为计算LPC 参数的阶数。通常x 为240点或256点的数据, p 取10～12, 对语

—93—

量和存储量, 使之成为语音识别和语音压缩的基础。

(3) 倒谱也是语音的特征参数, 是研究系统特性的有效数据, 在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。LPC 倒谱系数是描述说话人声道特性的

[6]

, 广泛应用于声纹

识别。

(4) 从目前使用的情况来看,Mel 刻度式倒频谱参数是描述人耳听觉特性的

图4　M el 刻度滤波器组

[6]

, 在大词汇量语音识

别应用中已逐渐取代原本常用的线性预测编码导出

5　结论分析

根据以上提取和分析的过程, 可以得出结论:(1) 在语音特征的提取中, 预加重和汉明窗两部

的倒频谱参数, 原因是它考虑了人类发声与接收声音的特性, 具有更好的鲁棒性。参考文献:

[1]　陈方, ,1996,12(10) :

57.

, . ,2000. ], [M].电子工业出版社,1995. ]. 语音处理与识别[M].上海科技文献出版社,1994. [5]　何强, 何英. M AT LAB 扩展编程[M].清华大学出版社,2002. [6]　梁维谦, 等. 应用于语音识别片上系统的语音检测算法[J].电

分是必不可少的, 其参数的选取关系决定了提取语音特征的正确与否。

(2) LPC 行谱估计, 个LPC , 路与系统学报,2003,8(2) :66-79.

责任编辑:李光辉

信息天地

2006:调整是IT 产业发展主旋律

2006年, 传统电子企业进入转型热潮期, 在调整中继续前进将是全球IT 产业发展的主旋律。

2005年, 以日韩及中国企业为代表的消费类电子企业利润纷纷下滑, 将迫使传统电子企业进行经营战

略的转型、组织结构的变革和生产流程的重组等, 转型最为明显的举措就是对传统电子业务的抛弃。三洋

计划出售其金融业务和O LE D 业务, 并将停止在日本销售电视机。同样, 索尼也将缩减传统业务———家电、电脑等亏损部门的规模, 并全力往游戏、娱乐、高画质三个方向发展。同时, 苹果将进入手机领域, 摩托罗拉进入数字电视领域。产业有退有进, 优化资源, 有助于企业在2006年陆续恢复隐定。历经修整阶段后, 追寻高附加值产品研发制造的消费类电子企业预计在2006年至2008年将回归快速增长。

消费电子市场用户推崇多功能产品, 用户将更顷向于多功能的集成产品, 如具备拍照及日程安排功能的手机等。预计2006年美国消费类电子市场将突破1400亿美元, 欧洲将达到1000亿美元, 中国将突破600亿美元, 由此将带动相关上下游行业快速发展, 未来3年全球半导体产业将一路走高。美国半导体产业协会(SI A ) 预测,2006年全球半导体市场将增长719%%, 达2455亿美元;2007年将增长1015%, 预计达2713亿美元;2008年将增长1319%。

伴随消费类电子产品需求的上升以及PC 与移动电话的换机潮,2006年世界IT 产业仍然是局部调整与总体增长并存, 许多跨国公司将进行自身业务的重组和调整, 同时IT 技术将不断创新, 技术应用广泛深入推进,3C 融合加快、多功能新产品不断进入市场, 如英特尔将推出移动版双内核处理器, 微软将推出新版本的O ffice 软件。平板电视将继续蚕食CRT 市场, 手机电视和移动电视市场将呈爆炸性增长。2006年, 全球手机用户将达到20亿部, 手机销售量将突破8亿部, 其中可拍照手机将达到3亿部,3G 手机将突破1亿部大关。全球PC 销售量将达到212亿台, 其中笔记本电脑将突破7500万台。互联网将依旧繁荣, G oogle 等继续引领互联网全球化潮流, 触角将伸向更多领域。—94

—

2006年第1期信息技术　Information T echnology 　

　　中图分类号:TN912. 3　　文献标识码:A　　文章编号:1009-2552(2006) 01-0091-04

基于声音信号的特征提取方法的研究

李宏松, 苏健民, 黄英来, 于慧伶

(东北林业大学, 哈尔滨150040)

摘　要:主要介绍了利用MAT LAB 语言对声音文件的采集、调入和一些基本处理方法, 对预处

LI s , 2, Y U Hui 2ling

(U niversity , H arbin 150040, China )

K ey w ords :v oice recognition ; characteristics extraction

; signal collection ; LPCC ; MFCC

0　引言

理等诸多领域, 甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信。

[2]

[1]

1　语音识别原理

图1　语音识别的原理框图

语音识别本质上是一种模式识别的过程, 其基本结构原理框图如图1所示, 主要包括语音信号预

处理、特征提取、特征建模(建立参考模式库) 、模式匹配等几个功能模块。

一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别, 都需要首先对输入的原始语音进行预处理, 并进行特征提取。

收稿日期:2005-09-06

作者简介:李宏松, 男, 东北林业大学信息与计算机工程学院本

科生。

—91—

2　声音采集方法

[采样定理]被分析的信号必须有一个截止频

分进行加重, 以增强声音的高频分辨率, 可由软件来实现, 表示为:

数字信号S ^(n ) 通过一个高通滤波器,

-1

H (z ) =1-αZ 　(0. 9

后得到经过预加重的信号为:

S ^(n ) =S (n ) -aS (n -1) 　(0. 9

率, 采样频率必须大于信号截频的2倍。

(1) 由Windows 录音机预先录制的声音文件(3. wav ) , 再由MAT LAB 语言调入, 其调入语句为:

(d :\你好. wav ’) ; wavread ‘

此语句的功能是调入保存在d 盘根目录下的“你好”语音文件, 并将其转换为MAT LAB 数据类型, 然后对其进行分析。

(2) 由MAT LAB

数据类型, :

Fs =11025

) ; x =wavrecord (53Fs ,Fs ‘, double ’

11, 这在理论上应使用两端具有平滑过渡特性的窗口。即其目的就是为了减少帧起始和结束处的信号不连续性。常用的窗函数有:

(1) 方窗(Rectangular Window ) :

1　　(0≤n ≤N -1)

w (n ) =

0　　(n

(2) 哈明窗(Hamming Window ) :

0. 54-0. 46cos (

w (n ) =

此代码是通过Windows 的录音设备用单通道, 11025H z 的采样频率录制5秒的数据, 采样精度为16位, 存储格式为双精度型。通过以上语句调入或

录制后, 就可以在MAT LAB 语言中进行下一步的数据处理工作。

) N -1

3　预处理分析

语音信号特征的提取如图2所示, 在特征提取部分以前为声音信号预处理过程, 主要包括A ΠD 转换、去噪、端点检测、预加重、分帧和加窗等计算。

　　(0≤n ≤N -1)

0　　(n

)

(3) 哈宁窗(Hann Window ) :

0. 5(1-cos (

w (n ) =

) ) N -1

　　(0≤n ≤N -1) 0　　(n

其中最常用的窗函数是汉明窗。3. 5　端点检测

所谓端点检测, 就是在实时输入的声音信号中,

图2　声音特征提取过程框图

3. 1　放大、滤波、A ΠD 转换

这部分采用Windows 自带的音频设备及MAT 2LAB 语言即可实现, 其采样频率可以自由设定; 如11025H z 或22050H z 等, 精度为16bit 。

PC 机的声卡可以完成放大和滤波的反混叠过

程, 并可以完成A ΠD 转换过程。3. 2　预加重

4　特征提取方法

特征的选取取决于具体的系统, 下面的特征是有代表性的:

预加重是一阶网络, 用来对声音信号的高频部—92

—

①幅度(或功率) ②过零率

③邻界带特征矢量

④线性预测系数特征矢量(LPC ) ⑤LPC 倒谱特征矢量(LPCC ) ⑥Mel 倒谱参数(MFCC ) ⑦前三个共振峰F1,F2

,F3

[3～4]

的倒频谱参数(LPCC ) 和梅尔频率倒谱参数

音识别已经足够了。但要采用迭代算法计算LPC 倒谱参数则需要自己再另行编写一段复倒谱递推程序, 其推导公式为:

^h (0) =0　　(n Φ0) ^h (1) =a 1

n -1

^h (n ) =a n +

k =1

∑(1-

k Πn ) a k ^h (n -k )

　　　　(1Φn Φp )

^h (n ) =

k =1

∑(1-

k Πn ) a k ^h (n -k )

　　　　(n >p )

其中a k 为LPC 系数, 而p 一般LPC 倒谱2MFCC )

(MFCC ) 等都是常用的语音特征。4. 1　线性预测(LPC ) 3所示, 由于语音信号在时域上的变化快速而不稳定,

N 。再将此N 个参数进行余弦变换(cosine trans form )

(1) 它有效地解决了短时平稳信号的模型化问

求出L 阶的Mel -scale cepstrum 参数。

题, 可把语音信号看成是由全极点模型产生的。

(2) 能很好地逼近共振峰, 提供谱估计。(3) 提供的语音信号模型参数(如基音、共振峰、

图3　M el 倒频谱特征参数提取流程图

谱、声道面积函数等) 简洁而准确, 计算量较小, 便于实时处理。

(4) 可用于低数率传输的环境。

(5) 将LPC 参数形成的模型参数储存起来, 在

余弦转换公式如下:

C m =

k =1

∑

E k cos m k -

, m =1,2, …L

上面用MFCC 进行特征提取方法, 用MAT LAB 语言书写程序如下, 图4为Mel 刻度滤波器组。

=fft (s ) ;

x =melbankm (24,256,8000) ; n2=1+floor (n Π2) ;

z =lof (x 3abs (f (1:n2) ) .^2) ; c =dct (z ) ; c (1) =[];

语音识别中提高识别率和减少识别时间。

在M A T LA B 语言处理工具箱中已经提供了LPC 系数的函数。这个函数的名字就是lpc , 它的语法为:

a =lpc (x ,p )

[5]

这里x 为一帧语音信号, p 为计算LPC 参数的阶数。通常x 为240点或256点的数据, p 取10～12, 对语

—93—

量和存储量, 使之成为语音识别和语音压缩的基础。

[6]

, 广泛应用于声纹

识别。

(4) 从目前使用的情况来看,Mel 刻度式倒频谱参数是描述人耳听觉特性的

图4　M el 刻度滤波器组

[6]

, 在大词汇量语音识

别应用中已逐渐取代原本常用的线性预测编码导出

5　结论分析

根据以上提取和分析的过程, 可以得出结论:(1) 在语音特征的提取中, 预加重和汉明窗两部

的倒频谱参数, 原因是它考虑了人类发声与接收声音的特性, 具有更好的鲁棒性。参考文献:

[1]　陈方, ,1996,12(10) :

57.

分是必不可少的, 其参数的选取关系决定了提取语音特征的正确与否。

(2) LPC 行谱估计, 个LPC , 路与系统学报,2003,8(2) :66-79.

责任编辑:李光辉

信息天地

2006:调整是IT 产业发展主旋律

2006年, 传统电子企业进入转型热潮期, 在调整中继续前进将是全球IT 产业发展的主旋律。

2005年, 以日韩及中国企业为代表的消费类电子企业利润纷纷下滑, 将迫使传统电子企业进行经营战

略的转型、组织结构的变革和生产流程的重组等, 转型最为明显的举措就是对传统电子业务的抛弃。三洋

—

基于声音信号的特征提取方法的研究

相关内容

热门内容

标签