基于声音信号的特征提取方法的研究

2006年第1期信息技术 Information T echnology  

  中图分类号:TN912. 3  文献标识码:A  文章编号:1009-2552(2006) 01-0091-04

基于声音信号的特征提取方法的研究

李宏松, 苏健民, 黄英来, 于慧伶

(东北林业大学, 哈尔滨150040)

摘 要:主要介绍了利用MAT LAB 语言对声音文件的采集、调入和一些基本处理方法, 对预处

理过程及特征参数的选取做了详细的说明, 并着重介绍了线性预测系数(LPC ) 及其倒谱系数(LPCC ) 和梅尔频率倒谱系数(MFCC ) , 且对它们进行了比较关键词:语音识别; 特征提取; 信号采集; LPCC ; The research on signal

LI s , 2, Y U Hui 2ling

(U niversity , H arbin 150040, China )

Abstract :introduces s ome basic processing methods of collecting and loading v oice mes 2sages using LAB language , als o explains the choice of operation processes and characteristic parameter in detail. And this paper als o mainly gives a clear explanation of LPC , LPCC and MFCC and makes a contrast between them.

K ey w ords :v oice recognition ; characteristics extraction

; signal collection ; LPCC ; MFCC

0 引言

语音识别是以声音为研究对象, 它是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到生理学、心理学、语言学、计算机科学以及信号处

理等诸多领域, 甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信。

语音识别的一个根本问题是合理的选用特征。选择的标准应体现对于异字音, 相应特征间的距离应大, 而对于同字音, 彼此间距离应小。若以前者距离与后者距离之比作为优化准则用的“目标量”, 则应使此量最大。

语音信号的特征向量一般分为两类:第一类为时域特征向量, 通常将帧语音信号的各个时域采样值直接构成一个向量。第二类为变换域特征向量, 即对一帧语音信号进行某种变换后产生的特征向量。前者的优点在于计算简单, 缺点是不能压缩维数且不适于表征幅度谱特性。与此对应, 各种变换域特征向量的计算比较复杂, 但能从不同的角度反映幅度谱的特征。

[2]

[1]

1 语音识别原理

图1 语音识别的原理框图

语音识别本质上是一种模式识别的过程, 其基本结构原理框图如图1所示, 主要包括语音信号预

处理、特征提取、特征建模(建立参考模式库) 、模式匹配等几个功能模块。

一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别, 都需要首先对输入的原始语音进行预处理, 并进行特征提取。

收稿日期:2005-09-06

作者简介:李宏松, 男, 东北林业大学信息与计算机工程学院本

科生。

—91—

2 声音采集方法

[采样定理]被分析的信号必须有一个截止频

分进行加重, 以增强声音的高频分辨率, 可由软件来实现, 表示为:

数字信号S ^(n ) 通过一个高通滤波器,

-1

H (z ) =1-αZ  (0. 9

后得到经过预加重的信号为:

S ^(n ) =S (n ) -aS (n -1)  (0. 9

率, 采样频率必须大于信号截频的2倍。

声音的获取, 硬件设备可以利用PC 机和声卡来采集, 并可以由声卡实现滤波和A ΠD 转换过程。录制方法可以由Windows 自带的录音机录制或其它录音工具来录制后储存到硬盘, 也可以由软件编写录音程序来实现。介绍两种基于MAT LAB 实现语音采集的方法:

(1) 由Windows 录音机预先录制的声音文件(3. wav ) , 再由MAT LAB 语言调入, 其调入语句为:

(d :\你好. wav ’) ; wavread ‘

虽然声音信号是非线性时变信号, 但它同时具有短时平稳的特点, 所以对其进行分帧可以提取其短时特性。在处理语音信号时一般取帧长为10~30ms , , 所以帧

此语句的功能是调入保存在d 盘根目录下的“你好”语音文件, 并将其转换为MAT LAB 数据类型, 然后对其进行分析。

(2) 由MAT LAB

数据类型, :

Fs =11025

) ; x =wavrecord (53Fs ,Fs ‘, double ’

11, 这在理论上应使用两端具有平滑过渡特性的窗口。即其目的就是为了减少帧起始和结束处的信号不连续性。常用的窗函数有:

(1) 方窗(Rectangular Window ) :

1  (0≤n ≤N -1)

w (n ) =

0  (n

(2) 哈明窗(Hamming Window ) :

0. 54-0. 46cos (

w (n ) =

此代码是通过Windows 的录音设备用单通道, 11025H z 的采样频率录制5秒的数据, 采样精度为16位, 存储格式为双精度型。通过以上语句调入或

录制后, 就可以在MAT LAB 语言中进行下一步的数据处理工作。

) N -1

3 预处理分析

语音信号特征的提取如图2所示, 在特征提取部分以前为声音信号预处理过程, 主要包括A ΠD 转换、去噪、端点检测、预加重、分帧和加窗等计算。

  (0≤n ≤N -1)

0  (n

)

(3) 哈宁窗(Hann Window ) :

0. 5(1-cos (

w (n ) =

) ) N -1

  (0≤n ≤N -1) 0  (n

其中最常用的窗函数是汉明窗。3. 5 端点检测

所谓端点检测, 就是在实时输入的声音信号中,

图2 声音特征提取过程框图

区分背景噪声和环境噪声, 准确地判断出声音信号的开始点和结束点。这一过程应由特定地算法自动完成, 通常利用短时能量来检测浊音, 用过零率来检测清音, 两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的有双门限法, 以及由短时能量和过零率的乘积构成的能频值法。

3. 1 放大、滤波、A ΠD 转换

这部分采用Windows 自带的音频设备及MAT 2LAB 语言即可实现, 其采样频率可以自由设定; 如11025H z 或22050H z 等, 精度为16bit 。

PC 机的声卡可以完成放大和滤波的反混叠过

程, 并可以完成A ΠD 转换过程。3. 2 预加重

4 特征提取方法

特征的选取取决于具体的系统, 下面的特征是有代表性的:

预加重是一阶网络, 用来对声音信号的高频部—92

①幅度(或功率) ②过零率

③邻界带特征矢量

④线性预测系数特征矢量(LPC ) ⑤LPC 倒谱特征矢量(LPCC ) ⑥Mel 倒谱参数(MFCC ) ⑦前三个共振峰F1,F2

,F3

特征提取完成从语音信号提取出对语音识别有用的信息, 它对语音信号进行分析处理, 去掉与语音识别无关的冗余信息, 获得影响语音识别的重要信息。一般而言, 由于倒频谱(cepstrum ) 有着能将频谱上的高低频分开的优点, 因此被广泛地应用在语音识别的研究上, 例如过去常用的线性预测编码导出

[3~4]

的倒频谱参数(LPCC ) 和梅尔频率倒谱参数

音识别已经足够了。但要采用迭代算法计算LPC 倒谱参数则需要自己再另行编写一段复倒谱递推程序, 其推导公式为:

^h (0) =0  (n Φ0) ^h (1) =a 1

n -1

^h (n ) =a n +

k =1

∑(1-

k Πn ) a k ^h (n -k )

    (1Φn Φp )

p

^h (n ) =

k =1

∑(1-

k Πn ) a k ^h (n -k )

    (n >p )

其中a k 为LPC 系数, 而p 一般LPC 倒谱2MFCC )

(MFCC ) 等都是常用的语音特征。4. 1 线性预测(LPC ) 3所示, 由于语音信号在时域上的变化快速而不稳定,

所以通常都将它转换到频域上来观察, 此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过快速傅立叶变换(FFT ) , 求出每帧的频谱参数。再将每帧的频谱参数通过一组N 个(N 一般为20~30个) 三角形带通滤波器所组成的梅尔频率滤波器, 将每个频带的输出取对数, 求出每一个输出的对数能量(log energy ) Ek , k =1,2,. . .

N 。再将此N 个参数进行余弦变换(cosine trans form )

数提取技术, 线性预测技术提取的LPC 倒谱系数作为系统的特征矢量。这里讲的LPC 倒谱其实是复倒谱, 所谓复倒谱就是信号通过Z 变换以后取对数, 再求反Z 变换而得到的。线性预测分析方法是一种谱估计的方法, 而且其声道模型系统函数H (z ) 反映了声道的频率响应和原始信号的谱包络, 因此用lgH (z ) 做反Z 变换即可求出其复倒谱系数。该复倒谱系数根据线性预测模型直接得到, 因此又称之为LPC 倒谱系数(LPCC ) 。之所以线性预测分析(LPC ) 法是目前进行语音特征分析的最有效、最重要的方法之一, 这是由于:

(1) 它有效地解决了短时平稳信号的模型化问

求出L 阶的Mel -scale cepstrum 参数。

题, 可把语音信号看成是由全极点模型产生的。

(2) 能很好地逼近共振峰, 提供谱估计。(3) 提供的语音信号模型参数(如基音、共振峰、

图3 M el 倒频谱特征参数提取流程图

谱、声道面积函数等) 简洁而准确, 计算量较小, 便于实时处理。

(4) 可用于低数率传输的环境。

(5) 将LPC 参数形成的模型参数储存起来, 在

余弦转换公式如下:

N

C m =

k =1

E k cos m k -

π

, m =1,2, …L

2N

上面用MFCC 进行特征提取方法, 用MAT LAB 语言书写程序如下, 图4为Mel 刻度滤波器组。

f

=fft (s ) ;

x =melbankm (24,256,8000) ; n2=1+floor (n Π2) ;

z =lof (x 3abs (f (1:n2) ) .^2) ; c =dct (z ) ; c (1) =[];

语音识别中提高识别率和减少识别时间。

在M A T LA B 语言处理工具箱中已经提供了LPC 系数的函数。这个函数的名字就是lpc , 它的语法为:

a =lpc (x ,p )

[5]

这里x 为一帧语音信号, p 为计算LPC 参数的阶数。通常x 为240点或256点的数据, p 取10~12, 对语

—93—

量和存储量, 使之成为语音识别和语音压缩的基础。

(3) 倒谱也是语音的特征参数, 是研究系统特性的有效数据, 在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。LPC 倒谱系数是描述说话人声道特性的

[6]

, 广泛应用于声纹

识别。

(4) 从目前使用的情况来看,Mel 刻度式倒频谱参数是描述人耳听觉特性的

图4 M el 刻度滤波器组

[6]

, 在大词汇量语音识

别应用中已逐渐取代原本常用的线性预测编码导出

5 结论分析

根据以上提取和分析的过程, 可以得出结论:(1) 在语音特征的提取中, 预加重和汉明窗两部

的倒频谱参数, 原因是它考虑了人类发声与接收声音的特性, 具有更好的鲁棒性。参考文献:

[1] 陈方, ,1996,12(10) :

57.

, . ,2000. ], [M].电子工业出版社,1995. ]. 语音处理与识别[M].上海科技文献出版社,1994. [5] 何强, 何英. M AT LAB 扩展编程[M].清华大学出版社,2002. [6] 梁维谦, 等. 应用于语音识别片上系统的语音检测算法[J].电

分是必不可少的, 其参数的选取关系决定了提取语音特征的正确与否。

(2) LPC 行谱估计, 个LPC , 路与系统学报,2003,8(2) :66-79.

责任编辑:李光辉

信息天地

2006:调整是IT 产业发展主旋律

2006年, 传统电子企业进入转型热潮期, 在调整中继续前进将是全球IT 产业发展的主旋律。

2005年, 以日韩及中国企业为代表的消费类电子企业利润纷纷下滑, 将迫使传统电子企业进行经营战

略的转型、组织结构的变革和生产流程的重组等, 转型最为明显的举措就是对传统电子业务的抛弃。三洋

计划出售其金融业务和O LE D 业务, 并将停止在日本销售电视机。同样, 索尼也将缩减传统业务———家电、电脑等亏损部门的规模, 并全力往游戏、娱乐、高画质三个方向发展。同时, 苹果将进入手机领域, 摩托罗拉进入数字电视领域。产业有退有进, 优化资源, 有助于企业在2006年陆续恢复隐定。历经修整阶段后, 追寻高附加值产品研发制造的消费类电子企业预计在2006年至2008年将回归快速增长。

消费电子市场用户推崇多功能产品, 用户将更顷向于多功能的集成产品, 如具备拍照及日程安排功能的手机等。预计2006年美国消费类电子市场将突破1400亿美元, 欧洲将达到1000亿美元, 中国将突破600亿美元, 由此将带动相关上下游行业快速发展, 未来3年全球半导体产业将一路走高。美国半导体产业协会(SI A ) 预测,2006年全球半导体市场将增长719%%, 达2455亿美元;2007年将增长1015%, 预计达2713亿美元;2008年将增长1319%。

伴随消费类电子产品需求的上升以及PC 与移动电话的换机潮,2006年世界IT 产业仍然是局部调整与总体增长并存, 许多跨国公司将进行自身业务的重组和调整, 同时IT 技术将不断创新, 技术应用广泛深入推进,3C 融合加快、多功能新产品不断进入市场, 如英特尔将推出移动版双内核处理器, 微软将推出新版本的O ffice 软件。平板电视将继续蚕食CRT 市场, 手机电视和移动电视市场将呈爆炸性增长。2006年, 全球手机用户将达到20亿部, 手机销售量将突破8亿部, 其中可拍照手机将达到3亿部,3G 手机将突破1亿部大关。全球PC 销售量将达到212亿台, 其中笔记本电脑将突破7500万台。互联网将依旧繁荣, G oogle 等继续引领互联网全球化潮流, 触角将伸向更多领域。—94

2006年第1期信息技术 Information T echnology  

  中图分类号:TN912. 3  文献标识码:A  文章编号:1009-2552(2006) 01-0091-04

基于声音信号的特征提取方法的研究

李宏松, 苏健民, 黄英来, 于慧伶

(东北林业大学, 哈尔滨150040)

摘 要:主要介绍了利用MAT LAB 语言对声音文件的采集、调入和一些基本处理方法, 对预处

理过程及特征参数的选取做了详细的说明, 并着重介绍了线性预测系数(LPC ) 及其倒谱系数(LPCC ) 和梅尔频率倒谱系数(MFCC ) , 且对它们进行了比较关键词:语音识别; 特征提取; 信号采集; LPCC ; The research on signal

LI s , 2, Y U Hui 2ling

(U niversity , H arbin 150040, China )

Abstract :introduces s ome basic processing methods of collecting and loading v oice mes 2sages using LAB language , als o explains the choice of operation processes and characteristic parameter in detail. And this paper als o mainly gives a clear explanation of LPC , LPCC and MFCC and makes a contrast between them.

K ey w ords :v oice recognition ; characteristics extraction

; signal collection ; LPCC ; MFCC

0 引言

语音识别是以声音为研究对象, 它是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到生理学、心理学、语言学、计算机科学以及信号处

理等诸多领域, 甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信。

语音识别的一个根本问题是合理的选用特征。选择的标准应体现对于异字音, 相应特征间的距离应大, 而对于同字音, 彼此间距离应小。若以前者距离与后者距离之比作为优化准则用的“目标量”, 则应使此量最大。

语音信号的特征向量一般分为两类:第一类为时域特征向量, 通常将帧语音信号的各个时域采样值直接构成一个向量。第二类为变换域特征向量, 即对一帧语音信号进行某种变换后产生的特征向量。前者的优点在于计算简单, 缺点是不能压缩维数且不适于表征幅度谱特性。与此对应, 各种变换域特征向量的计算比较复杂, 但能从不同的角度反映幅度谱的特征。

[2]

[1]

1 语音识别原理

图1 语音识别的原理框图

语音识别本质上是一种模式识别的过程, 其基本结构原理框图如图1所示, 主要包括语音信号预

处理、特征提取、特征建模(建立参考模式库) 、模式匹配等几个功能模块。

一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别, 都需要首先对输入的原始语音进行预处理, 并进行特征提取。

收稿日期:2005-09-06

作者简介:李宏松, 男, 东北林业大学信息与计算机工程学院本

科生。

—91—

2 声音采集方法

[采样定理]被分析的信号必须有一个截止频

分进行加重, 以增强声音的高频分辨率, 可由软件来实现, 表示为:

数字信号S ^(n ) 通过一个高通滤波器,

-1

H (z ) =1-αZ  (0. 9

后得到经过预加重的信号为:

S ^(n ) =S (n ) -aS (n -1)  (0. 9

率, 采样频率必须大于信号截频的2倍。

声音的获取, 硬件设备可以利用PC 机和声卡来采集, 并可以由声卡实现滤波和A ΠD 转换过程。录制方法可以由Windows 自带的录音机录制或其它录音工具来录制后储存到硬盘, 也可以由软件编写录音程序来实现。介绍两种基于MAT LAB 实现语音采集的方法:

(1) 由Windows 录音机预先录制的声音文件(3. wav ) , 再由MAT LAB 语言调入, 其调入语句为:

(d :\你好. wav ’) ; wavread ‘

虽然声音信号是非线性时变信号, 但它同时具有短时平稳的特点, 所以对其进行分帧可以提取其短时特性。在处理语音信号时一般取帧长为10~30ms , , 所以帧

此语句的功能是调入保存在d 盘根目录下的“你好”语音文件, 并将其转换为MAT LAB 数据类型, 然后对其进行分析。

(2) 由MAT LAB

数据类型, :

Fs =11025

) ; x =wavrecord (53Fs ,Fs ‘, double ’

11, 这在理论上应使用两端具有平滑过渡特性的窗口。即其目的就是为了减少帧起始和结束处的信号不连续性。常用的窗函数有:

(1) 方窗(Rectangular Window ) :

1  (0≤n ≤N -1)

w (n ) =

0  (n

(2) 哈明窗(Hamming Window ) :

0. 54-0. 46cos (

w (n ) =

此代码是通过Windows 的录音设备用单通道, 11025H z 的采样频率录制5秒的数据, 采样精度为16位, 存储格式为双精度型。通过以上语句调入或

录制后, 就可以在MAT LAB 语言中进行下一步的数据处理工作。

) N -1

3 预处理分析

语音信号特征的提取如图2所示, 在特征提取部分以前为声音信号预处理过程, 主要包括A ΠD 转换、去噪、端点检测、预加重、分帧和加窗等计算。

  (0≤n ≤N -1)

0  (n

)

(3) 哈宁窗(Hann Window ) :

0. 5(1-cos (

w (n ) =

) ) N -1

  (0≤n ≤N -1) 0  (n

其中最常用的窗函数是汉明窗。3. 5 端点检测

所谓端点检测, 就是在实时输入的声音信号中,

图2 声音特征提取过程框图

区分背景噪声和环境噪声, 准确地判断出声音信号的开始点和结束点。这一过程应由特定地算法自动完成, 通常利用短时能量来检测浊音, 用过零率来检测清音, 两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的有双门限法, 以及由短时能量和过零率的乘积构成的能频值法。

3. 1 放大、滤波、A ΠD 转换

这部分采用Windows 自带的音频设备及MAT 2LAB 语言即可实现, 其采样频率可以自由设定; 如11025H z 或22050H z 等, 精度为16bit 。

PC 机的声卡可以完成放大和滤波的反混叠过

程, 并可以完成A ΠD 转换过程。3. 2 预加重

4 特征提取方法

特征的选取取决于具体的系统, 下面的特征是有代表性的:

预加重是一阶网络, 用来对声音信号的高频部—92

①幅度(或功率) ②过零率

③邻界带特征矢量

④线性预测系数特征矢量(LPC ) ⑤LPC 倒谱特征矢量(LPCC ) ⑥Mel 倒谱参数(MFCC ) ⑦前三个共振峰F1,F2

,F3

特征提取完成从语音信号提取出对语音识别有用的信息, 它对语音信号进行分析处理, 去掉与语音识别无关的冗余信息, 获得影响语音识别的重要信息。一般而言, 由于倒频谱(cepstrum ) 有着能将频谱上的高低频分开的优点, 因此被广泛地应用在语音识别的研究上, 例如过去常用的线性预测编码导出

[3~4]

的倒频谱参数(LPCC ) 和梅尔频率倒谱参数

音识别已经足够了。但要采用迭代算法计算LPC 倒谱参数则需要自己再另行编写一段复倒谱递推程序, 其推导公式为:

^h (0) =0  (n Φ0) ^h (1) =a 1

n -1

^h (n ) =a n +

k =1

∑(1-

k Πn ) a k ^h (n -k )

    (1Φn Φp )

p

^h (n ) =

k =1

∑(1-

k Πn ) a k ^h (n -k )

    (n >p )

其中a k 为LPC 系数, 而p 一般LPC 倒谱2MFCC )

(MFCC ) 等都是常用的语音特征。4. 1 线性预测(LPC ) 3所示, 由于语音信号在时域上的变化快速而不稳定,

所以通常都将它转换到频域上来观察, 此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过快速傅立叶变换(FFT ) , 求出每帧的频谱参数。再将每帧的频谱参数通过一组N 个(N 一般为20~30个) 三角形带通滤波器所组成的梅尔频率滤波器, 将每个频带的输出取对数, 求出每一个输出的对数能量(log energy ) Ek , k =1,2,. . .

N 。再将此N 个参数进行余弦变换(cosine trans form )

数提取技术, 线性预测技术提取的LPC 倒谱系数作为系统的特征矢量。这里讲的LPC 倒谱其实是复倒谱, 所谓复倒谱就是信号通过Z 变换以后取对数, 再求反Z 变换而得到的。线性预测分析方法是一种谱估计的方法, 而且其声道模型系统函数H (z ) 反映了声道的频率响应和原始信号的谱包络, 因此用lgH (z ) 做反Z 变换即可求出其复倒谱系数。该复倒谱系数根据线性预测模型直接得到, 因此又称之为LPC 倒谱系数(LPCC ) 。之所以线性预测分析(LPC ) 法是目前进行语音特征分析的最有效、最重要的方法之一, 这是由于:

(1) 它有效地解决了短时平稳信号的模型化问

求出L 阶的Mel -scale cepstrum 参数。

题, 可把语音信号看成是由全极点模型产生的。

(2) 能很好地逼近共振峰, 提供谱估计。(3) 提供的语音信号模型参数(如基音、共振峰、

图3 M el 倒频谱特征参数提取流程图

谱、声道面积函数等) 简洁而准确, 计算量较小, 便于实时处理。

(4) 可用于低数率传输的环境。

(5) 将LPC 参数形成的模型参数储存起来, 在

余弦转换公式如下:

N

C m =

k =1

E k cos m k -

π

, m =1,2, …L

2N

上面用MFCC 进行特征提取方法, 用MAT LAB 语言书写程序如下, 图4为Mel 刻度滤波器组。

f

=fft (s ) ;

x =melbankm (24,256,8000) ; n2=1+floor (n Π2) ;

z =lof (x 3abs (f (1:n2) ) .^2) ; c =dct (z ) ; c (1) =[];

语音识别中提高识别率和减少识别时间。

在M A T LA B 语言处理工具箱中已经提供了LPC 系数的函数。这个函数的名字就是lpc , 它的语法为:

a =lpc (x ,p )

[5]

这里x 为一帧语音信号, p 为计算LPC 参数的阶数。通常x 为240点或256点的数据, p 取10~12, 对语

—93—

量和存储量, 使之成为语音识别和语音压缩的基础。

(3) 倒谱也是语音的特征参数, 是研究系统特性的有效数据, 在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。LPC 倒谱系数是描述说话人声道特性的

[6]

, 广泛应用于声纹

识别。

(4) 从目前使用的情况来看,Mel 刻度式倒频谱参数是描述人耳听觉特性的

图4 M el 刻度滤波器组

[6]

, 在大词汇量语音识

别应用中已逐渐取代原本常用的线性预测编码导出

5 结论分析

根据以上提取和分析的过程, 可以得出结论:(1) 在语音特征的提取中, 预加重和汉明窗两部

的倒频谱参数, 原因是它考虑了人类发声与接收声音的特性, 具有更好的鲁棒性。参考文献:

[1] 陈方, ,1996,12(10) :

57.

, . ,2000. ], [M].电子工业出版社,1995. ]. 语音处理与识别[M].上海科技文献出版社,1994. [5] 何强, 何英. M AT LAB 扩展编程[M].清华大学出版社,2002. [6] 梁维谦, 等. 应用于语音识别片上系统的语音检测算法[J].电

分是必不可少的, 其参数的选取关系决定了提取语音特征的正确与否。

(2) LPC 行谱估计, 个LPC , 路与系统学报,2003,8(2) :66-79.

责任编辑:李光辉

信息天地

2006:调整是IT 产业发展主旋律

2006年, 传统电子企业进入转型热潮期, 在调整中继续前进将是全球IT 产业发展的主旋律。

2005年, 以日韩及中国企业为代表的消费类电子企业利润纷纷下滑, 将迫使传统电子企业进行经营战

略的转型、组织结构的变革和生产流程的重组等, 转型最为明显的举措就是对传统电子业务的抛弃。三洋

计划出售其金融业务和O LE D 业务, 并将停止在日本销售电视机。同样, 索尼也将缩减传统业务———家电、电脑等亏损部门的规模, 并全力往游戏、娱乐、高画质三个方向发展。同时, 苹果将进入手机领域, 摩托罗拉进入数字电视领域。产业有退有进, 优化资源, 有助于企业在2006年陆续恢复隐定。历经修整阶段后, 追寻高附加值产品研发制造的消费类电子企业预计在2006年至2008年将回归快速增长。

消费电子市场用户推崇多功能产品, 用户将更顷向于多功能的集成产品, 如具备拍照及日程安排功能的手机等。预计2006年美国消费类电子市场将突破1400亿美元, 欧洲将达到1000亿美元, 中国将突破600亿美元, 由此将带动相关上下游行业快速发展, 未来3年全球半导体产业将一路走高。美国半导体产业协会(SI A ) 预测,2006年全球半导体市场将增长719%%, 达2455亿美元;2007年将增长1015%, 预计达2713亿美元;2008年将增长1319%。

伴随消费类电子产品需求的上升以及PC 与移动电话的换机潮,2006年世界IT 产业仍然是局部调整与总体增长并存, 许多跨国公司将进行自身业务的重组和调整, 同时IT 技术将不断创新, 技术应用广泛深入推进,3C 融合加快、多功能新产品不断进入市场, 如英特尔将推出移动版双内核处理器, 微软将推出新版本的O ffice 软件。平板电视将继续蚕食CRT 市场, 手机电视和移动电视市场将呈爆炸性增长。2006年, 全球手机用户将达到20亿部, 手机销售量将突破8亿部, 其中可拍照手机将达到3亿部,3G 手机将突破1亿部大关。全球PC 销售量将达到212亿台, 其中笔记本电脑将突破7500万台。互联网将依旧繁荣, G oogle 等继续引领互联网全球化潮流, 触角将伸向更多领域。—94


相关内容

  • 储粮害虫检测和分类识别技术的研究
  • 檱檱殗 檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱殗 檱檱殗 储粮有害生物及防治技术 1 内部粮虫检测新技术 软X射线检测法根据谷粒受到害虫侵染后, 檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱殗识别方法具有重要的实际应用价值.发展趋势. 储粮害虫检测和分类识别技术的研究 2 路 静1 傅洪亮1, * )(500011 ...

  • 识别系统中的特征参数提取过程研究[1]
  • 第5卷第4期2009年10月 沈阳工程学院学报(自然科学版) JournalofShenyangInstituteofEngineering(NaturalScience) VOI.5No.4 Oct.2009 语音识别系统中的特征参数提取过程研究 孟祥斌,尹常永,包妍 (沈阳工程学院自动控制工程系 ...

  • 机器人听觉定位跟踪声源的研究与进展
  • 第33卷第3期2009年5月 文章编号:1007-791X(2009)03-0199-07 燕山大学学报 JournalofYanshanUniversity Vol.33No.3May 2009 机器人听觉定位跟踪声源的研究与进展 李从清1,2,*,孙立新1,戴士杰1,3,李洙梁1 (1.河北工业 ...

  • 基于说话人声音识别的技术研究
  • 基于声音的说话人身份信息识别技术研究 通信1203班 成员:艾洲.刘安邦.汪中日 余文正.王玉贵.宁文静 2014-12-28 项目背景 伴随着全球化.网络化.信息化.数字化时代的到来,我们对高可靠性的身份验证技术与身份识别技术的需求也日益增长. 在生物学和信息科学高度发展的今天,根据人体自身的生 ...

  • 语音基频的提取算法
  • 第39卷 增刊 电 子 科 技 大 学 学 报 V ol.39 Suppl. 2010年4月 Journal of University of Electronic Science and Technology of China Apr. 2010 语音信号处理中基频提取算法综述 张 杰,龙子夜,张 ...

  • 说话人识别技术的方法与展望
  • 说话人识别 技术的方法与展望 申朝文1 何家峰2 蔡继祖3 广东工业大学信息工程学院 510006 取能够区分不同说话人个体特征的参数序列.而模式分类的任务则包含了两个方面,一是在训练时用反映说话人身份特征的参数序列,为每个说话人建立相应的说话人模型:二是在测试或识别时根据所得到的待识别语音信号的特 ...

  • 试论小波分析法在土木工程中的应用
  • 摘要:本文简要介绍了一维小波分析的基本原理和分类,及其在土木工程领域的主要应用.重点论述了小波变换在结构损伤检测方面的应用.由小波分析的数据中提取人工神经网络的训练样本能够更好的反应结构缺损特征,故小波分析或以小波分析为基础的人工神经网络方法是结构损伤识别的一种很有前途的方法. 关键词:小波变换,小 ...

  • 基于小波包分析的特征参数提取
  • 第20卷 第1期 2007年3月 宁波大学学报(理工版) JOURNAL OF NINGBO UNIVERSITY ( NSEE ) V ol.20 No.1 Mar. 2007 文章编号:1001-5132(2007)01-0051-04 基于小波包分析的特征参数提取 胡文吉,王让定 (宁波大学 ...

  • 静态图像数字水印的鲁棒性研究
  • JIU JIANG UNIVERSITY 毕业技能综合测试 题 目 静态图像数字水印的鲁棒性研究 英文题目 院 系 信息科学与技术学院 专 业 计算机应用技术 姓 名 班级学号 二O一四年十二月 摘 要 随着计算机技术和网络应用的迅速发展,数字媒体的复制.加工及传播变得非常方便.这些信息交流带给人们 ...