识别系统中的特征参数提取过程研究[1]

第５卷第４期２００９年１０月

沈阳工程学院学报（自然科学版）

ＪｏｕｒｎａｌｏｆＳｈｅｎｙａｎｇＩｎｓｔｉｔｕｔｅｏｆＥｎｇｉｎｅｅｒｉｎｇ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ）

ＶＯＩ．５Ｎｏ．４

Ｏｃｔ．２００９

语音识别系统中的特征参数提取过程研究

孟祥斌，尹常永，包妍

（沈阳工程学院自动控制工程系，沈阳１１０１３６）

摘要：关尔倒谱系数（ＭＦＣＣ）基于人耳的听觉特性，在语音识剐实际应用中可取得较高的识别率．介绍了ＭＦＣＣ的基本原理以及提取ＭＦＣＣ的过程和方法，给出了一种硬件实现模型，并详细描述了各个子模块的设计方法．以Ｖｅｒｉｉｏｇ作为设计语言，在ＩＳＥ、Ｍｏｄｅｌｓｉｍ开发．ｒ－ｇＴ完成综合与仿真，最后在Ｘｌｉｎｘ关键词：ＦｔＫ３Ａ；ｉｆ｝音识别；ＭＦＣＣ中图分类号：ＴＰ３３１

文献标识码：Ａ

文章编号：１６７３—１６０３（２００９）０４—０３７０—０３

Ｓｐａｒｔａｎ－３ｅ

ＨＤＬ

ＦＰＧＡ目标板上实现设计．

语音信号是易受外界干扰的随机信号，在进行语音信号处理（语音编码、语音合成、语音识别）时，必须经过特征提取处理才能有效地降低信号的冗余度．对于语音识别系统而言，提取的特征参数应尽可能地反映人的声纹信息．

语音特征参数有能量、基因频谱、共振峰值、短时过零率等，相比之下比较常用的是线性预测倒谱ＬＰＣＣ与Ｍｅｌ倒谱系数．这是因为ＭＦＣＣ和ＬＰＣＣ在实际应用中最为成熟，特别是在真实信道噪声和频谱失真的情况下，也就是在噪声干扰较强状态下，特征参数ＭＦＣＣ相对于ＬＰＣＣ语音特征参数，能更好地反映人耳的听觉感知情况，故应用更多．

与ＬＰＣＣ相比，ＭＦＣＣ具有以下优点：

１）因为语音信息多集中在低频部分，而高频部分易受环境噪声干扰，ＭＦＣＣ将线性频标转化为Ｍｅｌ频标，强调语音的低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰．ＬＰＣＣ是基于线性频标的，所以没有这一特点．

２）ＭＦＣＣ无前提假设，在各种情况下均可使用．而ＬＰＣＣ假定所处理的信息为自回归（ＡＲ）信号，对于动态特性较强的辅音，这个假设不严格成立．另外，当噪声存在时，ＡＲ信号会变为自回归滑动平均（ＡＲ・ＭＡ）信号，因此ＭＦＣＣ的抗噪声能力也优于ＬＰＣＣ．１

线性关系，而ｌ

０００

Ｈｚ以上时，感知能力则与频率成

ｌｇ［１＋ｆ／７００］．

对数关系．在实际中采用Ｍｅｌ频率概念、美尔频率和

线性频率换算关系：丘。＝２

５９５

ＭＦＣＣ参数是按照语音帧来计算的，因为不同的说话人其声道具有区别他人的特异声纹特征，所以在实际信号中采用预加重处理技术．即在对信号取样后，插入１个一阶的高通滤波器，这样就加强了声道部分的特征，便于对声道参数进行分析，预加重处理后的结果为：ｙ（甩）＝Ｘ（ｎ）一０．９５ｘ（／＇／一１）．

语音具有短时平稳的特点，分帧后一般帧长为

３０

ｍｓ，这是因为超过３０ｍｓ，人就能感知语音的不连Ｍｅｌ滤波是利用与人耳听觉相似的三角滤波器组

续性；帧移一般为帧长的１／３或１／２．

对语音信号的幅度平方谱进行平滑，对数操作的至少有２点：其一是压缩语音谱的动态范围；其二是将频域中的乘性成分变成对数谱域中的加性成分，以便滤除乘性噪声．离散余弦变换（ＤＣＴ）主要用来对不同频段的频谱成分进行相关处理，使各向量之间相互独立，一般实际处理时不采用第一个系数．

２特征参数提取过程

提取ＭＦＣＣ特征参数旧１的一般过程如图ｌ所示．

特征参数ＭＦＣＣ提取原理ｕ

０００

Ｊ

人耳对不同频率的语音感知能力不同，听觉系统是一个非线性系统，具体在１

收稿日期：２００８—１０—０９

作者简介：盂祥斌（１９７８一），男，黑龙江大庆人，助教，硕士．

Ｈｚ以下时与频率成

图１ＭＦＣＣ参数提取过程

万方数据　

第４期孟祥斌，等：语音识别系统中的特征参数提取过程研究

・３７１．

１）对输入语音帧进行预加重和加Ｈａｍｍｉｎｇ窗后，平滑语音帧，然后做ＦＦＴ得到其频谱，将时域信号

转化为频域信号．

２）求出频谱平方，即能量谱，并用ｌ组三角Ｍｅｌ带通滤波器对能量谱进行带通滤波．这组带通滤波器的频率可以按照中心频率选取．每个滤波器的三角形２个底点的频率分别等于相邻的２个滤波器的中心频率．由于每一个频带中的分量作用在人耳中是叠加的，因此将每个滤波器频带内的能量叠加．

３）将每个滤波器的输出取对数，得到相应的对数功率谱，并进行反离散余弦变化，得到￡个ＭＦＣＣ．由于在实际的语音识别应用中，并不是取全部维数的

村

ＭＦＣＣ，一般取前１２维的ＭＦＣＣ．ｃ。＝∑ｌ眦’（ｋ）ＣＯＳ

￡五

［订（ｋ一０．５）ｎ／ｍ］，其中，聍＝１，２，・・正．

４）上述直接得到的ＭＦＣＣ特征参数称为静态特征参数．由于ＭＦＣＣ主要反映语音的静态特征，因此，要得到语音信号的动态特征，则需要将静态特征进行一阶和二阶差分，这样效果更好．３

特征参数ＭＦＣＣ提取结构设计

３．１整体框架结构

整体框架结构ｉ３川如图２所示．

图２整体结构

语音信号经过采集板采样形成ＰＣＭ样本，在主控制器的作用下，以５１２点为１帧输入运算单元，帧长

３０

ｍｓ，帧移取１５ｍｓ，对复数数据分别进行实部和虚

部定点处理的计算，以保证精度１６位的数据要求．数据通过Ｍｅｌ滤波器的能量输出送到对数单元和ＤｃＴ单元模块中，最后计算出参数ＭＦＣＣ．同时，引入数据流水线设计，以保证数据处理的实时性和较高的吞吐率．

ＦＦＴ模块设计Ｈ“１

快速傅立叶变换采用基２处理，ＦＦｒ处理器＂１的

控制器实现简单，难点在于碟形处理单元和地址产生单元．５１２点复数可以看作１０２４个实数计算，采用基制单元、双口ＲＡＭ单元、地址产生单元、碟形处理单元、以及存储碟形系数的ＲＯＭ单元．

外部数据在控制器和时钟作用下，写入ＲＡＭ单

万　

方数据元中．输入完毕，控制器接收到ＲＡＭ数据准备就绪信号后，分别给ＲＡＭ单元和ＲＯＭ单元发出使能信号，地址产生单元相应地读出ＲＡＭ中的数据地址和ＲＯＭ中的数据地址，进行碟形运算．每一级运算的中间数据结果都写入ＲＡＭ中，在信号控制下，最后结果从ＲＡＭ中输出．

运算主要由１个乘法器和２个加法器实现，数据计算和处理采用双口ＲＡＭ，大大提高了整体运行效率．采用４个时钟脉冲分别把数据的实部和虚部定点化数据送人存储寄存器中，时钟经５个脉冲周期完成处理．整体结构采用流水线设计，运算单元和多路选择器、寄存器等硬件单元共同完成设计，在完成基本功能的前提下，增强处理数据能力，尽量减少硬件电路所占空间．

Ｍｅｌ滤波器组设计

运算中，按照次序从存储单元中读取所需要的系

数．整体滤波器组由主控制单元完成实时控制，并及时’

０

ｋ＜厂（ｍ一１）

ｋ－ｆ（ｍ一１）

以ｍ）一厂（ｍ一１）

以ｍ一１）≤七锁ｍ）

墨二丛翌＝１２

只ｍ）一以ｍ一１）

以ｍ）＜七锁ｍ一１）

０

ｋ＞八ｍ＋１）

Ｍｅｌ滤波器组由２４个三角波滤波器组成，在实际

表ｌ临界频率和临界带宽

３．３

处理从ＦＦＴ模块单元接收到的数据流．每个带通滤波器的传递函数如下：

巩（七）＝

运算前，可以提前计算滤波器的中心频率，将三角滤波器的系数提前存入ＲＯＭ单元中，如表１所示．

３．２

２碟形单元处理，总共分９级完成．整个处理器包括控

・３７２・

沈阳工程学院学报（自然科学版）

第５卷

４实验仿真及结果分析

实验的验证平台是ｘｉｌｉｎｘ公司的ｓｐａｒｔａｎ一３ｅ开发板，它的核心是ｓｐａｒｔａｎ

ｘｃ３ｓ５００ｅ

Ｍｏｄｅｌｓｉｍ５．７，设计综合的软件是ＩＳＥ．图３是ＭＦＣＣ参数提取控制波形．

数据流５１２点为１帧，帧移２５６点．ＦＰＧＡ以１００

ＭＨｚ运行，２４阶的ＭＦＣＣ系数所花时间为２００．８实现了ＭＦＣＣ特征参数的提取设计．

ＵＳ，

ＦＰＧＡ芯片．该平台

资源丰富，可以作为高效的ｍ验证平台．仿真软件

图３ＭＦＣＣ参数提取控制波形

［２］赵力．语音信号处理［Ｍ］．北京：机械工业出版社，２００３．［３］赵丽娜．侯义斌，黄章钦，等．基于ＦＰＧＡ的嵌入式语音识

别控制系统［Ｊ］．小型微型计算机系统，２００７（８）：１５２７—

１５３１．

５

结论

为了对语音数据进行准确的分析，给出了一种

ＭＦＣＣ特征参数提取的设计方案，并在ＦＰＧＡ开发平台上得以实现．通过设计仿真和验证，基本达到ＵＳ级运算水平，并为今后的语音识别系统设计提供了可靠的参数．参考文献

［１］王炳锡．实用语音识别基础［Ｍ］．北京：国防工业出版社，

２００５．

［４］高谦。张国杰，张树才．基于ＦＰＧＡ的高性能ＭＦＣＣ特

征参数提取［Ｊ］．通信技术．２００８．４Ｉ（６）：１５３—１５７．【５］孙阳，余锋．一种高性能ＦＦＴ处理的ＶＬＳＩ结构设计

［Ｊ］．微电子学，２００３．［６］王远模，赵宏钟．用ＦＰＧＡ实现浮点ＦＦｒ处理器的研究

［Ｊ］．国防科技大学学报，２００４（６）．［７］胡德俊．ＦＦＴ处理器的设计与实现［Ｄ］．合肥：合肥工业大

学，２００４．

Ｓｔｕｄｙｐｒｏｃｅｓｓｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓｉｎｒｅｃｏｇｎｉｔｉｏｎｓｐｅｅｃｈ

ＭＥＮＧＸｉａｎｇ・ｂｉｎ，ＹＩＮＣｈａｎｇ－ｙｏｎｇ，ＢＡＯＹａｎ

（Ｄｅｐａｒｔｍｅｎｔ

ｏｆＡｕｔｏｍａｔｉｏｎ

ＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｉｎｇ．ＳｈｅｎｙａｎｇｉｎｓｔｉｔｕｔｅｏｆＥｎｇｉｎｅｅｒｉｎｇ，Ｓｈｅｎｙａｎｇ１１０１３６。Ｃｈｉｎａ）

ｏｎ

Ａｂｓｔｒａｃｔ：ＭＦＣＣ（Ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）ｉｓｂａｓｅｄ

ｔｈｅｈｕｍａｎｅａｒｓ’ｃｈａｒａｃｔｅｒｉｓｔｉｃａｎｄｐｅｒｆｏｒｍ

ａ

ｈｉｇｈ

ｅｘ—

ｒｅｃｏｇｎｉｔｉｏｎｒａｔｅｉｎｐｒａｃｔｉｃａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．ＴｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｐｒｉｎｃｉｐｌｅｏｆＭＦＣＣ，ｐｒｏｃｅｓｓａｎｄｍｅｔｈｏｄｏｆｔｒａｃｔｉｎｇＭＦＣＣ．Ｔｈｅｈａｒｄｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎ

ｍｏｄｅｌ

ｉｓｐｒｏｐｏｓｅｄａｎｄｔｈｅｄｅｓｉｇｎｏｆｅａｃｈ

ｓｕｂ・ｍｏｄｅｌ

ｉｎｄｅｔａｉｌｉｓｄｅ－

ｓｃｒｉｂｅｄ．ＴｈｅｄｅｓｉｇｎｉｓｄｅｓｃｒｉｂｅｄｗｉｔｈＶｅｒｉｌｏｇＨＤＬ，ｓｙｎｔｈｅｓｉｓａｎｄｓｉｍｕｌａｔｉｏｎｉｓｃｏｍｐｌｅｔｅｄｂｙＩＳＥａｎｄ

Ｍｏｄｅｌｓｉｍ

ｄｅｖｅｌ－

ｏｐｍｅｎｔｔｏｏｌｓ．Ｆｉｎａｌｌｙ，ｔｈｅｄｅｓｉｇｎｈａｓｂｅｅｎｉｍｐｌｅｍｅｎｔｅｄｉｎＸｉｌｉｎｘＳｐａｒｔａｎ－３ｅＦＰＧＡｂｏａｒｄ．Ｋｅｙｗｏｒｄｓ：ＦＰＧＡ；ｓｐｅｅｃｈ

ｒｅｃｏｇｎｉｔｉｏｎ；ＭＦＣＣ

万方数据　

语音识别系统中的特征参数提取过程研究

作者：作者单位：刊名：英文刊名：年，卷(期)：被引用次数：

孟祥斌，尹常永，包妍

沈阳工程学院,自动控制工程系,沈阳,110136

沈阳工程学院学报（自然科学版）

JOURNAL OF SHENYANG INSTITUTE OF ENGINEERING(NATURAL SCIENCE)2009，5(4)0次

参考文献(7条)

1. 王炳锡.实用语音识别基础[M].北京:国防工业出版社,2005.2. 赵力.语音信号处理[M].北京:机械工业出版社,2003.

3. 赵丽娜.侯义斌,黄章钦,等.基于FPGA的嵌入式语音识别控制系统[J].小型微型计算机系统,2007(8):1527-1531.4. 高谦,张国杰,张树才.基于FPGA的高性能MFCC特征参数提取[J].通信技术,2008,41(6):153-157.5. 孙阳,余锋.一种高性能FFT处理的VLSI结构设计[J].微电子学,2003.

6. 王远模,赵宏钟.用FPGA实现浮点FFT处理器的研究[J].国防科技大学学报,2004(6).7. 胡德俊.FFT处理器的设计与实现[D].合肥:合肥工业大学,2004.

相似文献(10条)

1.学位论文王志飞小词汇量非特定人孤立词语音识别的FPGA实现 2005

语音识别技术是信息技术领域的重要发展方向之一,小词汇量非特定人孤立词语音识别是语音识别领域中一个具有广泛应用背景的分支,在家电遥控、智能玩具、人机交互等领域有着重要的应用价值.语音识别芯片从20世纪90年代开始出现,目前的语音识别芯片都是以DSP为核心集成的语音识别系统,算法主要通过软件实现,为了提高速度和降低成本,下一代语音识别芯片将设计成软硬件协同实现,本文的目的是使用全硬件方法实现语音识别算法,为软硬件协同实现的方案提供参考.本论文主要完成了以下工作:(1)在选定的FPGA平台上,完成了整个系统的硬件设计.(2)对于硬件中难于实现而且占用较多资源的乘法器、求对数、求平方根以及快速傅立叶变换等关键模块,本文都根据电路的具体特点,给出了巧妙的实现方案,完成了算法需要的功能.(3)设计中使用了模块复用和流水线技术.(4)根据设计结果,给出了各个模块占用的硬件资源和运行速度.实验结果表明,本文所设计的硬件系统能够正常工作,在速度和面积方面都达到了设计要求.

2.期刊论文刘文姝. 季爱明. 王子欧. LIU Wen Shu. JI Ai Ming. WANG Zi Ou 基于FPGA的语音识别前端算法研究实现

-电子技术应用2010,36(2)

通过分布式语音识别DSR的研究,提出了基于FPGA平台的前端处理系统结构.对其中两个除法器分别采用了LUT查找表和常数除法器的结构.用

VerilogHDL语言进行建模仿真,并与Matlab的建模结果进行了对比.结果表明,与之前的方法相比,系统能够在较短的时钟周期内计算出LPCC系数,节省了大量的运算时间和一定的面积.

3.学位论文李亦佳基于嵌入式非特定人语音识别机理及拒识算法研究 2009

随着信息技术的发展，作为一种重要的人机交互新手段，语音识别技术被广泛的应用于小型化、便携式的嵌入式语音产品中，带来了对低成本、低功耗的嵌入式语音识别系统的巨大需求。这意味着，对嵌入式语音产品的识别率和拒识率的要求也日益提高。

由于低成本的嵌入式语音识别系统具有CPU处理速度慢，软件代码精简，系统成本低的特征，语音识别算法必须在保证识别率的基础上尽可能精简并减小计算量。而在语音识别系统中，拒识也非常重要。在实际应用中，经常会有词表以外的词输入到语音识别系统，如果被误识为词表以内的某个词，有时会导致很严重的后果，所以系统应具有很强的拒识功能。

本文基于嵌入式环境下的语音识别研究课题，采用机理算法研究及仿真实现验证的方法，研究语音识别机理，以及小词汇量孤立词语音识别及拒识基本原理。研究了小词汇量孤立词语音识别技术，改进了基于嵌入式的语音识别算法。研究了FPGA的基本原理及应用，构建了基于嵌入式的语音识别系统，实现了改进的前端处理算法和语音识别算法。研究了语音拒识算法基本原理以及贝叶斯网络原理，设计了基于贝叶斯网络结构的语音拒识算法。搭建了基于FPGA的语音识别仿真平台，集成改进的语音识别算法和拒识算法并移植到嵌入式平台上，实现了面向非特定人的、孤立词、小词汇量的嵌入式语音识别系统。通过对改进的前端处理算法和语音识别与拒识算法进行仿真测试，验证了算法改进的可行性，并对测试结果进行分析。

本文通过对前端处理算法，语音识别算法的改进，并与基于贝叶斯网络结构的语音拒识算法的集成，对语音识别系统的移植和仿真，得到语音识别系统测试结果，并对其进行性能分析，验证了本文改进的语音识别算法及设计的拒识算法满足嵌入式语音识别的需要。

本文课题来源是北京市教委基金——“语言识别IP核研究”及“十五”“211工程”重点学科建设项目——“环绕智能与嵌入式系统”子系统。

4.学位论文刘军海基于DHMM非特定人孤立词语音识别及硬件设计研究 2007

随着信息技术的发展，语音识别技术得到广泛应用。小词汇量非特定人孤立词语音识别是语音识别系统的重要分支，在智能玩具、车载系统、家电遥控等领域有着广泛的应用。当前的语音识别芯片的性能大多速度慢、成本高、识别率不太理想。获取高速、低成本的非特定人孤立词语音识别方法，已成为语音识别领域的一个重要的研究课题。

本文在系统地分析国内外语音识别现状、语音识别算法和流程的基础上，采集并建立小词汇量的语音库。语音库包括45个词语，共计1410个语音。以此为基础，本文改进端点检测算法，采用基于短时能频值参数的双门限、有效语音长度参数辅助判决的算法，提高了端点判决的准确性，仿真结果表明端点检测率达到98.6％，明显优于基于短时平均幅度值结合短时过零率参数的双门限端点检测算法。采用MFCC和一阶MFCC差分参数来提取特征参数，更好地反映了语音的静态和动态特性，使特征矢量更具有代表性，优于LPCC参数提取的特征矢量。采用扰动分裂法生成矢量量化的初始码本，并对可能出现的空腔做了修正。用定标因子解决了DHMM识别过程中的计算下溢问题。通过以上对算法的改进后，仿真结果表明，识别率显著提高，达到96.7％。

在FPGA平台上实现了系统控制模块、端点检测模块和FFT模块。并改进了FFT算法，使四次乘法运算优化为三次乘法运算，从而提高了速度，减少了面积消耗。实现预定的设计要求。

5.期刊论文耿慧. 梁维谦. 董明. 刘润生. GENG Hui. LIANG Wei-qian. DONG Ming. LIU Run-sheng 基于FPGA的语音识

别SoC系统解决方案 -电声技术2009,33(10)

基于Actel CoreMP7低成本SoC开发验证平台,完成了以ARM7为核心控制器、马氏距离计算专用电路(MSAC)为协处理器的语音识别SoC的设计与验证.实验结果表明,该SoC系统在Actel ProASIC系列FPGAM7A3P1000上综合实现后.约占用M7A3P1000总资源的39.18%及1 KB片内SRAM,完成整个语音识别算法性能比S3C4480x(ARM7)平台上定点C程序提高了49.78%.充分证明了CoreMP7平台用于SoC设计的可行性和便捷性,以及主处理器配合硬件加速协处理器架构在信号处理领域的优势.

6.学位论文王明娟基于FPGA语音识别系统设计与实现 2009

近年来，语音识别研究大部分集中在算法设计和改进等方面，而随着半导体技术的高速发展，集成电路规模的不断增大与各种研发技术水平的不断提高，新的硬件平台的推出，语音识别实现平台有了更多的选择。语音识别技术在与DSP、FPGA、ASIC等器件为平台的嵌入式系统结合后，逐渐向实用化、小型化方向发展。

本课题通过对现有各种语音特征参数与孤立词语音识别模型进行研究的基础上，重点探索基于动态时间规整算法的DTW模型在孤立词语音识别领域的应用，并结合基于FPGA的SOPC系统，在嵌入式平台上实现具有较好精度与速度的孤立词语音识别系统。

本系统整体设计基于DE2开发平台,采用基于Nios II的SOPC技术。采用这种解决方案的优点是实现了片上系统，减少了系统的物理体积和总体功耗；同时系统控制核心都在FPGA内部实现，可以极为方便地更新和升级系统，大大地提高了系统的通用性和可维护性。

此外，由于本系统需要大量的高速数据运算，在设计中作者充分利用了Cyclone II芯片的丰富的硬件乘法器，实现了语音信号的端点检测模块，FFT快速傅立叶变换模块，DCT离散余弦变换模块等硬件设计模块。为了提高系统的整体性能，作者充分利用了FPGA的高速并行的优势，以及配套开发环境中的Avalon总线自定义硬件外设，使系统处理数字信号的能力大大提高，其性能优于传统的微控制器和普通DSP芯片。本论文主要包含了以下几个方面：

（1）结合ALTERA CYCLONE II芯片的特点，确定了基于FPGA语音识别系统的总体设计，在此基础上进行了系统的软硬件的选择和设计。

（2）自主设计了纯硬件描述语言的驱动电路设计，完成了高速语音采集的工作，并且对存储数据芯片SRAM中的原始语音数据进行提取导入MATLAB平台测试数据的正确性。整个程序测试的方式对系统的模块测试起到重要的作用。

（3）完成高速定点256点的FFT模块的设计，此模块是系统成败的关键，实现高速实时的运算。

（4）结合SOPC的特性，设计了人机友好接口，如LCD显示屏的提示反馈信息等等，以及利用ALTERA提供的一些驱动接口设计完成用户定制的系统。（5）进行了整体系统测试，系统可以较稳定地实现实时处理的目的，具有一定的市场潜在价值。

7.期刊论文赵丽娜. 侯义斌. 黄樟钦. 高曦. 李倩. ZHAO Li-na. HOU Yi-bin. HUANG Zhang-qin. GAO Xi. LI Qian 基于FPGA的嵌入式语音识别控制系统 -小型微型计算机系统2007,28(8)

介绍了一款针对特定人、孤立词的嵌入式语音识别系统的设计与实现.该系统的硬件核心部件是Virtex-II Pro50 FPGA芯片,其硬核处理器是

PowerPC405.本系统对预处理、端点检测、LPCC特征提取部分进行了定点化处理;DTW算法采用硬件IP核实现;整体调度采用中断方式实现.将该系统用于语音控制玩具机器狗AIBO进行实验,识别率达到98.3%.本系统设计性能满足玩具、游戏等消费娱乐电子设备对识别率和实时性的性能要求,具有广阔的市场应用前景.

8.学位论文谢秋云基于FPGA的语音识别技术研究 2007

许多已有的语音识别系统都是基于计算机软件的。但现在很多应用却要求体积压缩，方便携带和低功耗。所以基于集成电路的语音识别专用芯片有广阔的发展空间。当前语音芯片都采用以DSP为核心的结构，费用高，设计缺乏灵活性，很难进一步提高处理性能。FPGA(Field-Programmable GateArray，现场可编程门阵列)具有功耗低、体积小、集成度高、速度快、开发周期短、费用低、用户可定义功能及可重复编程和擦写等许多优点，可以实现高性能并行算法。

本文主要研究的就是用FPGA来实现语音识别算法。主要工作包括：

研究并实践了数字处理算法的多种FPGA设计方法--VLSI结构的设计方法；硬件DSP的Matlab建模设计方法；IP核设计方法等。运用这些方法，设计实现了一些基础运算功能的硬件实现，并用于语音识别算法。

语音识别的前端处理及硬件实现。包括预加重，分帧，加窗和端点检测。采用了基于能量变迁的语音的端点检测方法。并在该方法上改进，采用实时分帧，不但能够实现实时的端点检测，还具有一定的抗噪性。

语音特征提取及其硬件设计。采用Mel频标倒谱参数(Mel FrequencyCepstrum Coefficient，MFCC)，充分模拟了人的听觉特性，具有较高的识别性能和抗噪能力。该参数计算主要包括快速傅立叶变换(FFT)、三角滤波、取对数和离散余弦变换(DCT)等过程。本文在每个过程的硬件结构上都进行了巧妙的设计，提高了速度和效率：FFT中针对实数的FFT做了硬件结构的改进减少了FFT点数，使速度提高了约40％；三角滤波器将其中心频率转化为频谱中对应点，提高了运算效率；取对数中用了查表和线性插值结合的方法，提高了精度。最后提出了三级流水计算MFCC参数的硬件结构，进一步加快了MFCC参数计算。矢量量化硬件设计中采用与最小值比较的方法来提高码本的搜索速度。

Viterbi识别算法及其硬件实现。采用隐马尔可夫(HMM)来进行声音建模和匹配。HMM在计算量和存储量上被认为是最有效的方法。在Viterbi识别中，对传统的Viterbi算法公式做了改进，进行了剪枝，使搜索速率大大提高，采用了4个ACS并行处理，简化了电路，提高了识别速度。

9.学位论文赵淳嵌入式非特定人孤立词语音识别系统的设计与实现 2009

本文课题来源是“十五”“211工程”重点学科建设项目——“环绕智能与嵌入式系统”子系统和北京市教委基金——“语言识别IP核研究”。语言是人与人之间的一种最自然最直接的交流方式，语音识别研究的最终目的就是要实现自然的人机对话，使机器能够听懂人的语言并做出相应的反应。语音识别技术正逐步成为环绕智能领域人机接口部分的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。为了满足嵌入式交互系统的苛刻要求，嵌入式语音识别算法的研究意义重大。目前，语音识别系统在嵌入式设备中的实现主要通过单片机MCU、数字信号处理器DSP来实现。FPGA作为一种新的实时数字信号处理实现方式与以往的MCU、DSP、ASIC等实时数字信号处理技术相比具有更高的性价比，因此研究基于FPGA架构的语音识别片上系统具有重要的实用价值。

本研究课题以玩具、学习类电子领域为应用对象，研究面向非特定人的小词汇量、孤立词、低成本的语音识别控制系统的设计和实现方法，既具有理论意义又具有实用价值。研究FPGA平台上语音识别系统的整体结构设计、各类适合嵌入式语音算法的实现优化、系统的软硬件划分方法及其实现方法、研究语音识别系统辅助软件的可操作性，并集成面向非特定人的语音识别SoPC系统控制不同的玩具进行应用，为基于FPGA的低成本SoPC语音控制系统的实现准备了理论和实践基础。

10.期刊论文程凡. CHENG Fan 用语音识别进行无线控制的研究 -微计算机信息2009,25(5)

介绍了一种用语音识别技术进行无线控制的设计方案.采用TLV320AIC23为语音信号的AD转换器,TI的TMS320VC5509ADSP为语音识别的核心处理器,配以FLASH、SDRAM等储存芯片和FPGA做10扩展和逻辑控制.在语音成功识别后由无线通讯模块(nRF402)发送特定编码:接收端收到信号后,经解码实现相应控制.

本文链接：http://d.g.wanfangdata.com.cn/Periodical_sydlgdzkxxxb200904021.aspx授权使用：李桂芬(wfszkjtsg)，授权号：0ecdc9bd-5e33-4b40-a74b-9e7200ae2508

下载时间：2011年1月21日

第５卷第４期２００９年１０月

沈阳工程学院学报（自然科学版）

ＪｏｕｒｎａｌｏｆＳｈｅｎｙａｎｇＩｎｓｔｉｔｕｔｅｏｆＥｎｇｉｎｅｅｒｉｎｇ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ）

ＶＯＩ．５Ｎｏ．４

Ｏｃｔ．２００９

语音识别系统中的特征参数提取过程研究

孟祥斌，尹常永，包妍

（沈阳工程学院自动控制工程系，沈阳１１０１３６）

文献标识码：Ａ

文章编号：１６７３—１６０３（２００９）０４—０３７０—０３

Ｓｐａｒｔａｎ－３ｅ

ＨＤＬ

ＦＰＧＡ目标板上实现设计．

与ＬＰＣＣ相比，ＭＦＣＣ具有以下优点：

线性关系，而ｌ

０００

Ｈｚ以上时，感知能力则与频率成

ｌｇ［１＋ｆ／７００］．

对数关系．在实际中采用Ｍｅｌ频率概念、美尔频率和

线性频率换算关系：丘。＝２

５９５

语音具有短时平稳的特点，分帧后一般帧长为

３０

ｍｓ，这是因为超过３０ｍｓ，人就能感知语音的不连Ｍｅｌ滤波是利用与人耳听觉相似的三角滤波器组

续性；帧移一般为帧长的１／３或１／２．

２特征参数提取过程

提取ＭＦＣＣ特征参数旧１的一般过程如图ｌ所示．

特征参数ＭＦＣＣ提取原理ｕ

０００

Ｊ

人耳对不同频率的语音感知能力不同，听觉系统是一个非线性系统，具体在１

收稿日期：２００８—１０—０９

作者简介：盂祥斌（１９７８一），男，黑龙江大庆人，助教，硕士．

Ｈｚ以下时与频率成

图１ＭＦＣＣ参数提取过程

万方数据　

第４期孟祥斌，等：语音识别系统中的特征参数提取过程研究

・３７１．

１）对输入语音帧进行预加重和加Ｈａｍｍｉｎｇ窗后，平滑语音帧，然后做ＦＦＴ得到其频谱，将时域信号

转化为频域信号．

村

ＭＦＣＣ，一般取前１２维的ＭＦＣＣ．ｃ。＝∑ｌ眦’（ｋ）ＣＯＳ

￡五

［订（ｋ一０．５）ｎ／ｍ］，其中，聍＝１，２，・・正．

特征参数ＭＦＣＣ提取结构设计

３．１整体框架结构

整体框架结构ｉ３川如图２所示．

图２整体结构

语音信号经过采集板采样形成ＰＣＭ样本，在主控制器的作用下，以５１２点为１帧输入运算单元，帧长

３０

ｍｓ，帧移取１５ｍｓ，对复数数据分别进行实部和虚

ＦＦＴ模块设计Ｈ“１

快速傅立叶变换采用基２处理，ＦＦｒ处理器＂１的

外部数据在控制器和时钟作用下，写入ＲＡＭ单

万　

Ｍｅｌ滤波器组设计

运算中，按照次序从存储单元中读取所需要的系

数．整体滤波器组由主控制单元完成实时控制，并及时’

０

ｋ＜厂（ｍ一１）

ｋ－ｆ（ｍ一１）

以ｍ）一厂（ｍ一１）

以ｍ一１）≤七锁ｍ）

墨二丛翌＝１２

只ｍ）一以ｍ一１）

以ｍ）＜七锁ｍ一１）

０

ｋ＞八ｍ＋１）

Ｍｅｌ滤波器组由２４个三角波滤波器组成，在实际

表ｌ临界频率和临界带宽

３．３

处理从ＦＦＴ模块单元接收到的数据流．每个带通滤波器的传递函数如下：

巩（七）＝

运算前，可以提前计算滤波器的中心频率，将三角滤波器的系数提前存入ＲＯＭ单元中，如表１所示．

３．２

２碟形单元处理，总共分９级完成．整个处理器包括控

・３７２・

沈阳工程学院学报（自然科学版）

第５卷

４实验仿真及结果分析

实验的验证平台是ｘｉｌｉｎｘ公司的ｓｐａｒｔａｎ一３ｅ开发板，它的核心是ｓｐａｒｔａｎ

ｘｃ３ｓ５００ｅ

Ｍｏｄｅｌｓｉｍ５．７，设计综合的软件是ＩＳＥ．图３是ＭＦＣＣ参数提取控制波形．

数据流５１２点为１帧，帧移２５６点．ＦＰＧＡ以１００

ＭＨｚ运行，２４阶的ＭＦＣＣ系数所花时间为２００．８实现了ＭＦＣＣ特征参数的提取设计．

ＵＳ，

ＦＰＧＡ芯片．该平台

资源丰富，可以作为高效的ｍ验证平台．仿真软件

图３ＭＦＣＣ参数提取控制波形

［２］赵力．语音信号处理［Ｍ］．北京：机械工业出版社，２００３．［３］赵丽娜．侯义斌，黄章钦，等．基于ＦＰＧＡ的嵌入式语音识

别控制系统［Ｊ］．小型微型计算机系统，２００７（８）：１５２７—

１５３１．

５

结论

为了对语音数据进行准确的分析，给出了一种

［１］王炳锡．实用语音识别基础［Ｍ］．北京：国防工业出版社，

２００５．

［４］高谦。张国杰，张树才．基于ＦＰＧＡ的高性能ＭＦＣＣ特

征参数提取［Ｊ］．通信技术．２００８．４Ｉ（６）：１５３—１５７．【５］孙阳，余锋．一种高性能ＦＦＴ处理的ＶＬＳＩ结构设计

［Ｊ］．微电子学，２００３．［６］王远模，赵宏钟．用ＦＰＧＡ实现浮点ＦＦｒ处理器的研究

［Ｊ］．国防科技大学学报，２００４（６）．［７］胡德俊．ＦＦＴ处理器的设计与实现［Ｄ］．合肥：合肥工业大

学，２００４．

Ｓｔｕｄｙｐｒｏｃｅｓｓｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓｉｎｒｅｃｏｇｎｉｔｉｏｎｓｐｅｅｃｈ

ＭＥＮＧＸｉａｎｇ・ｂｉｎ，ＹＩＮＣｈａｎｇ－ｙｏｎｇ，ＢＡＯＹａｎ

（Ｄｅｐａｒｔｍｅｎｔ

ｏｆＡｕｔｏｍａｔｉｏｎ

ｏｎ

Ａｂｓｔｒａｃｔ：ＭＦＣＣ（Ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）ｉｓｂａｓｅｄ

ｔｈｅｈｕｍａｎｅａｒｓ’ｃｈａｒａｃｔｅｒｉｓｔｉｃａｎｄｐｅｒｆｏｒｍ

ａ

ｈｉｇｈ

ｅｘ—

ｍｏｄｅｌ

ｉｓｐｒｏｐｏｓｅｄａｎｄｔｈｅｄｅｓｉｇｎｏｆｅａｃｈ

ｓｕｂ・ｍｏｄｅｌ

ｉｎｄｅｔａｉｌｉｓｄｅ－

Ｍｏｄｅｌｓｉｍ

ｄｅｖｅｌ－

ｒｅｃｏｇｎｉｔｉｏｎ；ＭＦＣＣ

万方数据　

语音识别系统中的特征参数提取过程研究

作者：作者单位：刊名：英文刊名：年，卷(期)：被引用次数：

孟祥斌，尹常永，包妍

沈阳工程学院,自动控制工程系,沈阳,110136

沈阳工程学院学报（自然科学版）

JOURNAL OF SHENYANG INSTITUTE OF ENGINEERING(NATURAL SCIENCE)2009，5(4)0次

参考文献(7条)

1. 王炳锡.实用语音识别基础[M].北京:国防工业出版社,2005.2. 赵力.语音信号处理[M].北京:机械工业出版社,2003.

6. 王远模,赵宏钟.用FPGA实现浮点FFT处理器的研究[J].国防科技大学学报,2004(6).7. 胡德俊.FFT处理器的设计与实现[D].合肥:合肥工业大学,2004.

相似文献(10条)

1.学位论文王志飞小词汇量非特定人孤立词语音识别的FPGA实现 2005

2.期刊论文刘文姝. 季爱明. 王子欧. LIU Wen Shu. JI Ai Ming. WANG Zi Ou 基于FPGA的语音识别前端算法研究实现

-电子技术应用2010,36(2)

通过分布式语音识别DSR的研究,提出了基于FPGA平台的前端处理系统结构.对其中两个除法器分别采用了LUT查找表和常数除法器的结构.用

3.学位论文李亦佳基于嵌入式非特定人语音识别机理及拒识算法研究 2009

本文课题来源是北京市教委基金——“语言识别IP核研究”及“十五”“211工程”重点学科建设项目——“环绕智能与嵌入式系统”子系统。

4.学位论文刘军海基于DHMM非特定人孤立词语音识别及硬件设计研究 2007

5.期刊论文耿慧. 梁维谦. 董明. 刘润生. GENG Hui. LIANG Wei-qian. DONG Ming. LIU Run-sheng 基于FPGA的语音识

别SoC系统解决方案 -电声技术2009,33(10)

6.学位论文王明娟基于FPGA语音识别系统设计与实现 2009

（1）结合ALTERA CYCLONE II芯片的特点，确定了基于FPGA语音识别系统的总体设计，在此基础上进行了系统的软硬件的选择和设计。

（3）完成高速定点256点的FFT模块的设计，此模块是系统成败的关键，实现高速实时的运算。

介绍了一款针对特定人、孤立词的嵌入式语音识别系统的设计与实现.该系统的硬件核心部件是Virtex-II Pro50 FPGA芯片,其硬核处理器是

8.学位论文谢秋云基于FPGA的语音识别技术研究 2007

本文主要研究的就是用FPGA来实现语音识别算法。主要工作包括：

9.学位论文赵淳嵌入式非特定人孤立词语音识别系统的设计与实现 2009

10.期刊论文程凡. CHENG Fan 用语音识别进行无线控制的研究 -微计算机信息2009,25(5)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_sydlgdzkxxxb200904021.aspx授权使用：李桂芬(wfszkjtsg)，授权号：0ecdc9bd-5e33-4b40-a74b-9e7200ae2508

下载时间：2011年1月21日

识别系统中的特征参数提取过程研究[1]

相关内容

热门内容

标签