实例介绍
详细描述共振峰的相关资料和提取共振峰的步骤,以及相应的代码
特征。这一灵活性决定了基于共振峰参数的算法,可以满足对音 频信号进行方便访问和控制的需要。 关键字:共振峰线性预测 ABSTRACT The human voice to communicate with each other using the most natural and the most fundamental and most important information carriers in high-information that today, a series of voice processing technology and its application several times in the information society available to the Department or the lack of the most important component of the. Speech coding algorithm using speech signals redundant information and some people s ears are not sensitive information, you can gain at low bit-rate reconstruction of a high-quality voice compression coding has been the communication of key technologies. Speech Signal researchers have been looking for a way to maintain voice quality in asignificant decline in the case of voice signals in the smallest bit rate coding methods, in particular, the low bit rate speech coding system (bit-rate of 4.8 kb/s or less) because of its wide range of demands to be researchers attention The performance of speech coding devices often use bit rate, delay, complexity and quality of the four attributes to measure, therefore, in analyzing the performance of speech coder, the main consideration should be given these attributes. It is noteworthy that among these attributes are not isolated, but closely interrelated, for example, low bit rate encoder in general than high bit-rate encoder greater delay, higher algorithm complexity and the lower voice quality. Therefore, various coding algorithms to choose should be based on the actual application environment, in the trade-off between these attributes Formant parameter coding algori thm at low bit-rate audio coding more and more widely applied. time-domain waveform based on the compression algorithm, the process of transmission, he need only transmit the signal structure used for the base frequency and formant parameters, it can greatly reduce the transmission rate, low bit-rate multimedia communication. Moreover, the algorithm based on formant parameters do not strictly limit the signal structure, he has the flexibility to describe the audio signal characteristics. This flexibility determines the parameters of formant-based algorithms, to meet the audio signal to facilitate access and control needs KEY WORDS 第一章语音信号处理基础 1.1语音信号处理概述 语音编码算法利用语音信号的冗余信息及某些人耳不敏感的信 息,可以在低比特率上获得较高质量的重建语音,压缩編码一直是通 信中的关键技术。语音信号研究者们一直在寻求一和在保持语音质量 不显著下降的情况下使语音信号的编码比特率最小的方法,特别地 低比特率语音编码体制(比特率在4.8kb/s以下)因其广泛的需求 而得到研究者的重视。 语音编码器的性能常常用比特率、延时、复杂度和质量4个属 性来进行衡量,因此,在分析音编码器的性能时,主要应该考虑这 些属性。值得注意的是,这些属性之间不是孤立的,而是相互紧密联 系的,例如,低比特率的编码器一殷比高比特率的编码器有更大的延 时、更高的算法复杂度和较低的语音质量。因此在对各种编码算法进 行取舍时,应根据实际应用环境,在这些属性之间进行权衡。 共振峰参数编码算法在低码窳的音频编码中应用越来越广泛。与 基于时域波形的压缩算法相比,他在传输的过程中只需要传输构造信 号所用的基频和共振峰参数,因此可以大大地降低传输的码率,实现 低码率下的多媒体通信。而且,基于共振峰参数的算法无颂严格限制 信号的结构,他可以灵活地描述音频信号的特征。这一灵活性决定了 基于共拔峰参数的算法,可以满足对音频信号进行方便访问和控制的 需要。 1.2语音信号处理的发展及应用 1.3语音与常用的语音分析方法 1.3.1语音的基本特性 1.3.2常用语音信号分析方法 1.4请音共振峰估计的现状 第二章,语音共振峰佔计技术 2.1基础知识 在语音信号分析技术中,表征语音信号主要特征的是两个最基本的语音参 数,即共振峰和基频。通常,共振峰定义为声道脉冲响应的衰诚正弦分量,在经典 的语音信号模型中,共振峰等效为声道传输函数的复数极点对。对平均长度约为 17cm声道(男性),在3kHz范围内大致包含三个或四个共振峰,而在5kHz范围 内包含四个或五个共振峰。高于5kIz的语音信号,能量很小。根据语音信号合 成的研究表明,表示浊音信号最主要的是前三个共振峰。 个语音信号的共振峰模型,只用前三个时变共振峰频率就可以得到可懂 度很好的合成浊音。共振峰信息包含在语音信号的频谱包络中,谱包络的峰值基 本上对应与共振峰频率。因此一切共振峰佔计都是直接或问接地对频谱包络进行 考察,关键是伂计语音频谱包终,并认为谱包络中的最大值就是共振峰。与基音 提取,共振峰估计也是表面看很容易但实际上又为许多问题所困扰。包括:虚假 峰值、共振峰合并、高基音语音。语音信号共振峰估汁,在语音信号合成、语音 信号自动识别和低比特律语音信号传输等方面都起着重要作用。 由于实际的语音是准周期信号和实际上是短时间信号的频率分析,其频谱 厅列不是周期性冲激函数序列的采样,而是近似三角脉冲的采样,所以其傅里叶 变换的幅度谱呈现高频衰减性质。从图3中可以观察到颊谱序列的幅度谱是周期 信号和高频衰减信号的乘积。实际语音分析过程中各时刻频谱序列的傅里叶变换 后裒减幅度差异很大,低频部分有时会出现分支脉冲的幅值大于下一个周期主脉 冲的幅值,这对信号周期地分辨产生一定的干扰,而无法准确估计基频值。所以 本文在确定基频时利用高频部分衰减幅度差异较小的特点,分析其周期特性并用 来计算语音基频 共振峰参数包括共振峰頻率、频带宽度和幅值,共振峰信息包含在语音频谱 的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的 最大值就是共振峰。利用音频谱傅里叶变換相应的低颊部分进行逆变换,就可 以得到语音频湝的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4 共振峰,如图1所示 图1〔根据频谱包络确定共振峰〕 2.2语音信号的倒谱分析 语音的产生模型实际是一个激励信号与声道沖激响应的卷积。对于浊音,激 励信号可以有周期脉冲序列表示;对于清音,激励信号可以有随机噪声序列表示。 语音的倒谱是将语音的短时谱取对数后再进行IDFT得到的,所以浊音信号的周期 性激励反映在倒谱上是同样周期的冲激。借此,可从倒谱波形中估计出基周期。一 般把倒谱波形中第二个冲激,认为即是对应激劢源的基频。那如何求倒谱呢?首先 计算倒谱.然后在预期的基音周期附近寻找峰值。如果倒谱的峰值超出了预先规定 的门限,则输入峰的位置就是基音周期的良好估值.如果投有超出门限的峰值语音 段定为浊音,则输入语音段定为清音,如果计算的是一个时变的倒谱,则可估计 出激励源模型及基音周期随时间的变化.般每隔10-20ms,计算倒谱次,这 是因为在一般语音中激励参数是缓慢变化的。数作为平滑后的值。为了更好地估 计共振峰的频率,通常还要进行平滑处理。常见的平滑处理有 线性平滑和中值平滑。中值平滑是将相邻的几个薮从大到小排列,(通常取5个 或3个),取中间的线性平滑则分别对这几个数进行加权并相加,加权系数之和 为1 2.3提取共振峰的方法 2.3.1线性预测用于共共振峰估计 线性预测( Linear Prediction,LP)分析是最有效的语音分析技术之一, 在语音编码,语音合成,语音识别等语音处理领域中得到了广泛的应用。语音线 性预测的基木思想是:个语音信号的抽样植可以用过去若T个取样值的线性组 合类逼近。通过使实际语音抽样值与线性预测抽样值的均方误差达到最小,可以 确定唯一一组线性预测系数 采用线性预测分析不仅仅能够得到语音信号的预测波形,而且能够提供 个非常好的声道。如果将语音模型看作激励源通过一个线性时不变系统(声道) 产生的输出,那么可以利用LP分析对声道参数进行佔值,以少量低信息率的时 变参数精确地描述语音波形及其频谱的性质。此外,LP分析还能够对垬振蜂, 功率谱等语音参数进行估计,LP分析得到的参数可以作为语音识别的重要的参 数之 2.3.1.1线性预测的基本原理 在语音信号处理中最常用的模型是全极点模型。线性预测所包含的基本概 念是,通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,即进 行最小均方误差的逼近,能够决定惟一的一组预测器系数,如果一个随机过程用 一个p阶全橛点系统受白噪声激励产生的输出来模拟,设这个系统的传递函数 为 V(x)=S(x)/E(z)=G∥1-∑ 1)=G/A(x) 其中:p是预测器阶数,一般取10;G是声道滤波器增益。由此,语音抽样 s(n)和激励信号e(n)之间的关系可用下列差分方程来表示 s(n)=Ge(n)+ > ais(n-i) =1 叩语音样点间有相关性,可以用过去的样点值预测未来样点值。对于浊音,激励 e(n)是以基音周期重复的单位冲激;对于清音e(n)是平稳白噪声。在模型参数 估计过程中,由于P阶线性预测是将语音信号过去的P个取样值S(n-1),S(n-2), S(n-p)用线性预测系数al-ap进行加权求和,从而预测信号的当前取样值 (n),若预测系数值s(n)来表示,则有 s(n)=∑a(n-i) 预测误差 s(r=s(n)-s(n)=s(n)-2ais(n-i) 式中:乱1称为线性预测系数。我们要提取共振峰必须首先要求出其最佳预测系 数a; 2.3.2倒谱法用于共振峰估计 1.倒谱与复倒谱 共振峰参数包括共振峰频率、频带宽度利幅值,共振峰信息包含在语音频谱 的包络中。因此共振峰参数提取的关键是佔计语音频镨包络,并认为谱包络中的 最大值就是共振峰。 复倒谱xn)的Z变换取对数后的逆z变换,即可表示为 Ⅹ(n)=Z-1[LnZ[x(n)]] 将x(n)进行Z变换后得到X(z),它包含幅度和相位信息。那么取复对数后 将得到X(z)=nX()|+ jargX()如果忽略了X(z)的相位信息,只是考虑其幅 度信息,那么立刻可以得到倒谱c(n)的定义,c(n)的定义为x(n)Z变换后的幅 度的对数的逆Z变换,即 C(n)-TIInIz(x(n))]=T[In X(z)] 倒谱和复倒谱的特征系统D*[.]的唯区别是倒谱的第二步运算用 Lnx(z)代替了1nX(z),其特征系统结构见图2-1 Z[] |Ln[1] 图2-1倒谱的特征系统结构 2.复倒谱与倒谱的计算 如果输入信号序列x(n)的Z变换X(z)的收敛域包含了单位圆在内, 那么序列的傅里叶变换X(e)存在,复倒谱计算中的变换可以用傅里叶变换 来替代。这样,就可以用高效的FFT酸法完成相关计算 DFT LDFT 图22复倒谱的计算方法 如图2-2所示,若x(n)为长度N的有限序列,首先经过DFT: X(k)-2xnexp(-j2nk/N), k=0-N-1 n=0 然后X(K)取复对数: X(K)=LnX(k) k=0-N-1 X(k)经过I变化得到x(m): N-1 xn(n)=(1/N)∑x(k)ep(门2kn/N),n=0-N-1 k=0 这里,x2(n)是x(n)以为N周期进行周期延拓后构成的序列,即 xpn)=∑x(n+fN) r=-00 由于为无限成序列,故周期延拓后必然产生混叠失真,但由于至少是按的速 度衰减,所以当取值较大的时候混叠失真并不是很明显。如果值本身不是太大的 【实例截图】
【核心代码】
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论