语音识别的MATLAB实现.rar

一般编程问题

下载此实例

开发语言：Others
实例大小：0.54M
下载次数：6
浏览次数：79
发布时间：2021-11-29
实例类别：一般编程问题
发布人：js2021
文件格式：.rar
所需积分：2

网友评论举报投诉收藏该页

下载此实例

实例介绍

【实例简介】
语音识别的MATLAB实现声控小车结题报告小组成员：关世勇吴庆林一、项目要求：声控小车是科大华为科技制作竞赛命题组的项目，其要求是编写一个语言识别程序并适当改装一个小型机动车，使之在一个预先不知道具体形状的跑道上完全由声控来完成行驶比赛。跑道上可以有坡面，坑，障碍等多种不利条件，小车既要具有较快的速度，也要同时具有较强的灵活性，能够克服上述条件。二、项目分析：由于小车只要求完成跑道上的声控行驶，所以我们可以使用简单的单音命令来操作，如“前”、“后”、“左”、“右”等。由于路面有各种不利条件，而且规则要求小车尽可能不越过边线，这就决定了我们的小车不能以较高的速度进行长时间的快速行驶。所以我们必须控制小车的速度和行进距离。由于外界存在噪声干扰，所以我们必须对噪声进行处理以减小其影响。鉴于上诉各种要求，我们决定对购买的遥控小车进行简单改造，使用PC机已有的硬件条件编写软件来完成语音的输入，采集，处理和识别，以实现对小车的控制。三、解决思路与模块：整个程序大致可划分为三个模块，其结构框图如下图所示：整个程序我们在Visual C++ 环境下编写。四、各模块的实现： 1 声音的采集：将声音信号送入计算机，我们利用了声卡录音的低层操作技术，即对winmm.lib进行API调用。具体编程时这一部分被写在一个类中（Soundin类）。在构造函数中设定包括最大采样率（11025），数据缓存（作为程序一次性读入的数据，2048），声卡本身所带的一些影响采样数据等的各种参数；调用API函数waveInGetNumDevs（返回UNIT，参数为空）检察并打开声音输入设备，即声卡；并进而使用waveInGetDevCaps得到声卡的容量（在waveInCaps中存有该数据，对其进行地址引用，从DWORD dwFormats得到最大采样率、声道数和采样位）；创建一个叫WaveInThreadEvent的事件对象，并赋予一个Handle，叫m_WaveInEvent，开始利用线程指针m_WaveInThread调用自定义的线程WaveInThreadProc；对结构WAVEFORMATEX中WaveInOpen开始提供录音设备。注意设备句柄的得到是通过对HWAVEIN 型数据m_WaveIn的引用。由于通过这种方式进行录音的文件格式是.wav，所以要先设置录音长度，以及对头文件进行一些设置：包括buffer的地址为InputBuffer的初始地址，大小为录音长度的两倍，类型。使用waveInPrepareHeader为录音设备准备buffer。然后使用waveInAddBuffer函数为录音设备送出一个输入buffer。最后使用waveInStart(m_WaveIn)打开设备。程序中WaveInThreadProc需要提出另外说明，因为通过这个线程我们可以实现采样和数据提取。该线程首先定义一个指向CsoundIn类的指针pParam，并将其宏定义为PT_S。而线程参数即为空指针pParam。使用WaitForSingleObject将录音过程设置为一旦开始就不中止（除非中止线程）。在此线程中做如下两个工作：将数据送入buffer，并将数据传入某个参数（其调用一个函数，将buffer中的数据送入该函数的参数*pt），而这些数据正是我们要利用和处理的数字化的语音信息。 2 声音的预处理：声音信息的预处理主要包括音头和音尾的判断，声音的预加重，分帧处理和窗化处理。 A 音头音尾的判断与提取：这是该项目的一个难点。由于我们的声音信号不是连续给出的，而且现场还有噪声的存在，所以我们必须通过适当的方法来判断采集的数据是不是我们所要的声音控制信号。这又是该项目的一个重点。若声音指令信号提取的不恰当，那么我们采样所得的数据就和我们实际的语音信号就会有很大的出入，这样不但会延迟语音识别的时效性，而且会降低对这些声音信号的识别率。对声音信号的提取，主就是确定音头、音尾的位置。常用的方法有过零率和短时距能量等几种。我们这里采用的就是过零率这个方法。首先对噪声取样，从这些噪声样本中得到噪声的上下限，将实时信号与这个门限进行比较，得到过零率。定义过零率Zcr如下：其中：利用过零率的大小来判断是否有声音信号进入，若 ( 为预设的过零率值)，则表示有声音信号进入，就找到了音头。在找到音头的情况下，若，则表示声音结束，也就找到了音尾。在环境噪声较大且比声音指令小的多的情况下可以对这个门限加一修正。音头和音尾之间的部分就是我们用以作为识
【实例截图】
【核心代码】
4744300845384491495.rar
└── 语音识别
├── amintest
│   ├── s1.wav
│   ├── s2.wav
│   └── s3.wav
├── amintrain
│   ├── s1.wav
│   ├── s2.wav
│   └── s3.wav
├── blockFrames.m
├── blockFrames.p
├── demo.m
├── disteu.p
├── melfb.p
├── mfcc.p
├── Read Me.txt
├── test
│   ├── s1.wav
│   ├── s2.wav
│   ├── s3.wav
│   ├── s4.wav
│   ├── s5.wav
│   ├── s6.wav
│   ├── s7.wav
│   └── s8.wav
├── test.p
├── train
│   ├── s1.wav
│   ├── s2.wav
│   ├── s3.wav
│   ├── s4.wav
│   ├── s5.wav
│   ├── s6.wav
│   ├── s7.wav
│   └── s8.wav
├── train.p
├── vqlbg.p
└── www.pudn.com.txt

5 directories, 33 files

标签：

实例下载地址