论文部分内容阅读
随着计算机与信息技术的继续发展,语音交互技术必将成为人机交互的必要手段。语音识别技术就是让机器听懂人类的语音并执行相关的动作,是一个研究的热点。连续数字语音识别是语音识别的一个重要分支,它在现实中具有广泛的应用前景,在互联网,通信,军事,国防,人机交互等方面都有重要的应用价值。虽然这方面的研究有很多,但目前仍有许多问题有待进一步探索。本文主要研究的是基于HTK的汉语连续数字的识别以及相关研究,首先对HTK(Hidden Markov Model Toolkit)的软件结构以及HTK工具包进行了分析,搭建出基于HTK的汉语连续数字语音识别系统,测试了声学模型,高斯混合分量和MFCC维数对系统识别率的影响。接着,在理解了基于HTK的语音识别系统的搭建过程的基础上,实现了基于HTK的语音拨号系统,是对电话号码和人名的语音识别。然后,进行了基于ATK(API of HTK)的实时语音识别的初步研究。讨论了使用ATK建立一套实时语音识别系统的过程,并且实现了基于ATK的实时语音拨号系统,但是识别效果不理想。对较为复杂的语音识别网络,开展了HTK中语音识别网络的研究,导出了一种优化语音识别网络的方法,并且从理论上证明和实验上验证了其正确性。最后,针对语音识别和因特网传输技术的特点,设计出简单的语音识别网络传输方案:采用客户/服务器模式,在客户端提取出语音信号的特征参数,采用TCP协议把特征参数传输给服务器,由服务器完成识别与训练的工作。系统使用HTK和Visual C++编程工具,使用MFC中封装的Windows Sockets类完成了语音特征参数和识别结果的网络传输,实现了一个初步的基于网络传输的连续数字语音识别系统。