论文部分内容阅读
随着社会的进步,人们对智能化的追求日益强烈。语音识别是人类与机器沟通的一个桥梁,越发受人们的关注。人们想要与机器自然随意的交流,就要求机器能够对大词量的连续语句准确理解,能够抵抗口语化、噪音等干扰因素的影响。然而大词量的连续语音识别在现阶段还遇到了很多的困难,大词量的连续语音识别系统识别效率还不能令人很满意。而且在全球化的进程中,多种语言的混合使得语音识别更加困难,如在一句话中夹杂有英语和汉语,对于这种情况,现在的语音识别系统都将无法应对。为了解决大词量和语音连续性的难题,本文对基于拼音音元的语音识别系统进行研究,在声韵母语音识别系统的基础上进一步对识别单元进行细化,使用已有的一些成熟的语音识别技术,结合本文提出的语音音元分割方法和语音语义识别分离的架构形成一种全新的语音识别系统框架,并在matlab环境下进行了初步的实验研究。本文的主要内容包含如下三个部分。1)对基于拼音音元的语音识别系统相关的语音技术进行讨论,对语音识别中用到的语音模型原理、汉语拼音相关知识、语音信号预处理技术、语音特征参数提取技术、模版匹配等技术都进行了详细介绍;并对特征参数LPCC与MFCC做了比对,分析了MFCC的优势。2)建立基于拼音音元的语音识别系统,并详细介绍了系统中各部分技术的具体求解方式。包括双门限法查找语音端点、FE算法分割声韵母、语音音元分割方法、MFCC系数作为声韵母的特征系数、DTW算法实现特征模版匹配、字库的建立与查找等技术的实现。重点对多种语音音元分割方法进行了分析和对比,本文提出的基于语音包络的语音音元分割方法和基于极值的语音音元分割方法具有较好的效果,其中基于极值的语音音元分割方法兼具有低计算量和高分割率的特点作为基于拼音音元的语音识别系统中的基音分割技术。基于拼音音元的语音识别系统将声韵母采用了不同的特征模版库,并对韵母部分进行了更细致的分割,使用其基元用于特征提取,减少了特征模版的长度。此外本系统在模版匹配后得到的是声韵母的字母序,此时实现的是语音的识别;再根据字母序,使用智能拼音的方式将字母序转换为具体的文字序,实现语义识别。语音与语义的分离能够减少匹配难度和搜索量,还有利于多种语言的混合识别,也有利于与其他更成熟的系统,如智能拼音系统,进行合作,实现更加智能的效果。3)在Matlab上对多种音元分割方法做实验对比,并在多种噪音情形下做对比处理,基于极值的音元分割方法具有较好的分割性能。音元分割对这个基于音元的语音识别系统非常重要,影响到韵母模版特征的提取,并会影响到最后的语音识别结果。基于极值的音元分割方法对于音元分割准确率可以高达90.2%,在与比较高效的汉语拼音输入法的联合应用中将可以对其中的部分错识的拼音进行一定的更正,语音识别系统整体识别率将更高。本文通过对基于拼音音元的语音识别系统的研究和部分关键技术的实验分析,为语音识别建立了一种语音识别与语义转换分离的架构,为大词量的语音连续语音实时识别技术提供了一种新的解决思路。