论文部分内容阅读
基于自动语音识别(Automatic Speech Recognition, ASR)的检索技术是关键词检索(Spoken Term Detection, STD)的主流技术,资源受限情况下(Limited-resource Conditions)的关键词检索是当前STD重要的研究方向。本论文针对该领域的一些关键技术问题进行研究,主要集中在三个方面:首先在声学模型训练方法上进行研究,采用多种途径提高资源受限情况下的语音识别性能;其次,在不引入过多虚警的情况下,减少资源受限情况下关键词检索的漏警;最后,提升候选结果的置信度,改善检索性能。基于ASR的关键词检索非常依赖于语音识别的性能,而资源受限情况下的ASR的性能非常差,这极大地影响了STD的性能。针对这一问题,本文在声学模型训练方法上进行研究,采用多种方法提高ASR系统的识别率。本文中采用主流的深层神经网络(DNN)来建立声学模型,首先利用数据驱动的方法自动生成模型训练所需要的问题集;其次为了缓解因数据不足而造成的过拟合问题,使用跨语种共享隐层的策略来提高DNN的鲁棒性;并通过声道长度扰动(VTLP)和数据加噪等数据扩充的方法,增加训练数据。最后,采用DNN序列-区分性训练(SDT)的方法,如基于最大互信息量(MMI)、最小状态级贝叶斯风险(sMBR)等准则,进一步优化声学模型,提高资源受限情况下ASR系统的性能。在STD评估中,漏警和虚警是检索中常见的两种错误。而在实际的检索任务中,漏掉一个关键词的代价通常比引入一个虚警的代价要大。因此,对于STD系统,在不引入过多虚警的情况下,有效减少漏警至关重要。本文中,我们对资源受限情况下DNN声学模型的类概率分布进行研究,提出两种不同的平滑策略来降低STD的漏警,并采用关键词相关门限的判决方法控制虚警,改善检索性能。由于ASR不可避免地出现错误,STD需要根据候选结果的检索置信度做进一步的判决。通常情况下,单一系统的检索置信度可靠性较低,这一问题在资源受限的情况下尤为突出。为此,本文采用不同检索单元融合及多系统融合的策略,提升候选结果的置信度。在本文中,我们首先研究CN和FST这两种不同的检索单元的各自特点并按照不同的检索词长度将二者进行融合,各取所长,以提高STD的性能。随后在多系统融合中,我们将DNN-HMM和BN-GMM-HMM两种不同的识别系统以及词、音节、词片和音素四种不同的解码单元进行融合,进一步改善检索性能。使用这些改进方法,本文在藏语数据库和NIST OpenKWS2014泰米尔语(Tamil)数据库上进行了相关实验,获得了非常明显的性能提升。