资源受限情况下基于ASR的关键词检索研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:chenzy43111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于自动语音识别(Automatic Speech Recognition, ASR)的检索技术是关键词检索(Spoken Term Detection, STD)的主流技术,资源受限情况下(Limited-resource Conditions)的关键词检索是当前STD重要的研究方向。本论文针对该领域的一些关键技术问题进行研究,主要集中在三个方面:首先在声学模型训练方法上进行研究,采用多种途径提高资源受限情况下的语音识别性能;其次,在不引入过多虚警的情况下,减少资源受限情况下关键词检索的漏警;最后,提升候选结果的置信度,改善检索性能。基于ASR的关键词检索非常依赖于语音识别的性能,而资源受限情况下的ASR的性能非常差,这极大地影响了STD的性能。针对这一问题,本文在声学模型训练方法上进行研究,采用多种方法提高ASR系统的识别率。本文中采用主流的深层神经网络(DNN)来建立声学模型,首先利用数据驱动的方法自动生成模型训练所需要的问题集;其次为了缓解因数据不足而造成的过拟合问题,使用跨语种共享隐层的策略来提高DNN的鲁棒性;并通过声道长度扰动(VTLP)和数据加噪等数据扩充的方法,增加训练数据。最后,采用DNN序列-区分性训练(SDT)的方法,如基于最大互信息量(MMI)、最小状态级贝叶斯风险(sMBR)等准则,进一步优化声学模型,提高资源受限情况下ASR系统的性能。在STD评估中,漏警和虚警是检索中常见的两种错误。而在实际的检索任务中,漏掉一个关键词的代价通常比引入一个虚警的代价要大。因此,对于STD系统,在不引入过多虚警的情况下,有效减少漏警至关重要。本文中,我们对资源受限情况下DNN声学模型的类概率分布进行研究,提出两种不同的平滑策略来降低STD的漏警,并采用关键词相关门限的判决方法控制虚警,改善检索性能。由于ASR不可避免地出现错误,STD需要根据候选结果的检索置信度做进一步的判决。通常情况下,单一系统的检索置信度可靠性较低,这一问题在资源受限的情况下尤为突出。为此,本文采用不同检索单元融合及多系统融合的策略,提升候选结果的置信度。在本文中,我们首先研究CN和FST这两种不同的检索单元的各自特点并按照不同的检索词长度将二者进行融合,各取所长,以提高STD的性能。随后在多系统融合中,我们将DNN-HMM和BN-GMM-HMM两种不同的识别系统以及词、音节、词片和音素四种不同的解码单元进行融合,进一步改善检索性能。使用这些改进方法,本文在藏语数据库和NIST OpenKWS2014泰米尔语(Tamil)数据库上进行了相关实验,获得了非常明显的性能提升。
其他文献
非合作单站无源定位跟踪技术以非合作的外辐射源作为照射源,具有高度的隐蔽性;其单站定位避免了多站定位复杂的信号处理过程和时间同步,具有更好的简便性和灵活性,因此成为现代电
为了确保UMTS(Universal Mobile Telecommunication System)技术的长期竞争力,3GPP于2004年底启动了长期演进(LTE)项目。该系统的一个目标是在上行链路能够提供比R6版本中的HS
在当今信息时代,高质量数码成像设备已得到普遍使用,生活中无处不在的网络又提供了大量的图片资源和视频分享网站,使得数字图像和视频在人们的日常生活中起到日益重要的作用
近些年来,作为声音识别中的一个新兴的研究方向,“声音事件识别”因其广泛的应用前景,越来越受到研究学者们的关注。通过对声音事件,例如敲门声、掌声、脚步声,甚至鸟鸣声等,
随着当今互联网时代下云计算和云存储的飞速发展,网络云端存在的大量图像数据给业界带来了巨大的存储压力。与此同时,这些数据中包含大量的相似图像。它们通常在云端以图像集
扩频通信将信息通过宽带传输,传输带宽比实际传输信息所需的最小带宽要大得多,从而实现抗蓄意干扰和非蓄意干扰、截获率低、保密性好、提高信噪比、安全通信。扩频通信系统是一
随着无线通信和移动计算技术的发展,人们对无线宽带接入提出了更高的要求。然而现今的无线网络采用的通信方式在覆盖范围和网络扩展的灵活性上大多都很有限,无线mesh网络的出现
震动传感器相比于红外、磁敏、热敏等其他类型传感器,具有受外界环境因素影响比较小,探测灵敏度较高等优势,并且震动传感器阵列可以做到智能化识别目标信号。震动传感网防入