融合多种特征的基于深度学习技术的汉语语音识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cdwkevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的重点是深度学习技术在大词汇量连续汉语语音识别系统中的应用。深度学习技术在许多任务中凭借其层级特征学习能力和数据建模能力,取得了超过以往浅层学习技术的性能。深度学习技术已经在包括语音识别在内的语音处理领域得到了广泛的应用并且取得了巨大的成功。  汉语作为世界上使用人数最多的语言,有如下特点:  1.汉语是一门声调语言.在汉语中,使用不同的声调发同一个音素时可以表达不同的涵义,声调信息可以起到区分不同词语含义的作用。因此对声调信息的准确建模可以提高汉语语音识别系统的性能。  2.其次,因为汉语使用人数众多而且分布区域广泛,所以形成很多种地方方言,这些方言的使用在使用普通话时,其普通话往往带有口音。口音是影响汉语语音识别系统的关键因素,往往会降低语音识别系统的性能。对口音信息更好地建模可以提高带口音汉语语音识别系统的性能。  深度学习技术中使用的模型与传统的浅层模型相比,除了可以被看作一个深层统计模型外,又可以被看作一个特征学习器,如何更好地将深层模型的这两个特点相结合用于汉语语音识别系统以提高系统的性能具有重要的意义。  本文主要有以下三个方面的创新:  1.提出了基于深度学习技术的汉语语音声调识别模型。相对于浅层模型,深层模型具有更好地融合不同类型的输入特征,具有更强的特征学习能力,从而取得了更好地声调识别性能。在此基础上,使用语音谱特征和基频特征作为深度神经网络声学模型的输入,提高了汉语语音识别系统的性能。  2.在口音分类任务中,提出了基于深度学习技术的口音分类模型。相对于传统的高斯混合模型,深层神经网络是一种判别式模型,并且它针对于该任务可以逐层学习出更具区分性的特征,因而提高了口音分类的准确率。除此之外,我们发现上下文信息对提高口音识别的准确性也有帮助。  3.对于带口音的汉语语音识别研究,提出了使用融合Ⅰ-vectors特征以及模型自适应技术的算法来提高了识别性能。特征融合技术是指融合使用声学谱特征和包含口音信息的说话人特征,以达到显式表示输入特征中的口音信息的目的;模型自适应技术是指针对于某种特定的口音,使用该种口音的训练数据对声学模型进行模型自适应。基于深度神经网络可以将特征学习和统计建模两种能力结合在一起,本文提出一种将特征融合和模型自适应技术相结合的方法,它在深度神经网络的输入层融合谱特征和说话人相关特征,在输出层对不同口音进行模型自适应。它可以将两种方法简单有效地结合在一起,显著提高带口音汉语语音识别系统的性能。
其他文献
该文论述了一种可重构的高性能机器视觉系统的体系结构及其软件与算法实现,突出系统的通用性、有效性灵活性.根据Marr视觉理论和主动视觉技术,采用软件/硬件协同设计技术,高
高超声速飞行器具有广阔的军事和民用前景,已成为当今航空航天领域研究的焦点之一。飞行控制系统作为高超声速飞行器的关键分系统之一,是实现其安全飞行和完成复杂任务的重要保
该文首先介绍了协作计算模型的发展和三层结构Web数据库技术的相关理论,以及三层结构Web数据库应用系统的方案设计与实现技术.该文的第二部分,是三层结构Web数据库应用实践—
嵌入式智能住宅系统将计算机技术、通信技术和控制技术相结合,将它们运用到传统的住宅系统中以使住宅内的设备和应用系统结合成为一体,更好地实现安全、经济、舒适和方便等各
该文全面回顾了多媒体数据压缩算法的发展历程,扼要介绍了常用的多媒体数据压缩算法,特别是在MPEG-4中用到的哈夫曼编码、算术编码、行程编码、DPCM预测编码、DCT变换编码、
该文研究了现有的连续系统和离散系统的鲁棒分析和设计的方法,分析了这些方法各自的优点和缺点,在此基础上提出了一种新的采样控制系统的鲁棒控制器的设计方法.该方法以连续
本文首先介绍了机器人及并联机器人研究的发展状况,其次介绍了微分几何解耦控制的基本理论,包括微分几何控制理论中的基本概念、基本定理、推论以及一些命题和结论。然后介绍了
智能建筑(包括智能大厦、智能小区和智能家居等)综合信息服务与管理是系统集成发展的必然趋势。基于局域网的智能管理系统(LIMS)正是为了达到这一目的而设计和构造的,它运用了最新
配电自动化是配电网发展的必然趋势.由于配电系统本身固有的地理分布特性,地理信息系统是配电自动化系统中不可缺少的部分.地理信息系统在配电自动化系统中的应用,使得配电自
该文介绍了遗传算法的基本原理和一般过程,并详细讨论了算法中的一些关键问题.介绍了如何建立纵断面优化问题的数学模型,并对它的具体方法步骤进行了详细的讨论.纵断面优化设