多语言及语种无关的关键词语音搜索研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:calidaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对电话信道多语言环境下的语音识别和语音搜索的技术难题,进行了广泛而深入的研究,主要内容包括:   首先,在跨语种通用声学建模方面,本文对基于子空间高斯混合模型的多语言统一声学建模方法进行了研究。相比传统基于通用音子集的高斯混合模型,子空间模型的主要优点体现为:不再独立地估计每个高斯分量的均值向量、协方差矩阵和权重参数,而是引入子空间参数和状态向量参数显式地对高斯分量间的共性与差异进行建模。跨语种跨状态共享参数的规模在整个模型中所占比重很大,而各个语种特有的发音单元仅用相对低维的向量就可以描述,因此极大地压缩了参数空间。由于子空间模型结构紧凑,不需要对多个语种的音子集进行合并也能够鲁棒地估计通用模型参数,同时还可以避免由于合并不同语种音子而引起识别解码时的竞争与混淆,有利于提高识别精度。除此之外,跨语种通用的子空间模型相比传统模型更容易向新的目标语言扩展。   其次,在缺乏目标语种训练资源的极端情况下,本文研究了基于通用音子后验图的语种无关语音搜索方法。所谓语种无关是指在一定条件下,本文所讨论的语音搜索方法可以不依赖目标语种的训练资源。具体实现是在覆盖多种语言的通用音子集上训练跨语种通用的神经网络音子分类器,用音子后验概率向量描述一帧语音特征。考虑到在缺少目标语种训练资源的情况下,关键词难以表示为文本符号,因此本文采用语音样本作为查询关键词的输入形式。测试语音片段和关键词语音样本都被表示为通用音子后验向量的时间序列,即通用音子后验图;应用改进的动态时间规整算法对测试语音片段和关键词语音样本的通用音子后验图进行匹配,实现语种无关的语音搜索任务。   再次,为获取高质量的声学模型,通常需要积累数百甚至上千小时量级的语音数据及其对应的文字内容脚本。在搜集整理训练数据的过程中,对语音数据进行人工听音标注的环节最为费时费力。因此,本文对无监督声学模型训练方法进行了研究。无监督训练方法首先利用少量人工标注语音数据训练一个种子模型,然后用种子模型对大量无标注的语音数据进行解码识别,从而自动地对语音数据进行识别与标注,生成语音训练集。通过置信度对识别结果进行挑选,并将挑出的自动标注数据加入人工标注训练集,重新估计模型参数。上述无监督声学模型训练过程可以自动并迭代地进行,从而增量式地提升模型精度。   最后,为了提高语音搜索系统的准确率,本文研究了基于多种置信度融合的搜索结果可靠性评价方法。本文重点讨论了基于词图后验概率、基于纯声学后验概率和基于发音时长分布相似度这三种置信度评价方法,并通过进一步的分析与实验证明:三种置信度间运用不同来源的信息衡量搜索结果的可靠程度,存在较强互补性,融合上述三种置信度能够显著地提升检索系统的准确率。
其他文献
随着半导体集成电路的生产制造向着300mm晶圆的方向发展,半导体工厂自动化系统要求设备能够支持SEMI国际标准和相关的“设备工程能力”(EEC:Equipment Engineering Capabilit
无功优化问题自提出以来,一直都是配电网络潮流计算中研究的热点问题。现代电力系统中含有大量的非线性用电设备,这些设备大多呈现感性负载,这些设备的正常运行都需要合理范
随着现代工业过程不断向大型化、集成化、复杂化的方向发展,高效而稳定的在线监测和故障诊断技术是保证生产安全、提高产品质量、降低生产成本、增加经济效益、提升企业竞争
目前,电梯在城市化的进程中数量急剧增长,随之而来的能耗问题引起了社会的广泛关注。在实际生活中,电梯向上与向下的运送总量大体相当,驱动电动机经常在“拖动用电工况”与“制动
学位
高光谱成像技术是目前遥感技术发展的一个前沿技术,已被成功应用于许多领域。高光谱成像技术一个突出的优势是,在采集反应地物空间与几何特性的二维图像的同时,获取地物连续的光
软件复用作为一种提高软件生产率和质量的有效途径,被认为继面向对象方法之后的一个新的技术热潮。基于构件的软件开发(Component Based SoftwareDevelopment,CBSD)是实现软
随着光学、电子学以及计算机技术的不断发展,双目立体视觉技术因其获取信息量丰富、具有非接触式采集等特点,不仅成为工业检测、生物医学、虚拟瑚实等领域的关键技术,还成功地应
移动机器人技术在近几十年来得到了迅速的发展,被广泛应用到生产、生活的各个领域中,极大地促进了社会生产力的发展和人类生活水平的提高。移动机器人机械臂视觉控制系统是一个
在当今高度信息化的社会中,人们通过电视、网络、报纸、杂志等来获取大量的信息。统计图是人们在日常生活中常见的信息载体。由于其具有直观、通俗易懂、包含信息量大等特点被