基于案例推理的汉语关键词检出方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:habi_jia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词检出(KWS)就是在无限制的语音流中识别检出给定词汇的一种语音识别技术,它是自动语音识别(ASR)技术的一种。相比较于连续语音识别(CSR)技术而言,由于它只关注给定词在语音中是否存在,而不用识别全部语音内容,其实现相对容易。由于连续语音识别技术尚未达到实用水平,关键词检出技术在各类应用中扮演了重要的角色,如对话系统、语音文档检索、语音内容监控等。本文主要针对传统的基于HMM的关键词检出方法的不足,尝试提出一种基于持续学习策略的关键词检出新方法。在基于HMM的关键词检出技术中,声学模型是主要识别依据,而声学模型可以看作是训练语料中所蕴含的关于人类发音的声学知识的精简表达。然而在实际应用中,关键词检出性能普遍受到声学模型与待识语料不匹配问题的严重困扰。这主要是因为训练语料中所包含声学知识并不完备,一旦待识语料中出现了一些未被其涵盖的声学现象,检出性能就会严重下降。考虑到人类的发音及声学表示极易受到各种因素的影响,构建一个具有完备声学知识的训练语料集是不可能的,因而不匹配问题也就无法根本消除。本文的解决方法是,将服务提供商或用户也拉入到为关键词检出系统累积声学知识的任务中来,利用他们提供的识别结果的反馈,不断增加和修正系统已掌握的声学知识,使其不断向完备这个目标逼近。这需要一种具有持续学习能力的关键词检出技术,而传统的基于HMM的方法显然无法满足这一要求。为此,本文提出了一种基于案例推理框架的关键词检出方法。本文首先介绍了目前主流的基于隐马尔科夫(HMM)模型的关键词检出系统的建立方法。并通过实验给出了此基线系统的性能。然后介绍本文提出的基于案例推理(CBR)的关键词检出方法。首先讨论了选择CBR框架的原因。然后详细地描述了该框架中的各部分的具体实现方法:基于声学符号聚类的关键词案例的表示方法;案例库的树形索引方法;基于弹性匹配原则的案例匹配方法;案例库的搜索算法及搜索结果的关键词后验概率估计;反馈的处理方法。在本文的第四章,对此关键词检出方法进行了改进,在声学符号的聚类环节,充分考虑了此声学符号在声学特征空间和语言语义空间的可区分性要求,以及符号集尺寸对关键词案例搜索效率的影响,提出了一种复合的聚类准则,并基于合并式层次聚类算法来聚类声学符号集。文中通过实验验证了该关键词检出方法的性能,并证实了该方法具有持续学习能力。
其他文献
随着测序成本的下降,测序数据越来越多,以后每个人都会有自己的基因组数据,个人基因组时代即将到来。而这个时候限制基因组研究不在是数据的产生,而是数据的分析,基因组数据可视化
互联网上丰富的信息在方便人们工作生活的同时,也可能给人们精神生活带来不良影响,尤其色情信息会对青少年的身心造成严重影响,而其中色情图像是色情信息的重要载体。对互联网上
井下设备监控系统是煤矿监测监控系统的重要组成部分。传统的煤矿井下监控系统通常采用手持仪表或有线网络的方式,这在开采环境恶劣的井下,会存在系统布线困难、成本较高、灵活
学位
随着网络应用的快速发展,网络面临的威胁也在急剧的增加。主要表现在有价值信息的丢失、被盗、损坏或误用以及计算机系统的损坏。网络安全是一个非常宽泛包罗万象的问题。通常
随着社会化媒体和移动互联网应用的普及,现实世界中的个体在不同的网络虚拟空间中形成了各种社会网络,例如微博社会网络、即时通讯社会网络等,这些关系网络以聚合的方式形成了一
在机器视觉以及计算机图形学领域,基于图像的建模与绘制技术是一个富有挑战性的研究课题。本文对基于图像的建模与绘制过程中使用的算法进行了深入研究。首先提取图像的SIFT
随着我国医疗服务信息化的推进,电子病历(Electronic Medical Record, EMR)已经变成医院信息系统的重要组成部分。随着时间的推移,很多医院的信息系统中产生大量病人信息,如
学位
学位