大词表自然语音关键词识别系统的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xiaoqiudyy1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别作为人机交互的一种重要方式,有着广阔的应用前景。关键词识别是语音识别的一种特殊情况,同传统的连续语音识别相比,有正确率高,实用性强等特点,因此关键词识别技术是近年来语音识别领域的一个研究热点。本文的主要内容是研究实现一个与说话人无关、与任务无关、针对自然语音、大关键词表的关键词识别系统。本文首先介绍了关键词识别的相关技术,包括语音的预处理与特征参数的提取,声学层HMM模型、语言学模型和关键词搜索及关键词确认。然后依据本文目标,设计本文的系统框架,包含预处理和特征提取、语音识别器、关键词搜索和置信度确认四大模块。在关键词搜索模块中,本文对语音识别器的两种结果,即N-Best音节格和音节网格进行实验讨论,实验结果表明,基于音节网格的关键词搜索,在检测率和运行速度上都优于基于N-Best音节格的关键词搜索。置信度确认中,阐述了目前常用的三种置信度:基于声学模型的置信度、基于后验概率的置信度和基于动态排名信息的置信度。通过实验及理论分析三者的优缺点,在此基础上,对其进行置信度融合得到两种混合置信度:一种是基于声学置信度和后验概率的混合置信度,另一种是基于动态排名和后验概率的混合置信度。实验结果表明,两种混合置信度较单独使用一类置信度性能更佳,且基于声学置信度和后验概率的混合置信度效果更优。基于上述实验研究结果,采用实验得到的最优方法对系统进行实现,用1小时的电话信道口语对话语音对系统进行测试,实验结果表明针对一个500个关键词的检测任务,系统的品质因素为74.50%。
其他文献
基于内容的视频检索技术通过镜头边界检测、关键帧提取、特征提取、特征匹配等方法对数字视频作出摘要、浏览和检索,实现对海量视频信息的有效管理。镜头边界检测技术正是基
在2012年4月的CCMT2012上,结合这次展会主题“紧跟需求升级,加速结构调整”,西门子展台也贯彻了“产品定义在中国”的发展战略及其覆盖中国市场全系列产品和服务的实力和决心
互联网和多媒体技术的迅速发展,给人们带来极大的方便,同时也容易导致非法复制和肆意传播多媒体的问题,从而对多媒体所有者的知识产权造成侵害。随着数字音乐作品的广泛传播,
压缩感知(Compressed Sensing, CS)是Candes、Donoho等人于2006年提出的一种充分利用信号可压缩性或稀疏性进行信号采集、编解码的全新理论。CS在远小于奈奎斯特(Nyqusit)采
随着计算机网络技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富且内容复杂多样,其中既有大量进步、健康的信息,也不乏反动、迷信的内容。因此,如何对这样庞大的信息
本文研究了基于OFDM系统的压缩感知信道估计中导频模式的选取和DDLMMSE信道估计算法。建立了压缩感知应用于信道估计中的数学模型,并对压缩感知信道估计中如何选取最优的导频
在成像过程中,相机与物体之间的相对旋转运动会导致得到的图像中某些有用信息被掩盖。旋转运动模糊因其模糊的空间变化的特性,近年来成为数字图像处理领域的主要研究课题之一
随着未来无线通信的发展,人们对高质量、高速率通信的需求日益增长,而频谱资源利用率较低是要解决的主要问题。传统的非自适应链路技术为了保证通信质量,大都是按照信道质量
节能型城市生活能源系统能够有效缓解能源危机、减轻环境压力,是国际上新的节能研究热点。我国大力推进城市化进程和节能减排工作,迫切需要符合中国国情的城市能源系统理论和
低压电力线载波自动抄表是一种利用低压电力线作通信媒介,采用传感、通讯、计算机网络技术完成抄读和处理用户用电信息的智能化技术。由于该技术利用现有电力线进行通信,无需