中文语音关键词检出技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:ua8722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,深度神经网络(Deep Neural Network,DNN)与循环神经网络(Recurrent Neural Networks,RNN)已被成功应用于英文语音识别和语音关键词检出系统。本文主要研究了分别用深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)和带有长短时记忆单元的循环神经网络(Long Short Term Memory RNN,LSTM-RNN)对中文声韵母进行声学建模,从而优化现有中文语音关键词检出系统性能。本文首先介绍了连续语音识别的框架与原理,包括语音信号的特征提取、语音信号声学建模技术、发音字典和语言模型以及基于加权有限状态转换器的语音解码网络。其中语音信号特征提取包括感知线性预测系数、梅尔频率倒谱系数、滤波器组特征、基频特征四种声学特征。其次研究了基于连续语音识别器的语音关键词检出技术,包括基于网格结构建立索引、关键词搜索方法、关键词确认置信度以及语音关键词检出系统的评价指标。本文还研究了一种中文语音关键词检出系统,此系统采用高识别率的声韵母进行声学建模和检索,通过查表法将输入汉字字符形式的关键字转化为声韵母进行关键词检出。本文分别训练基于DNN-HMM的声学模型和基于LSTM-RNN的声学模型,搭建中文语音关键词检出系统,各得到了73.32%和79.84%的召回率,说明使用LSTM-RNN声学建模可以优化语音关键词检出系统性能。之后为搭建的中文语音关键词检出系统选取不同声学特征进行性能分析,结果表明基频特征可以一定程度上提高检出性能;然后采用融合置信度优化中文语音关键词检出系统性能;其次,对比两个系统在不同规格训练数据下的性能,讨论了各自的应用范围;最后,提出了一种召回率更高的基于系统融合的中文语音关键词检出系统。
其他文献
许渊冲教授是汉语古体诗英译的大家,他提出了译诗的“三美”翻译理论,主张从意、音、形三个层面上尽量保持和传递原诗的神韵。“三美论”对诗歌翻译理论做出了非常重大的贡献
陕西凤县民歌是产生与发展、并繁衍于陕西关中西府地区特有的口传民间音乐文化,在自然生态、经济文化的差异性以及历史传承等各种因素的影响下,展示了其独特的区域生态特色即
<正>从改革开放算起,我国拍卖行业恢复已经32年;从国家注册拍卖师制度建设起步算起,也已经21年。站在行业发展的关键节点,回望来路,我国注册拍卖师制度从无到有,拍卖师队伍从
<正> 从东南亚金融危机以来我国进出口增长情况来看,虽然2001年我国进出口总额达到5097.7亿美元,但近3年来进口的增长速度明显高于出口,同期,贸易顺差迅速下降,顺差额由1998
目的探讨应用静脉注射加雾化吸入糖皮质激素的序贯疗法治疗慢性阻塞性肺疾病急性加重期(AECOPD)合并2型糖尿病(T2DM)的有效性和安全性。方法入选患者60例,全部应用胰岛素泵降糖,
目的了解中小学女教师的更年期健康状况及教育、医疗服务需求与利用情况,为提高中年女教师身心健康、创建健康促进学校提供依据。方法对上海市卢湾区部分中小学校40岁以上的1
会议
目的:探讨超选择性动脉溶栓治疗急性大脑中动脉脑梗死的疗效和安全性。方法:收集我院就诊或住院治疗的120例急性大脑中动脉脑梗死患者,随机分为实验组和对照组,每组60例。两
目的研究白果内酯(Bilobalide,BB)对D-半乳糖诱导的痴呆小鼠的保护作用。方法采用D-半乳糖皮下注射建立小鼠衰老模型,通过跳台和避暗实验检测小鼠的学习和记忆能力;采用比色
本文综述了对记账符号通常的解释,指出了它们共同的缺陷。而后用规范方法从主流经济学和制度经济学两个层次讨论了会计处理对象的经济意义,并结合对复式簿记概念的界定,重新
众所周知,石油系统和电力系统的工作环境复杂,其工装必须具有防静电、阻燃、防爆、透气、安全等多种功能.因此具有这些功能的工装成为市场的热点,而如何顺应石油系统和电力系