RNN-DNN语音识别系统研究及其应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:guihuxinxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能可穿戴设备和智能家居市场的升温,语音识别作为其中最重要的人机交互手段,其市场也水涨船高。在非现场说话人认证系统中,良好的语音识别系统能让非现场说话人认证系统的人机交互更加自然。传统连续语音识别技术的主流代表是GMM-HMM,但是其识别率远不能满足商业应用需求。深度神经网络由多层非线性变换网络构成,较多的隐层数量和较多的隐层神经元数,使得深度神经网络能适应语音识别这样的复杂模式分类问题。2011年前后,微软、谷歌等公司开始将深度神经网络应用到语音识别的声学模型中,并取得飞跃性的进步,使其成为现代语音识别的主流技术。随着计算能力的提升,循环神经网络语言模型技术也得到了很好的发展,困惑度已经低于传统N-gram,在机器翻译、对话生成等领域的应用效果也超出了传统的N-gram方案的效果。所以本文将会使用循环神经网络语言模型取代N-gram语言模型,与DNN-HMM声学模型搭配来提升语音识别识别率。为了给本实验室的“远程说话人认证系统”对话控制模块的挑战响应检测提供语音识别支持,本文使用Kaldi深度学习工具箱,搭建一套基于循环神经网络语言模型和深度神经网络声学模型的中文大词汇量连续语音识别系统。本文的主要工作和贡献如下:1、通过理论分析和实验对比选择了声母加带调韵母方案作为中文语音识别系统的识别基元方案;通过理论分析和实验对比选择DNN-HMM作为声学模型;通过理论分析和实验对比选择循环神经网络作为语言模型,并最终证明该方案的优越性。2、将RNN语言模型和DNN声学模型进行结合,取得了比N-gram语言模型搭配GMM-HMM或者DNN-HMM声学模型的语音识别系统更高的识别率。3、搭建基于RNN语言模型和DNN声学模型的中文语音识别系统,并将其与远程说话人认证系统连接运行,取得良好的识别效果。
其他文献
<正>(2018年4月12日,福州)今天,我们怀着十分崇敬的心情,在这里隆重集会,纪念张廷发同志诞辰100周年,深切缅怀他为党和国家以及人民军队建立的不朽功勋,追思学习他的崇高精神
中国商业经济学会、上海市商业经济学会和上海服务经济研究会联合举办的全国市场经济与服务经济理论研讨会于1993年11月23日至25日在上海市召开。来自全国服务经济理论界和企
随着经济全球化、知识化趋势的不断加强,人力资源能力建设日益成为现代经济发展的核心支撑因素,因此,河北要在"十五"期间实现经济社会的跨越式发展,就必须在加强人力资源能力
大学生全面和谐的发展,是高校整体育人系统工程中的重要组成部分.培养和提高审美修养,是人才素质形成的必备条件.从培养审美情趣,把握审美标准,树立审美理想等方面,论述了大
分析了图书馆事业在人类社会实践活动中的地位及图书馆行业与其他行业的关系,阐述了图书馆事业发展滞后的客观必然性,指出这种滞后到一定程度所带来的社会负面影响,并初步提出了
播种育苗有利于大量地生产苗木,且能较稳定地保持物种遗传特性,苗木根系发达、抗逆性强、寿命长,所以,播种育苗是目前杜仲苗木生产的主要方式。本文是笔者撰写的杜仲人工播种
目的分析中药合理使用中常见的问题及应对方案。方法选取我院2017年1月~2018年1月收治的中药不良反应患者50例,回顾性分析其相关资料,对中药合理使用中的常见问题进行分析,并
反复移植失败的病因复杂,是辅助生殖面临的难题之一。中医药在调经助孕有一定治疗效果,可以通过调整性腺轴生殖内分泌、生殖免疫,促使基础卵泡募集、卵泡发育成熟,提高卵子配
生态文明建设是关系中华民族永续发展的根本大计。习近平生态文明思想深刻回答了新时代生态文明建设和生态环境保护一系列重大理论和实践问题,是推进生态文明、建设美丽中国的
报纸
<正>在北京奥运会、上海世博会、广东亚运会举办的带动下各大中小型酒店如雨后春笋般冒出来,这也导致了酒店业的竞争激烈。为了能在如此激烈的竞争中脱颖而出,要提高服务质量