基于深度学习的连续语音识别研究与应用

来源 :武汉理工大学 | 被引量 : 8次 | 上传用户:xuan21456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机性能的不断提升,使用深度学习进行语音识别变为了可能,语音识别的主要技术逐渐从高斯混合模型-隐马尔可夫模型(GMM-HMM)转向了深度神经网络-隐马尔可夫模型(DNN-HMM),在DNN-HMM模型下,使用DNN来替代GMM输出状态的概率。相比GMM,DNN有更深层次的结构,能逐渐通过低层次的特征提取出高层次的特征,而且众多研究人员通过实验证明,使用DNN-HMM的建模方式在语音识别上的识别错误率相比GMM-HMM模型下降了三分之一左右。在这样的背景下,本文围绕深度学习以及语音识别,进行了以下的研究:(1)使用HMM,结合深度学习的理论分别设计了基于CD-DNN-HMM和基于双向长短时记忆-隐马尔可夫模型(BLSTM-HMM)的语音识别模型,并针对这两个模型在TIMIT语音数据集下进行实验,验证并分析了BLSTM在时序建模上的优势。(2)通过分析HMM混合模型在语音识别任务中存在的不足,给出了使用双向长短时记忆-连接时序分类(BLSTM-CTC)模型进行语音识别任务,通过实验,证明了使用BLSTM-CTC进行序列识别任务的建模比HMM混合模型方便,而且识别率也更高。(3)使用LSTM作为隐层单元会带来较大的计算量,从而导致系统运行速度的下降,针对此问题,提出了使用门限循环单元(GRU)替代LSTM,并结合CTC进行语音识别的建模,在分别使用BLSTM和双向门限循环单元BGRU作为隐层单元的情况下,两者识别率相当,而且使用BGRU训练时间比BLSTM少了23%;另外对BGRU-CTC模型进行了改进,通过使用256隐层节点的2-BGRU-CTC模型,使其在音素识别上错误率降低到了33%。(4)针对在线英语口语学习的需求,通过使用2-BGRU-CTC语音识别模型,设计了口语评分系统,该系统通过动态规划的思想,对识别结果进行评分,并能够返回用户错误的发音单词。
其他文献
首先对三维回转体结构入水砰击问题进行仿真研究,并与文献中的试验结果进行对比,从而验证仿真方法计算三维结构入水砰击问题的可行性;其次研究三维实船首部入水砰击过程,分析
学术界认为《文心雕龙》的主导思想是儒家的,长期以来占主流;20世纪80年代,一批学者渐渐发现《文心雕龙》中的道家成分并不少于儒家;更有学者认为《文心雕龙》的主导思想是佛
蕨类植物是一类很古老的植物类群,其系统发生信息在漫长的演化过程中发生了很多改变,因此重建其系统演化关系是蕨类植物学家所面临的重要任务之一。近年来的分子系统学研究已
研究目的:为进一步提高钛合金口腔种植体的植入成功率,本实验对钛合金种植体进行微弧氧化(Micro-arc Oxidation简称MAO),以硅烷作为中间偶联剂(Silane Coupling Agent简称SCA
以钛铁粉、高碳铬铁粉、硼铁粉、硅铁粉等为原料,利用等离子熔覆技术在Q235钢表面原位反应合成了与基材冶金结合TiC/Fe-Cr金属陶瓷复合涂层.利用SEM,XRD和EDS等分析了涂层的
随着城市建设的发展,带有地下车库、地下设备用房的建筑以及地下通道越来越多.在上海地区,地下部分结构一般由钢筋混凝土现浇而成,并设计有一定的抗渗等级,但由于种种原因造
目的:本研究旨在利用高频超声定量评估产后女性腹直肌分离数值,探索恰当的诊断界值,并探讨腹直肌间距与女性年龄、身高、体重、产后时间、生产方式等相关因素的关系。方法:招
会议
近年来,纳米医学飞速发展,在肿瘤的治疗中具有巨大的潜力。例如,智能纳米载体能够实现靶向治疗,半导体量子点(QDs)可做为生物荧光探针。其中,ZnO量子点低成本、低毒性在生物医
葡萄膜炎是常见的自身免疫性眼病,我国约400万患者,在致盲眼病中占第3~10位,其知晓率低、控制率低、入院治疗率低、致盲率高是令人担忧的。葡萄膜炎患者体液免疫和细胞免疫均(
目的探讨外科患者术后疼痛的护理干预。方法回顾性分析我院在2011年1月至2013年1月间收治的80例条件相符患者的临床资料,把患者分为两组,每组患者各40例,观察组采用综合护理方法