基于HMM和DNN的语音识别算法研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:heroLi1126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的2016年,人工智能、虚拟现实、可穿戴设备等已成为科技行业研究的前沿和热点,这些研究都不可避免的需要人与计算机进行交互,语音比键盘鼠标的交互方式有更高的效率,且语音有复杂的情感表达,对交互的体验有很大的提升。因此语音识别技术必将作为人机交互最便捷的方式而被广泛应用。长期以来,在语音识别领域声学模型的建模都是使用GMM-HMM模型,该模型具有可靠的精度,并且有成熟的EM算法来进行模型参数训练,因此GMM-HMM模型广泛应用在语音识别领域。但因为GMM模型属于浅层模型,随着数据量的增加建模能力明显不足。深度神经网络(DNN)因其对复杂数据有更好的建模与学习能力,成为语音识别领域研究的热点。本文深入研究了基于HMM模型和DNN模型的识别算法,分析两个模型的优点以及不足,主要进行了以下工作:(1)对基于隐马尔科夫模型(HMM)的语音识别算法进行深入研究,并使用CMUSphinx语音识别平台构建一个机器人控制命令语音识别系统,对机器人十个控制命令的语音信号进行训练得到语言模型和声学模型。实验解码结果表明,该系统平均错词率为7.1%,具有良好的识别效果,在小词汇量汉语语音识别中具有较高的识别率。(2)针对HMM模型的不足,对深度神经网络中的深度信念网络(DBN)深入研究,使用Kaldi语音识别工具实现了大词汇量中文连续语音识别系统的构建,对中文开源语音库THCHS30进行DNN声学模型训练,实验结果表明DNN模型比三音子模型错词率降低了5.79%,DNN模型在大词汇量语音识别系统中具有更好的识别效果。同时本文使用Kaldi对TIMIT语音库训练得到大词汇量英文语音识别系统,取得了较高的识别率。(3)噪声干扰一直是语音识别的难点,在使用Kaldi进行声学模型训练的过程中,通过在训练和测试语音加入白噪声、汽车背景噪声、自助餐背景噪声进行DNN训练,并与多种模型对比,实验结果表明DAE模型在低维表示方面具有更好的效果,可以用于恢复噪声损坏的输入。
其他文献
近年来,酒店火灾事故屡次发生,这为火灾预防工作带来了极大的挑战。酒店建筑特点是体积大,狭长的走廊通道与客房相连,一旦发生火灾,走廊成为第一疏散通道。据统计结果表明,不
N6-甲基腺苷(m~6A)是发生在腺苷N6位的甲基化,这是真核m RNA上最普遍的内部修饰。而METTL3作为m~6A甲基化转移酶的核心成分,介导m~6A甲基化的“写入”过程,已被证实在多种癌
随着电子商务的飞速发展,消费者在享受着网络购物快捷、便利、高效的优势的同时,面临着格式条款所带来的合同自由以及公平性上的危机。因此,必须防范电子商务经营者通过格式
随着社会科技水平和生产力的提升,社会经济得到飞速发展,出现了垄断企业,对交易效率有了更高的要求,由此在19世纪,首先在保险行业和铁路运输行业出现了格式条款。而后自20世
利用 Matlab Web Server和 GUI图形用户界面功能开发了一款信号与系统实验平台。该实验平台包括了连续信号与连续系统的时域分析和变换域分析、离散信号与离散系统的时域分析
对钢筋混凝土构件、预应力混凝土构件以及腐蚀钢筋混凝土构件的疲劳性能研究现状进行了较为全面的阐述。为今后开展钢筋混凝土构件疲劳性能方面的研究和完善相关理论提供了参
自2015年慢生单胞菌目建立以来,已有沉积物慢生单胞菌(Bradymonas sediminis FA350T)、海滨卢金星菌(Lujinxingia litoralis B210T)以及沉积物卢金星菌(Lujinxingia sedimini
目的:探讨美托洛尔联合左卡尼汀治疗缺血性心肌病心力衰竭的临床价值。方法:选取收治的60例缺血性心肌病心力衰竭患者为研究对象,随机分为对照组与观察组各30例,其中对照组行
凝析气藏开发中后期储层反凝析污染现象加剧、气相有效渗透率急剧降低、注入气低效循环、凝析油采收率不高等问题,很大程度上降低了凝析气藏的开发效率。尤其对于那些开发中
<正>企业家是经济活动的重要主体,要深度挖掘优秀企业家精神特质和典型案例,弘扬企业家精神,发挥企业家示范作用,造就优秀企业家队伍。2017年第一季度经济数据显示GDP增速为6