基于卷积神经网络的连续语音识别算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:liyanhao1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,语音识别日渐成为优质服务行业产品的必备功能,因此语音识别的准确度及高效性成为产品走向应用的关键。业内研究表明,识别高效性与训练效率的高低有着直接的关系,而导致训练效率高低的主要原因在于声学模型权值的适应性调整是否能完全契合训练误差变化而带来的冗余计算及拟合程度低的问题。另外,要提高语音识别的准确率,改进端点检测方法与进行数据集增噪是其关键。结合国内外的研究成果,分析研究语音与噪声的属性特征差异来增强短时能量,用以提高门限判决灵敏度;采用对差异性数据集进行加噪处理,增强识别鲁棒性。通过改进反向传播算法来约束权值变化范围,避免振荡现象,缩短训练时间。最后,搭建语音识别原型系统,验证算法有效性。本文的主要工作如下:(1)提出增强短时能量的双门限端点检测法和差异性数据集加噪法。针对背景噪声的随机性而导致端点检测准确度不高和模型在特定环境下语音识别率低的问题,本文通过分析短时能量和自相关函数余弦角值之间的特征属性异同点,计算经自相关函数余弦角值端点检测法得到的语音段短时能量,将有效语音短时能量与自相关函数余弦角值相比,达到增强语音短时能量的目的,从而增强阈值判决端点位置的能力。又从谱减法的逆向角度出发,将具有环境特殊性的背景噪声加入经端点检测后的训练集语音中,通过训练集的频谱域来补偿数据集,减少了训练集与应用环境下语音的差异,增加了训练数据量并提高了模型对含噪语音识别的鲁棒性。(2)提出一种缩小权值范围反向传播(NWBP)算法。在真实音识别系统中,存在着海量训练数据和卷积神经网络的超大规模模型参数导致的训练效率低等问题,针对这些问题,NWBP算法围绕网络参数训练后期寻找误差极小值时易出现的振荡现象,采用K-MEANS算法获取逼近误差极小值的种子节点,利用边界值规则缩小权值变化范围来减少振荡现象发生,使得网络误差尽快收敛,提高训练效率。通过仿真实验,NWBP算法在复杂卷积神经网络的权值训练过程中相比其他算法拟合程度和收敛速度得到提升,一定程度上减少了冗余计算,缩短了训练时间,且该算法相比在简单网络中更能体现加快网络收敛的优势。(3)搭建语音识别原型系统。在SRILM语言模型训练工具和PocketSphinx解码器工具的基础上,设计并实现原型系统的各模块功能,采用不同环境下的语料来验证提出算法的有效性。
其他文献
目的探讨自发荧光支气管镜(AFB)检查在肺癌早期诊断中的应用价值。方法 297例肺癌患者,其中行AFB检查并经病理检查确诊者96例,行普通电子支气管镜检查并经病理检查确诊者201
1943年冬中国驻印军与美英盟军协同战斗,自缅北反攻侵缅日军,1945年初会师芒友,中印公路(又称史迪威公路)全部打通,战绩辉煌,扬名中外,给日军以沉重打击。国民党政府国防部史
期刊
在不同储藏条件下,对糙米中过氧化氢酶活性变化规律进行研究。采用储藏条件为:氧气浓度分别是2%、5%、21%,温度分别为15℃、20℃、30℃,水分分别为13.5%、14.5%、15.5%。以此
本文在对大学生的消费结构及消费行为特征进行调查和分析的基础上,总结归纳出部分大学生消费中存在的一些问题,并提出了解决这些问题的方法与途径,强调引导大学生树立合理、适度
随着我国逐步进入老龄化社会,医疗纠纷也日益增多,医疗损害赔偿问题成为社会的热点问题。本文分析了医疗损害赔偿的概念和性质,指出了了我国医疗损害赔偿存在的问题,并就我国
所谓的城中村指的就是在城乡二元体制之下位于城市之中的农村,因为毗邻城市或者位于城市包围之中,所以具有巨大的区位优势与经济价值。与此同时,随着中国城市化进程的不断加
地形地质条件是影响爆破地震波传播的关键因素,露天矿山特殊的深凹地形条件造就了其爆破地震波传播的特殊性,传统的萨道夫斯基公式已无法准确预测矿山周围的爆破振动速度峰值
本文采用了变性梯度凝胶电泳(DGGE)技术和16S rDNA基因文库分析相结合的方法,对辽宁大连地区罹患辣椒疫病和黄瓜枯萎病的植株与健康植株根际土壤样品的细菌种群多样性进行了研究
阅读教学该有定论了─—重申“小学阅读课十要”中央教科所张田若先说说小学阅读教学是不是可以有定论。我认为可以。因为阅读教学既是科学又是艺术,艺术部分不能有定论,科学部
作为澳大利亚被广泛认可的最前沿雕塑家之一,杰夫·巴特利特(Geoff Bartlett)并没有固定的、可辨认的风格。不过,尽管他也使用各种各样的媒介,人们还是能毫不费力地认出他与