论文部分内容阅读
目前,语音识别日渐成为优质服务行业产品的必备功能,因此语音识别的准确度及高效性成为产品走向应用的关键。业内研究表明,识别高效性与训练效率的高低有着直接的关系,而导致训练效率高低的主要原因在于声学模型权值的适应性调整是否能完全契合训练误差变化而带来的冗余计算及拟合程度低的问题。另外,要提高语音识别的准确率,改进端点检测方法与进行数据集增噪是其关键。结合国内外的研究成果,分析研究语音与噪声的属性特征差异来增强短时能量,用以提高门限判决灵敏度;采用对差异性数据集进行加噪处理,增强识别鲁棒性。通过改进反向传播算法来约束权值变化范围,避免振荡现象,缩短训练时间。最后,搭建语音识别原型系统,验证算法有效性。本文的主要工作如下:(1)提出增强短时能量的双门限端点检测法和差异性数据集加噪法。针对背景噪声的随机性而导致端点检测准确度不高和模型在特定环境下语音识别率低的问题,本文通过分析短时能量和自相关函数余弦角值之间的特征属性异同点,计算经自相关函数余弦角值端点检测法得到的语音段短时能量,将有效语音短时能量与自相关函数余弦角值相比,达到增强语音短时能量的目的,从而增强阈值判决端点位置的能力。又从谱减法的逆向角度出发,将具有环境特殊性的背景噪声加入经端点检测后的训练集语音中,通过训练集的频谱域来补偿数据集,减少了训练集与应用环境下语音的差异,增加了训练数据量并提高了模型对含噪语音识别的鲁棒性。(2)提出一种缩小权值范围反向传播(NWBP)算法。在真实音识别系统中,存在着海量训练数据和卷积神经网络的超大规模模型参数导致的训练效率低等问题,针对这些问题,NWBP算法围绕网络参数训练后期寻找误差极小值时易出现的振荡现象,采用K-MEANS算法获取逼近误差极小值的种子节点,利用边界值规则缩小权值变化范围来减少振荡现象发生,使得网络误差尽快收敛,提高训练效率。通过仿真实验,NWBP算法在复杂卷积神经网络的权值训练过程中相比其他算法拟合程度和收敛速度得到提升,一定程度上减少了冗余计算,缩短了训练时间,且该算法相比在简单网络中更能体现加快网络收敛的优势。(3)搭建语音识别原型系统。在SRILM语言模型训练工具和PocketSphinx解码器工具的基础上,设计并实现原型系统的各模块功能,采用不同环境下的语料来验证提出算法的有效性。