论文部分内容阅读
现代社会已经步入“大数据时代”,计算机技术的飞速发展,推动了人工智能的热潮。语音识别技术(ASR)就是其中一项与人们生活息息相关的人工智能应用。现有的语音识别技术主要基于深度神经网络进行。但在建立声学模型的特征描述时,使用的还是传统的线性预测编码(LPC)参数,其本质是时间序列中的AR模型。虽说在当前成熟的语音识别产业中,有大量样本库做支撑,AR模型也能发挥不错的效果,但对于新兴的方言识别技术、或小语种识别技术来说,没有足够庞大的样本库,则可以考虑在模型算法上进行优化,以提高识别正确率。本文正是基于这一思想,在分析了前人所做的改进后,认为将LPC参数改进为AR-GARCH模型的形式,能够起到优化效果。并且引入了BP神经网络算法来检验改进后的正确率是否有显著提升。首先,选取了开源的90个汉语韵母o与90个韵母i作为样本数据,并进行切割、降噪等处理,提升样本数据质量。接着分别对样本拟合AR(12)模型、AR(12)-GARCH(1,1)模型、ARMA(1,4)模型,得到每个样本的参数估计值,输出为语音特征参数序列。将参数序列与离散化的样本标签组合成数据样本集,分为训练集和测试集,投入Tensorflow框架下的BP神经网络进行训练,将训练得到的模型应用到测试集上。测试结果显示,AR-GRACH模型的语音识别正确率最高,为74.07%,AR模型为61.11%,ARMA模型为68.52%。有效地验证了 AR-GARCH模型的识别效果要优于AR模型和ARMA模型。为了进一步验证,本文增加样本的数量,最终发现,随着样本量的增长,三种模型的识别正确率都有提升的趋势,并且正确率越来越接近。可以认为,AR-GARCH模型在样本量小的时候,提升正确率的效果更佳,而ARMA模型虽然有提升效果,却不够稳定。总体来说,AR-GARCH模型满足了稳定提升和优化精度两个方面的需求,在未来的方言识别、个性化定制服务等方面具备一定的参考价值。