论文部分内容阅读
在过去的40多年间,语音识别在隐马尔科夫模型(HMM)和高斯混合模型(GMM)的框架下得到了很大的发展,在多种应用环境中都取得了较好的性能表现。近年来,随着硬件水平的提升和学习算法的进步,基于神经网络,特别是深层神经网络(DNN)的声学建模技术再次引起了语音识别领域的关注,相比GMM,DNN体现出了更强的建模能力,但同时也具有更大的参数规模。随着智能手机的流行,智能家居概念的兴起,在嵌入式平台上搭载先进的语音识别系统的需求也越来越多。嵌入式系统的计算和存储能力往往弱于普通电脑和服务器,DNN的大规模参数量和高计算复杂度阻碍了深度学习技术在嵌入式设备上的应用。本文针对低复杂度DNN声学建模,进行以下几方面的工作: 1.对目前国内外研究团体在低复杂度DNN建模方面的研究进展进行了调研,并且分析了各种技术的优缺点。 2.利用DNN模型权值矩阵的稀疏性对权值矩阵进行裁剪,并进一步提出可以将目标函数对权值的二阶微分作为权值重要性的评判依据,并据此对权值矩阵进行裁剪。DNN的权值矩阵具有很强的稀疏性,大多数的权值幅度非常的小,可以以权值幅度为标准,对DNN模型的权值进行大规模的裁剪。为了提高裁剪的精度,本工作还进一步利用对角化的Hessian矩阵来计算权值的重要性,并以此为标准对DNN权值进行裁剪。 3.引入主成分分析的方法对DNN权值矩阵存在的冗余进行分析并且消除这部分冗余。在本工作中,DNN的权值矩阵被近似地看作一组向量的集合,我们首先验证了这组向量满足主成分分析所需要的零均值条件,这样就可以利用奇异值分解找出DNN权值矩阵的主成分,通过将次要的主成分裁剪,最终将满秩的权值矩阵转换成了两个低秩矩阵的乘积,从而大大降低了模型规模和计算量。 4.提出利用多级矢量量化对DNN进行压缩的方法,该方法是对之前提出的矢量量化压缩DNN的方法的改进。对DNN进行矢量量化会造成明显的性能损失,本工作首先通过实验分析了量化误差与错误率之间的关系,为了有效地降低量化误差,本工作并没有呈指数式地增大码本规模,而是引入第二级量化,对矢量量化后的残差向量进行量化,通过这种方式,最终只需要两个非常小的码本,就可以使得DNN性能几乎不下降,并且本工作提出的改进方法依然具有原方法的节省空间和计算量的优点。 5.提出了一种快速确定DNN超参数对性能影响的方法。在工业界,DNN的超参数(隐层数和节点数)的确定一直都是一个依靠经验和试验的过程。通过实验我们分析了影响DNN性能的几个因素—隐层数,隐层节点数,训练数据量。根据实验探究的结果,本文提出一种迭代式的DNN节点裁剪方案:在训练阶段训练一个较大规模的模型,然后迭代地对其进行节点裁剪,在这个过程中,我们可以在很短的时间内得到各种规模的模型。通过实验,这些模型与直接从头训练的等参数量DNN性能相当,然而获得这些模型所需要的时间却少很多。