论文部分内容阅读
“人工智能”“深度学习”等词汇自从2016年3月AlphaGo战胜人类围棋高手李世石后,就走入了大众的视野。“学习”,就是利用以往的经验对未知的情况作出有理有据的判断。现在,计算机被赋予了要像人类一样能对接触到的环境和事物具有识别判断的能力要求。深度学习的目的就是研究探索生物的神经网络结构,进而可以模仿人脑感知外部音视频刺激的方法。作为人机交互的重要技术,语音识别与控制成为了人工智能领域的研究重点之一。纵观语音识别技术的发展历程,从基于隐马尔可夫框架的传统声学建模方式,到神经网络在此领域的应用,识别准确率得到了稳步的提升。在进行语音识别的神经网络中,具有代表性的有循环神经网络、长短期记忆网络和卷积神经网络。相比其他神经网络来说,卷积神经网络在结构上更接近于生物神经网络,它的网络结构对平移、缩放等变形均具有高度不变性,同时还有权值共享的特点,在图像识别中被普遍应用。本文将卷积神经网络引用至语音识别中,具体开展了以下工作:1、使用卷积神经网络对语音信号进行识别,并利用卷积层这个特殊层,也就是特征提取层进行语音特征的提取与处理,大大提高语音特征提取的速度与效果。2、在LeNet-5的基础上进行了网络改造,构造了两个网络模型。第一个模型包含输入层,两层卷积层,两层池化层,一层全连接层和包含Softmax和交叉熵函数的输出层的七层卷积神经网络模型;第二个模型是在第一个模型的基础上,多加了一层卷积层和一层池化层的九层卷积神经网络模型。通过适配激活函数、优化学习率和步长,对两个模型的同一样本集的识别准确率进行了测试和对比。3、加入了改进的Dropout策略。本文改进的随机稀疏度Dropout策略与Dropout策略的不同之处在于,每次训练的时候是按随机比例将部分神经元“丢弃”,而不是按照固定比例“丢弃”,以防过多携带重要特征的神经元的激活值被置零。经过实验数据对比后可见随机稀疏度Dropout策略比传统的Dropout策略对提升网络模型性能有更好的作用,能提高模型的泛化能力。4、提出了使用平均池化层对特征进行平滑处理的想法。本文在模型最后的池化层中,先使用极大池化,再使用一次平均池化将待输出的语音特征做平滑化处理,预期达到减少输入至全连接层参数的目的。经过实验数据对比后可见,使用平均池化层对特征进行平滑处理的方式,能有效提升网络模型在测试集上的准确率。