论文部分内容阅读
在各国交往越来越密切的背景下,英语口语学习的重要性不言而喻,良好的英语口语水平有利于提升个人在社会的竞争力。然而,很多以英语为第二语言(L2)的学习者,往往会受到第一语言(L1)发音习惯的影响,导致不能进行准确发音从而影响沟通。随着在线教育的兴起,多数人会选择利用碎片时间进行英语口语练习,因此计算机辅助发音训练(CAPT)系统越来越受到人们的欢迎。其中,自动发音检错与诊断(MDD)模块作为CAPT系统的关键模块,能判别的错误类型和检错性能还需进一步拓展和提升。
深度学习的出现为人工智能的发展提供了新的思路,并在语音识别,自然语言和图像处理等多个研究领域都取得了成功。因此,本文以深度学习为手段,以逐步递进的方式探索发音检测领域更高效的错误检测算法。本文首先调研了发音检错算法的研究现状,并在此基础之上进行英语发音检错算法的改进和拓展,提出基于深度学习的新算法模型。其次,本文从发音错误的本身出发,探究了英语中音素的发音错误类型,对其进行相关的声学特征研究和分析,并针对错误发音类型,构建错误发音检测语料库。
在基于深度学习发音检错框架设计的基础之上,本文首先针对在嘈杂环境中检测多种类型错误发音的应用需求,提出了一种基于SDAE(堆栈式降噪自编码机)的MDD模型,通过无监督的预训练和有监督的反向微调,学习带噪音频数据中更加高级的特征。经过在NOISE-92噪声库和本文构建的错误发音语料库(Speech Accent Croups)上的实验验证,提出的声学检错模型在10dB和40dB信噪比的情况下,平均检错准确率分别优于传统分类模型(支持向量机)9.7%和3.6%。
基于音素的MDD模型因为需要强制对齐,所以耗时,耗力并且增加了出错概率,于是本文进一步提出基于DAE-RNN-CTC(降噪自编码机-循环神经网络-连接时序分类)端到端的MDD模型,不需要强制对齐的步骤和语言模型的构建,就可以针对长序列的语音进行错误音素的识别。通过在TIMIT语料库和本文构建的错误发音语料库(Speech Accent Croups)上的实验验证,该模型的音素序列识别率和错误音素识别率分别为88.67%,86.67%。
最后,本文使用Java语言进行了基于深度学习的发音检错和纠错系统的初步设计和研发。推动了基于深度学习的英语发音检错和纠错在线教育平台的发展。
深度学习的出现为人工智能的发展提供了新的思路,并在语音识别,自然语言和图像处理等多个研究领域都取得了成功。因此,本文以深度学习为手段,以逐步递进的方式探索发音检测领域更高效的错误检测算法。本文首先调研了发音检错算法的研究现状,并在此基础之上进行英语发音检错算法的改进和拓展,提出基于深度学习的新算法模型。其次,本文从发音错误的本身出发,探究了英语中音素的发音错误类型,对其进行相关的声学特征研究和分析,并针对错误发音类型,构建错误发音检测语料库。
在基于深度学习发音检错框架设计的基础之上,本文首先针对在嘈杂环境中检测多种类型错误发音的应用需求,提出了一种基于SDAE(堆栈式降噪自编码机)的MDD模型,通过无监督的预训练和有监督的反向微调,学习带噪音频数据中更加高级的特征。经过在NOISE-92噪声库和本文构建的错误发音语料库(Speech Accent Croups)上的实验验证,提出的声学检错模型在10dB和40dB信噪比的情况下,平均检错准确率分别优于传统分类模型(支持向量机)9.7%和3.6%。
基于音素的MDD模型因为需要强制对齐,所以耗时,耗力并且增加了出错概率,于是本文进一步提出基于DAE-RNN-CTC(降噪自编码机-循环神经网络-连接时序分类)端到端的MDD模型,不需要强制对齐的步骤和语言模型的构建,就可以针对长序列的语音进行错误音素的识别。通过在TIMIT语料库和本文构建的错误发音语料库(Speech Accent Croups)上的实验验证,该模型的音素序列识别率和错误音素识别率分别为88.67%,86.67%。
最后,本文使用Java语言进行了基于深度学习的发音检错和纠错系统的初步设计和研发。推动了基于深度学习的英语发音检错和纠错在线教育平台的发展。