论文部分内容阅读
语音情感是语音信号中的重要信息,在语言习得“输入-输出”路径中,也是重要的输入和输出要素。英语朗读题发音质量计算机自动评价技术,虽然已经有许多成果,但目前的研究大多围绕音准、流利度、节奏、语调等指标,鲜有学者将语音情感作为其中的一个指标进行单独评价。情景化口语教学是一种趋势,在面向语料情感丰富的情景化口语朗读题发音质量评价时,现有的评价指标和方法,显然有局限性。语音情感自动识别技术,是语音信号处理与机器学习相结合的热门学科,在情感分类、语料库建立过程、特征提取、识别方法和成果应用等方面,都有可借鉴的成果。在这种背景下,本文将发音质量评价与语音情感相结合,对语音情感特征选择、语音情感发音质量评价方法、多指标融合的发音质量综合评价方法、应用系统设计等问题进行了研究,提出了一系列针对这些问题的应对方法。本文的主要研究工作包括:(1)分析了不同语音情感特征的贡献度。本文筛选了36个覆盖能量、基频、共振峰、基音尾部斜率和语速的语音信号数据,作为语音情感特征。使用主成分分析法,进行特征优化,提取了累计贡献率达到95%的前19个主成分,并计算各原始特征对主成分的线性贡献值。(2)设计语音情感发音质量评价方法。本文继承了目前比较成熟的基于后验概率的音准评价方法的思想,利用分类器的软分类特性,将识别问题转换为评分问题。支持向量机(SVM)作为是一种有效的语音情感识别方法,使用SVM的置信概率输出值,作为评价结果的度量。面对SVM核函数和参数选择难的问题,使用粒子群算法进行参数优化。考虑到语料评价数据不平衡现象,采用不充分抽样法,采用基于Bagging的多分类器均值作为评价结果。通过均值和方差数据分析,并使用单因素方差分析进行验证,证明本文的情感评价方法有效。(3)设计基于决策树的多指标融合的发音质量评价方法。传统的多元线性回归方法,不适用于本文的语料库和应用场景。本文提出决策树结构,与评分员的整体评分过程类似,使用ID3(Interactive Dicremiser version3)算法构建音准、节奏、语调、语速和情感5个指标的综合评价决策树。通过实验证明,本文的人机评价精确一致率为73.9%,相邻一致率为93.8%,人机评价结果的Pearson相关系数值为0.81,数据结果证明,本文的评价方法是可信的。(4)开发一套口语学习系统。学习者可以通过系统,模仿朗读电影配音,系统可以对学习者提交的录音,进行多个指标的评价。教师可以通过多元化的数据统计结果,了解学生口语水平,并对其实施个性化教学。