论文部分内容阅读
发音质量自动评测(以下简称“评测”)是计算机辅助语言学习及口语考试中的核心技术问题,其研究成果对提高学习者学习的灵活性和满意度,减少人工阅卷的主观性和不稳定性,降低投入成本,提高实效性,具有重要的理论意义和科学价值,应用前景广阔。随着国内普通话的大力推广和普及,以及国外汉语学习热潮的快速兴起,针对汉语普通话的评测技术实际需求强劲,且更具特色和挑战性,有必要深入系统地研究。汉语是一种单音节声调语言,每个音节包括声母、韵母和声调三部分,音节间界限较分明,有鲜明的轻重音和儿化音。汉语音节的三元结构及音韵特点与英语语音差异较大,需要结合汉语特点,在表征、建模和计算等方面进行针对性研究和创造性方法改进。此外,现有主流评测方法在基本发音单元(声韵母、声调等)评测上的准确性还不够理想,无法满足精细评测任务和较高水平说话人评测任务的实际需求,需要在声学建模和置信度计算等方面进行改进,以提高声学模型的精度和评测模型的准确度。本文重点研究母语人群的汉语普通话评测方法。在声韵母评测方面,针对当前主流的发音良好度(Goodness of pronunciation,GOP)算法存在的切分不准、计算精度低、模型间区分性差等问题,提出一种基于音素混淆概率矩阵的评测方法。该方法通过计算音素混淆概率矩阵来构建每个音素的混淆音素集合,一方面利用混淆音素集合建立音素混淆限制识别网络,提高音素段切分的准确性;另一方面,引入音素混淆先验概率,把混淆音素集合作为后验概率的计算空间,提高计算精度和模型间的区分性。为扩大发音的评测范围,提高声学模型的覆盖范围,提出一种基于扩展发音空间的评测方法。该方法利用错误发音样本数据,扩展标准发音空间,对标准发音的各类发音错误进行精细建模,并在这个扩展后的发音空间内进行后验概率计算,计算更加准确和有效。同时,针对包含错误发音的数据获取容易,但标注困难,且工作量巨大的问题,设计对错误发音样本聚类的非监督学习方法,以及发音模型的自动更新方法,来持续提高评测模型的准确性。鉴于上述方法都是单维置信度计算加阈值判断还不够鲁棒,提出一种基于系统融合的多维置信度的评测方法。该方法依次计算待评测语音段相对于其对应音素的混淆音素集合中所有音素的后验概率和错误音素集合中所有音素的后验概率,并把它们组合起来,形成一个多维置信度向量,作为一种新的评测特征,为各个音素分别训练出不同发音质量的分类器,实现对声韵母发音质量的再评测,人机相关系数达到0.893,超过了人工评测的平均水平。在声调评测方面,针对声调相关基频特征的有效获取和多层次利用,提出一种基于系统融合的多维置信度的声调评测方法。在语音帧层级上,把基频特征及其一阶、二阶差分加入到39维梅尔倒谱系数中去,共42维,以声母和带调韵母为发音单元,采用嵌入式训练方式,建立嵌入式声调模型。在音节层级上,提取当前音节和其前面、后面音节的基频特征及它们的统计特征,共12维,选择高斯混合模型(Gaussian Mixture Model,GMM)做分类器,建立显式声调模型。把利用嵌入式声调模型计算出的5种声调的后验概率和利用显式声调模型计算出的5种声调的后验概率组合起来,形成一个10维的多维置信度向量,作为一种新的评测特征,为各个声调分别训练出不同发音质量的分类器,实现对声调发音质量的再评测。实验结果表明,上述方法有效融合两种建模方式的互补性,同时利用长时语段和短时语段的特征信息,且不需要考虑阈值选取,具有更好的鲁棒性和适应性,有效提高了声调评测方法的准确性,人机相关系数达到0.899,超过了人工评测的平均水平。在汉语儿化音评测方面,针对国家普通话水平测试中对儿化音的考评要求,提出一种基于分类思想的儿化音评测方法。深入分析儿化音的发音规律和特色,提取共振峰、发音置信度、时长等代表性特征,采用集成学习方式,改进传统的AdaBoost算法,每次迭代时,同一基分类器会根据不同分类类别分别更新权值,在权值计算时增加一个与类别先验概率和类别数目相关的正数项,大大降低算法对基分类器的精度要求,并特别适合数据分布不平衡的多类分类问题,实现对儿化音的发音质量状况进行有效分类,分类效果明显优于传统的AdaBoost集成分类器及其他经典单一分类器。作为一种辅助评测方法,上述方法可以很容易推广到其他类型音变的评测中,比如变调、轻声等。基于以上研究工作,在国家普通话水平测试现场录音的测试语音库上,实验系统的总体分差下降到4.26,与人工评测的分差3.71已经非常接近,这为今后汉语普通话自动评测的实际应用奠定了良好的基础。