汉语普通话发音质量自动评测方法研究

被引量 : 0次 | 上传用户:yeah88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
发音质量自动评测(以下简称“评测”)是计算机辅助语言学习及口语考试中的核心技术问题,其研究成果对提高学习者学习的灵活性和满意度,减少人工阅卷的主观性和不稳定性,降低投入成本,提高实效性,具有重要的理论意义和科学价值,应用前景广阔。随着国内普通话的大力推广和普及,以及国外汉语学习热潮的快速兴起,针对汉语普通话的评测技术实际需求强劲,且更具特色和挑战性,有必要深入系统地研究。汉语是一种单音节声调语言,每个音节包括声母、韵母和声调三部分,音节间界限较分明,有鲜明的轻重音和儿化音。汉语音节的三元结构及音韵特点与英语语音差异较大,需要结合汉语特点,在表征、建模和计算等方面进行针对性研究和创造性方法改进。此外,现有主流评测方法在基本发音单元(声韵母、声调等)评测上的准确性还不够理想,无法满足精细评测任务和较高水平说话人评测任务的实际需求,需要在声学建模和置信度计算等方面进行改进,以提高声学模型的精度和评测模型的准确度。本文重点研究母语人群的汉语普通话评测方法。在声韵母评测方面,针对当前主流的发音良好度(Goodness of pronunciation,GOP)算法存在的切分不准、计算精度低、模型间区分性差等问题,提出一种基于音素混淆概率矩阵的评测方法。该方法通过计算音素混淆概率矩阵来构建每个音素的混淆音素集合,一方面利用混淆音素集合建立音素混淆限制识别网络,提高音素段切分的准确性;另一方面,引入音素混淆先验概率,把混淆音素集合作为后验概率的计算空间,提高计算精度和模型间的区分性。为扩大发音的评测范围,提高声学模型的覆盖范围,提出一种基于扩展发音空间的评测方法。该方法利用错误发音样本数据,扩展标准发音空间,对标准发音的各类发音错误进行精细建模,并在这个扩展后的发音空间内进行后验概率计算,计算更加准确和有效。同时,针对包含错误发音的数据获取容易,但标注困难,且工作量巨大的问题,设计对错误发音样本聚类的非监督学习方法,以及发音模型的自动更新方法,来持续提高评测模型的准确性。鉴于上述方法都是单维置信度计算加阈值判断还不够鲁棒,提出一种基于系统融合的多维置信度的评测方法。该方法依次计算待评测语音段相对于其对应音素的混淆音素集合中所有音素的后验概率和错误音素集合中所有音素的后验概率,并把它们组合起来,形成一个多维置信度向量,作为一种新的评测特征,为各个音素分别训练出不同发音质量的分类器,实现对声韵母发音质量的再评测,人机相关系数达到0.893,超过了人工评测的平均水平。在声调评测方面,针对声调相关基频特征的有效获取和多层次利用,提出一种基于系统融合的多维置信度的声调评测方法。在语音帧层级上,把基频特征及其一阶、二阶差分加入到39维梅尔倒谱系数中去,共42维,以声母和带调韵母为发音单元,采用嵌入式训练方式,建立嵌入式声调模型。在音节层级上,提取当前音节和其前面、后面音节的基频特征及它们的统计特征,共12维,选择高斯混合模型(Gaussian Mixture Model,GMM)做分类器,建立显式声调模型。把利用嵌入式声调模型计算出的5种声调的后验概率和利用显式声调模型计算出的5种声调的后验概率组合起来,形成一个10维的多维置信度向量,作为一种新的评测特征,为各个声调分别训练出不同发音质量的分类器,实现对声调发音质量的再评测。实验结果表明,上述方法有效融合两种建模方式的互补性,同时利用长时语段和短时语段的特征信息,且不需要考虑阈值选取,具有更好的鲁棒性和适应性,有效提高了声调评测方法的准确性,人机相关系数达到0.899,超过了人工评测的平均水平。在汉语儿化音评测方面,针对国家普通话水平测试中对儿化音的考评要求,提出一种基于分类思想的儿化音评测方法。深入分析儿化音的发音规律和特色,提取共振峰、发音置信度、时长等代表性特征,采用集成学习方式,改进传统的AdaBoost算法,每次迭代时,同一基分类器会根据不同分类类别分别更新权值,在权值计算时增加一个与类别先验概率和类别数目相关的正数项,大大降低算法对基分类器的精度要求,并特别适合数据分布不平衡的多类分类问题,实现对儿化音的发音质量状况进行有效分类,分类效果明显优于传统的AdaBoost集成分类器及其他经典单一分类器。作为一种辅助评测方法,上述方法可以很容易推广到其他类型音变的评测中,比如变调、轻声等。基于以上研究工作,在国家普通话水平测试现场录音的测试语音库上,实验系统的总体分差下降到4.26,与人工评测的分差3.71已经非常接近,这为今后汉语普通话自动评测的实际应用奠定了良好的基础。
其他文献
随着化石资源的逐渐枯竭与环境污染的日益加剧,开发环境友好的、可生物降解的、可再生资源的绿色表面活性剂新产品是表面活性剂开发的重要方向。低窄壳糖是自然界广泛存在的
目的通过观察活血通络方加减联合西药(试验组)治疗血瘀型糖尿病下肢血管病变的临床疗效,并与辛伐他汀片、阿司匹林肠溶片和羟苯磺酸钙分散片组(对照组)进行对照,客观评价活血
奥尔夫教学法是现代音乐教学中流行很广的音乐教学理论和重要教学方法,对音乐教学影响巨大。奥尔夫教学法将音乐实践、动作实践、游戏实践、朗读实践、即兴实践、表演实践完
以红树莓为试材,研究了1%、2%和4%的氯化钙(CaCl2)处理对采后低温(0℃)贮藏下红树莓果实品质影响。结果表明:1%和2%CaCl2处理均可降低果实在贮藏期间的呼吸强度,减缓果实硬度
期刊
山岭隧道施工阶段的围岩动态分级以开挖揭露的围岩为评价对象,随着隧道开挖支护循环动态进行。由于隧道施工的时效性,要求围岩分级不仅要合理且其评价指标要取值简便、实施过
随着营销创新手段的不断升华与应用,购物篮理念的技术运用成为了一种重要的营销手段,尤其是在通过对顾客、商品、订单等多方面的把握,深入分析购物篮理念的全新应用,将有着重要的
目的:探讨团体咨询干预对低年资护士心理应激反应的效果。方法我院工作五年以下的护理人员60人,按随机数字表法分为实验组和对照组,每组30人。实验组行团体咨询活动,对照组护士
电子货架标签系统(Electronic Shelf Label,ESLs)是一种固定在货架上面的、可以替代传统的纸张显示价格的电子显示装备,数据通过终端装有数据库的上位机,使用无线的传输方式将数据
现今产品设计逐渐以用户需求为中心,而用户对产品要求逐步提升,更注重产品的各方面细节体会。产品材质作为重要的用户体验细节,在产品设计中需对其着重考究,做出正确选择。本研究