论文部分内容阅读
本文利用汉语普通话的二维唇形录像和三维唇形运动捕获数据,分别从言语产生、言语感知和言语工程这三个方面研究唇形变化与语音之间的关系。 研究工作具体可以分为三大部分: 一、在言语产生领域,对汉语普通话唇形的协同发音进行了研究和讨论。协同发音是言语产生中的普遍现象,是研究言语产生的重要问题。通过对汉语普通话中具有语言学意义的圆唇特征的分析,本文提出使用内外唇宽度之和来定义汉语普通话的圆唇可以更好的表示圆唇动作的动态过程。讨论了语言学意义层面的圆唇特征在汉语普通话音节内与音节间的协同发音。研究结果表明在音节内,CV和VV音段内都为逆向协同发音,VN音段内为顺向协同发音。在音节之间,唇形的协同发音符合逆向协同发音的特征前展模型。 二、在言语感知领域,使用听辨感知实验对汉语普通话系统地进行了McGurk效应研究;在听辨感知实验结果的基础之上提出利用一致性判断实验提取汉语普通话动态视位的方法,并对汉语普通话元辅音的动态视位进行分类。指出工程上常用的术语“静态视位”是根据唇形聚类所得,但并无证据表明人脑通过“静态视位”感知发音动作,而通过感知实验得到的动态视位能够反映人脑对发音动作的感知。 听辨感知实验的结果表明可视语音的语音成份和视频成份的声调不同对听觉感知没有影响,这是因为声调的变化主要是由声带振动频变化造成,声带运动状态变化对唇形动作并不产生影响;语速不同时则会对听觉感知有细微的影响,这是因为语速的加快会改变发音动作的幅度;元音不一致时视觉不会影响听觉感知;辅音不同时视觉感知对听觉感知有着较明显的影响。当可视语音样本的语音成份中辅音的发音部位分别为双唇、唇齿和其它辅音时,视觉感知对听觉感知的影响强度逐渐变弱。当可视语音样本的视频成份中带有唇音特征时,视觉感知对听觉感知影响大于非唇音特征的可视语音样本。 本文提出利用听辨感知实验以及一致性判断实验提取动态视位的方法,实验结果表明汉语普通话元音的动态视位可以分为8类,辅音的动态视位可以分为19类。并在此基础之上总结得出汉语普通话动态视位与音位之间的对应关系。 三、本文提取二维唇形录像的11个唇形参数建立二维唇模型,提取11个三维唇形标志点的坐标建立三维唇模型。在此基础之上,利用408个单音节汉字的唇形参数,使用参数合成法分别合成二维及三维可视语音样本。 此外,在唇形研究的过程中,本研究分别建立了二维唇形及三维唇形数据处理分析平台,提供了各种唇形参数以及下颌参数的计算方法,为后续研究提供了便利。本研究对一位受过播音训练的发音人的发音录像进行唇形标注,建立了一个包含408个汉语普通话单音节唇形内外轮廓线的二维唇形参数库。通过对三维唇形数据的研究,提出了一种具有实际可行性的计算上下唇相对凸度的方法,并将其用于区分圆唇元音和非圆唇元音的研究。 综上所述,本文从多个领域对唇形变化与语音之间的关系作了初步的探索,研究结果可以服务于可视语音合成以及普通话辅助教育等方面。