论文部分内容阅读
核磁共振成像技术能够清晰地展现出声道器官的轮廓形状,并且对人不会造成伤害和不适,因此越来越频繁的应用于语音生成领域。通过核磁共振成像技术得到的发音数据库,对于分析不同发音时声道器官形状变化规律进而构建声道模型具有很大的优势。而由核磁共振图像建立精确的三维声道模型,进一步做到与发音同步的声道可视化,对于语音教学的应用,语音生成机理分析等都具有非常重要的意义。本文将从纯几何的角度去构建三维几何声道模型,与之前的神经生理模型相比,减去了复杂的肌肉力的影响。因此,运算量减少,模型的实时性变好,使得模型更加适用于对实时性要求较高的应用。本文对中文核磁共振数据库中一个受试者的十个元音数据进行研究,研究步骤包括:图像预处理,数据标记,三维网格量化,并最终使用主成分分析法和多元线性回归法对三维数据进行建模分析,得到发音器官的主要控制参数。分析结果显示,每个发音器官可用三个以内参数来很好的描述,且这三维主成分的贡献率总和均在88%以上。用此分析结果对各个发音器官进行重构得到的平均重构误差均小于1mm。本文的创新点在于提出了一种新的三维声道器官标记方法,此方法与之前的提取方法相比主要有两方面的优势:一是保证了发音器官的完整性。传统方法得到的舌形状缺少舌左下角与下颚连接的部分以及舌根部分。而这两部分在不同发音中是有形变的,缺失务必带来分析结果的误差。我们的结果中保留着这部分器官形状,降低了误差值。二是保留了发音器官形状上点的一致性。在标记的过程中,对每个发音器官的特征点,如牙尖,舌尖,舌根,两个器官连接部分等进行特别标记,保证不同发音时同一个特征点的对应。尤其以舌为例,在量化时将舌面和其他部分分别处理,保证了不同形变部分的对应及舌两侧边缘的准确性。最后,本文是首次在中文发音数据上构建三维几何声道模型,对于中文语音教学应用的实施,汉语普通话推广以及其他如语音纠正等应用提供了理论基础。