人体发音过程中的三维声道几何建模

来源 :天津大学 | 被引量 : 0次 | 上传用户:ddy110110520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
核磁共振成像技术能够清晰地展现出声道器官的轮廓形状,并且对人不会造成伤害和不适,因此越来越频繁的应用于语音生成领域。通过核磁共振成像技术得到的发音数据库,对于分析不同发音时声道器官形状变化规律进而构建声道模型具有很大的优势。而由核磁共振图像建立精确的三维声道模型,进一步做到与发音同步的声道可视化,对于语音教学的应用,语音生成机理分析等都具有非常重要的意义。本文将从纯几何的角度去构建三维几何声道模型,与之前的神经生理模型相比,减去了复杂的肌肉力的影响。因此,运算量减少,模型的实时性变好,使得模型更加适用于对实时性要求较高的应用。本文对中文核磁共振数据库中一个受试者的十个元音数据进行研究,研究步骤包括:图像预处理,数据标记,三维网格量化,并最终使用主成分分析法和多元线性回归法对三维数据进行建模分析,得到发音器官的主要控制参数。分析结果显示,每个发音器官可用三个以内参数来很好的描述,且这三维主成分的贡献率总和均在88%以上。用此分析结果对各个发音器官进行重构得到的平均重构误差均小于1mm。本文的创新点在于提出了一种新的三维声道器官标记方法,此方法与之前的提取方法相比主要有两方面的优势:一是保证了发音器官的完整性。传统方法得到的舌形状缺少舌左下角与下颚连接的部分以及舌根部分。而这两部分在不同发音中是有形变的,缺失务必带来分析结果的误差。我们的结果中保留着这部分器官形状,降低了误差值。二是保留了发音器官形状上点的一致性。在标记的过程中,对每个发音器官的特征点,如牙尖,舌尖,舌根,两个器官连接部分等进行特别标记,保证不同发音时同一个特征点的对应。尤其以舌为例,在量化时将舌面和其他部分分别处理,保证了不同形变部分的对应及舌两侧边缘的准确性。最后,本文是首次在中文发音数据上构建三维几何声道模型,对于中文语音教学应用的实施,汉语普通话推广以及其他如语音纠正等应用提供了理论基础。
其他文献
工业无线技术是一种面向设备间短距离、低速率信息交互的无线通信技术,是无线传感器网络技术在工业领域应用的具体化和实例化应用。工业无线传感器网络利用工业无线技术实现了
偏好处理是人工智能中的一个重要的研究内容。CP-nets(conditional preference networks,条件偏好网)是一个带标记的有向图,它编码相关变量之间的偏好关系。作为一种简单直观
随着互联网技术在众多领域飞速地发展,网络数据的存在形式也呈现出多样化的趋势。其中,数据流作为一种新型的数据形式已在众多应用领域广泛地出现。例如,传感器网络环境中的
随着嵌入式技术和无线通信的快速发展,无线传感器网络及其应用广泛应用于军事、环境监测和医疗救灾等领域,人们对于其性能等要求也越来越高。一般网络部署节点众多,环境复杂,且由
近年来,随着计算机处理能力的不断提高,互联网技术取得了飞速发展,各种基于Web2.0技术的新兴网络应用的出现使得越来越多的数据被收集和整合在一起,互联网中的网页数目激增。在当
伪随机数发生器在计算机仿真和信息安全领域都有着广泛的用途,伪随机数序列的随机性、不可预测性以及产生速率对应用系统的效率和安全性具有重要价值。本文设计了一种基于超素
随着二十世纪信息技术、多媒体技术和网络技术的快速发展,多媒体信息的数据量急剧增多。为了充分利用已有的音频信息资源,音频样例检索技术受到越来越多的关注。音频样例检索是
随着无线传感器网络向着廉价性、智能性、多功能性趋势发展以及短距离无线通信技术ZigBee的日趋成熟,设计出一种灵活高效、可扩展性和兼容性并存的低功耗节点软硬件体系结构并
随着互联网技术的飞速发展,IPv4(Internet Protocol Version4)的不足对互联网发展产生的负面影响显得越来越明显。互联网发展到今天,IPv4暴露出若干问题,而其中最为显著的便是IPv4
21世纪,人类进入互联网时代,人们的生活越来越离不开网络。在网上聊天,分享心情,传递照片,进行影视创作,尤其是移动互联网出现后,网上的信息交流更成为了日常生活的一部分。