【摘 要】
:
以清晰自然的合成语音,准确生动地传达语义信息是新一代语音合成系统所追求的目标。双模态情感语音合成的主要任务是,通过建立虚拟人脸模型,使计算机在合成语音的同时生成富
论文部分内容阅读
以清晰自然的合成语音,准确生动地传达语义信息是新一代语音合成系统所追求的目标。双模态情感语音合成的主要任务是,通过建立虚拟人脸模型,使计算机在合成语音的同时生成富有情感表现力的视觉信息。双模态语音合成和语音识别是人机语音交互所需的两项关键技术,在信息处理领域有着重要的应用价值。本文的主要研究内容有三维人脸建模和渲染、三维动画驱动方法、汉语情感韵律特征建模和基于基音同步叠加算法的语音合成。人脸建模方面,完成了VRML模型解析和基于OpenGL的渲染。所用模型由7个人脸部件组成,共包含6435个顶点和12280个面。该模型在同类相关研究中复杂度较高,对人脸细节的刻画更为逼真。对比研究了参数控制和数据驱动两种三维动画驱动方法。通过改进控制参数的采集方式,解决了齿、舌、喉等器官的运动问题。在基于MPEG-4标准的FAP参数控制法中,采用径向基函数和升余弦函数控制唇动和表情变化。在基于关键帧插值的数据驱动法中,使用三次多项式插值法,对视素帧和表情帧进行空间矢量加权,生成融合后的动画帧。结果表明,FAP参数法可以实现细微的表情和唇形变化;数据驱动法通过融合多个关键帧可以快速产生新的表情种类。为提高合成语音自然度,准确表达情感信息,对基于波形拼接的语音合成系统进行了改进。在系统前端加入基于人工神经网络的韵律预测模型,后端加入基于PSOLA算法的韵律修改模型。合成阶段使用基于决策树和代价函数相结合的基元选择法。仿真结果显示,合成的语音感情色彩明显,经过韵律修改的语音基元在拼接后自然度较高。本文实现的双模态情感语音合成系统,在三维模型数据量较大的情况下满足了实时性动画的要求。合成的语音在听觉和视觉上都能准确的表达情感信息。
其他文献
混沌现象具有对初值敏感和长期不可预测的特性,可以为通信系统提供保密性以及改进通信系统性能,因此受到人们的广泛关注和深入研究。本文引入时空混沌Hamilton振子,该振子具
卫星通信地球站是卫星通信系统的重要组成部分,监控系统是确保整个地球站正常工作的关键部分。基于卫星地球站监控系统的开发,在传统上多采用电脑软件来监控地球站,用户使用
无线传感器网络是指由大量部署在指定监测区域内的廉价微型无线传感器节点组成,通过无线通信的方式形成一个多跳、自组织的网络系统。其目的是协作感知、采集和处理网络覆盖
本文设计一款用于水声通信组网的半双工Modem,系统以TMS320C6748处理器为核心,配备多种电源优化方案,提供高效的硬件及驱动程序,为水声通信及水声组网提供了一个有效的开发平
以太网是目前局域网与工业网络的主流网络,由于其协议采用CSMA/CD的协议,实时性有时无法保证,存在难以实现多种数据综合传输的缺点。为了能从根本上克服以太网的这种缺点,同
提高地震资料的分辨率是地震资料数字处理过程中所需要解决的一项主要任务,而提高地震记录的信噪比是提高分辨率的先决条件。本文主要是研究匹配追踪(MP)算法在地震资料去噪
海事卫星通信是移动卫星通信系统的重要组成部分,随着信息技术的发展,海事卫星通信系统已能够在多领域提供通信业务,不再局限于遇险安全通信,逐渐得到越来越广泛的应用。海事
随着配电网自动化技术的发展,通信技术在配电网运行监控领域的作用已经越来越引起人们的关注。本文在分析了现有电力系统通信方式的基础上,得出多种通信方式相融合是未来配电自动化通信系统的发展方向。根据中压配电网分支复杂,监控节点数量大,实时性要求不高等特点,结合电力线载波通信与GPRS通信的优缺点,提出了基于电力线载波通信(PLC)与GPRS的配电网双通道通信方案。整个通信系统的设计思路是以PLC通信方式
无线传感器网络一般是由大量的传感器节点组成的自组织无线网络,是当前的研究热点之一。对于大规模无线传感器网络,通过人工测量或者配置的方式来获得节点位置信息的方法往往
随着现代移动通信系统的发展,第三代移动通信即3G技术已经开始大范围的普及,本课题研究的项目就是为了适应现代高速发展的移动通信要求,基于软件无线电理论,针对TD-SCDMA基站