文本驱动的3D可视语音合成技术研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:mini8912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要针对文本驱动的3D唇部可视语音合成技术进行研究。首先对三维唇部特征进行分析,并利用三维动态捕捉系统完成了特征点确定及特征点运动数据的采集工作;在可视语音合成方面采用图像拼接序列法,并融合了关键帧变形法中关键帧确定和提取的部分,并融合关键帧变形法,运用了关键帧变形法中对关键帧的确定和提取方法,将提取出的关键帧作为图像拼接的基础帧,用于图像拼接序列中的过渡帧合成;在输入文本分析方面采用了C++编程方法,利用目前已有的汉字-拼音库,基于汉语音素与可视音素即视素的归类方法,将输入文本转换为对应拼音,再将拼音拆分为最小音素;对于文本驱动的方法,首先根据音素口型变化特征确定视素的分类,确定音素与对应三维口型的映射关系,利用这个映射建立拼音-口型的映射关系,再建立文本-口型的映射关系。在上述研究的基础上,通过输入文本能够得到对应三维口型,再通过图像拼接方法,运用三维图像的插值手法,使输出的图像序列能更真实地反映唇部运动状态。软件仿真表明,所研究的方法在一定程度上实现了文本-可视语音合成,输出的唇部运动效果与实时的三维动态捕捉系统采集得到的视频相比,输出图像没有跳点,运动变化过程更清晰。
其他文献
内源性大麻素系统广泛分布于哺乳动物的中枢神经系统中,参与调节多种生理过程和行为反应.其中,大麻素I型受体(Cannabinoid Receptor 1,CB1R)大量分布在表达生长激素抑制素、
便携式电子设备朝低压低功耗方向发展,CPU、MCU等数字处理器的集成度及工作频率越来越高,需要电源对其供电的电流也越来越大。这就需要电源系统具有提供大电流和低输出电压能力。文章介绍了一种具有异相时钟控制双输出通道、工作频率可变(140KHz-650KHz)、内部设定可以选择工作频率(250KHz、400KHz、600KHz)、输入电压范围为4-40V、输出电压范围为0.8-10V、重载时电源转换效
对于静态基因表达数据来说,推断基因调控网络仍是系统生物学中的一个挑战——存在大量识别难度高的直接或间接调控关系,而传统方法的准确性和可靠性还有待进一步提高.为此,该
中国科学院深圳先进技术研究院高性能技术研究中心张云研究团队在3D虚拟视点视频质量评价研究取得进展。相应成果为"Zhang Y,Zhang H, Yu M, et al. Sparse representation based video quality assessment for synthesized 3D videos[J]. IEEE Transactions on Image Proce
期刊
流量异常检测是网络入侵检测的主要途径之一,也是网络安全领域的一个热门研究方向.通过对网络流量进行实时监控,可及时有效地对网络异常进行预警.目前,网络流量异常检测方法
感应测井是一种先进的测井技术,它可以在井眼不导电的情况测量地层电阻率。感应测井能够有效的识别低阻层,能够有效辨别过渡带和低阻层。感应测井仪的设计需要抑制无用的一次
现代教育教学思想主要是引导发挥人的主体性和自我实现主动性,促使受教育者由他发到自发、由他律到自律、由他教到自教的转化。教育的本义就是“引发”、“向导”、“启迪”。
中国科学院深圳先进技术研究院异构智能研究中心王铮研究团队参与的研究在物联网计算引擎方面取得进展。相应成果为"Chen Y, Wang Z,Patil A, et al. A 2.86-TOPS/W current mirror crossbar-based machine-learning and physical unclonable function engine for internet-o
期刊
随着电子科学技术的飞速发展,各行各业对原子钟的精度要求越来越高,目前原子钟的研究主要集中在两方面:一方面专注于原子钟的准确度和频率稳定度;另一方面是原子钟的微型化。而芯片级CPT原子种的出现,满足了以上两方面的需求,可以更好的发挥原子钟的便携性。鉴于上述背景,本课题主要研究一种低功耗、小型化的CPT原子钟,该原子钟有望在便携式装备和导航系统中发挥较大用武之地。系统主要包括物理封装、射频模块以及外围
中国科学院深圳先进技术研究院材料界面研究中心喻学锋研究团队主导的研究在天然生物活性纳米化疗药物方面取得进展.相应成果为“Zhou WH, Pan T, Cui HD, et al. Black phos
期刊