论文部分内容阅读
真实感强的虚拟人多模式行为(语音,唇动,表情,手势等)合成除要求本身有逼真的表现外,相互之间还应该保持很好的同步和协同关系。本文主要针对这两个问题,改进并利用数据挖掘的方法开展研究,取得如下成果:1)在数据准备中:采用了面向Mpeg4标记点的语音人脸运动数据同步获取方法,可在不使用昂贵的运动跟踪设备的前提下获取按标准定义的运动数据。在数据同步分割方面,提出了一种定量的语音人脸数据同步分割方法,可较容易地获取同步数据。在数据预处理方面,采用了面向Mpeg4标记点的人脸动画参数生成方法,实现了从视频图象中直接提取Mpeg4定义的人脸动画参数。2)在数据特征表示与提取中:提出了面向Mpeg-4的人脸特征表达方法FAPP—人脸动画参数模式,同时重点研究了通过无导师聚类以及主成分分析等方法对人脸动画参数模式的提取。在大量视频人脸运动数据的基础上,发现了29种基本人脸动画参数模式以及15个组成人脸动画参数模式的正交基。实验表明,本文提出的人脸动画参数模式及其提取方法可有效实现对人脸运动特征的提取,从而为语音人脸动画数据之间的映射和转换以及实现逼真动画打下基础。3)在语音人脸运动同步关联学习中:针对在语音驱动人脸动画中,如何能在考虑上下文的基础上还可实现实时的问题。本文提出了两种学习方法:一种是基于人脸动画参数模式(FAPP)的语音人脸运动神经网络映射方法;另一种是基于参数化动态转移网络(PDTN)的语音人脸运动映射方法。前者主要考虑实时性和语音的上下文关联,利用对人脸运动数据的聚类以及采用语音的前后相关帧实现了有上下文的语音到人脸动画参数模式的映射。后者在前者的基础上更进一步,不仅考虑了实时和语音的上下文,还考虑了人脸动画参数模式的上下文信息。实验表明本文提出的方法是有效的,可实现逼真的语音驱动人脸动画。4)在多模式行为协同韵律学习中:针对单一模式行为韵律模型学习以及多模式行为协同韵律模型获取两个问题开展研究。提出了行为合成韵律模型统一的形式化表示方法,并给出了语音韵律模型,唇动以及手势韵律模型的具体表示,同时针对汉语语音韵律模型,提出了基于多策略数据挖掘的韵律学习方法,获取了用于语音合成中韵律变化规律,取得了较好的结果。本文还给出手势与唇动,语音之间的协同韵律控制模型形式化表达。在语音,手势等韵律信息的基础上,提出了基于手语韵律与语音韵律结合的协同韵律控制模型,并应用于虚拟人多模式行为协同控制中,取得较好的结果。5)本文实现了两套系统及其应用示范,一种是语音驱动人脸动画系统,当给定新的语音,可以利用此模型合成出与语音同步的动画序列。第二种是文本驱动虚拟人多模式行为合成系统,当给定一个文本,可以输出具有协调一致的虚拟人多模式行为动画序列。在这两个系统的基础上,本文进行应用系统的搭建,完成面向聋人-健听人交流的对话系统以及低带宽网上虚拟人信息发布系统。前者主要通过双机翻译实现健听人和聋人之间的无障碍交流,后者主要完成基于虚拟人的Internet网上信息发布。两个应用系统都能较好的实现功能,满足需求。