论文部分内容阅读
语音驱动的人脸建模与动画技术即先根据人脸信息构建适于动画的三维模型,再根据给定的语音在模型唇部产生相应的口型,从而加深人们对语言内容的理解。该技术对于推进三维游戏制作、电影配音、媒体内容修改、辅助教学和可视通信等方面应用的简易性及实用性,具有重要的理论与实际意义。本文以人脸建模及语音驱动动画技术研究为主线,首先提出了三维人脸模型的建立方法;然后在该模型之上,通过提取唇部运动参数及构建具有真实感的唇部动画模型控制唇部动画;最后对输入语音进行分析,提取出语音特征驱动唇部运动,并生成相应的口型。论文具体研究工作及创新包括:提出了一种先利用全局模板进行总体定位,再利用局部模板进行精确定位的多模板ASM算法。在局部定位过程中,首先在各模板特征点中构建窄条带,然后利用closed-form图像分割算法对窄条带区域进行纹理分割,最后利用局部模板与图像进行匹配,得到人脸特征点位置信息。实验结果表明,改进算法显著改善了传统ASM算法对纹理平滑区域特征点定位不准确的问题,提高了特征点的提取精度,由此提高了三维人脸模型建立的准确度。改进了传统的Mean-Shift算法对唇部进行跟踪与检测。改进的算法通过引入目标边界区域似然度及Level Set模型,实时调整跟踪窗大小,能获取说话人发音时的内外唇运动信息。在Level Set模型中将小区域放置于跟踪窗中心,联合唇部梯度信息,以及小区域与唇部边界的似然度进行唇部检测,相对于单纯采用梯度信息的唇部检测结果具有更高的准确度。通过加入ASM模型与目标边界区域似然度结合,能进一步提高外唇检测精度,从而为唇部动画提供可靠的数据支持。提出了肌肉模型与Mpeg-4融合的唇部动画方法。该方法在Candide-3人脸模型中定义皮肤点和骨骼点,以及肌肉控制范围,采用骨骼点限制唇部特征点运动,对肌肉控制范围以内的非特征点通过肌肉模型调整,对控制范围以外的非特征点采用唇部动画定义表调整。采用Loop细分方法,及简化的肌肉模型方法,提高了动画的细腻性和效率,实验结果证明该控制方法有效的提高了唇部动画的真实感。提出了一种建立损失函数,并利用浊音的“准”周期性和声母时长进行声韵母切分的方法。该方法首先计算语音的自相关函数,接着建立代价损失函数,对计算结果采用动态规划方法检测浊音,然后根据声母段长分布规律确定声母的检测范围,最后在检测范围内对浊音段起始点前后采用听觉事件检测方法分割出声韵母。实验结果表明,在浊音段的基础上对声韵母进行切分能够减少噪声及汉语音变现象的影响,提高切分的正确率,由此能提高语音驱动动画生成口型的准确性。提出了一种汉语动态视位的模型。根据汉语是基于音节的语言,发音过程具有“枣核型”的特点,模型分别对音节自身和音节之间的唇部运动建模。对音节通过扩展的DTW算法与子运动模型进行匹配,从而将音节利用唇部子运动模型描述。在音节间采用元音影响分级的权重函数模拟协同发音影响,先分析各元音与其后接辅音的口型影响,再通过权重函数控制实际发音口型。实验结果表明,相对于声韵母、音节对应的发音过程以及三视素表征汉语动态视位,方法提高了语音驱动动画的连贯性及合理性,适于表现汉语的协同发音现象。