论文部分内容阅读
人脸图像合成在多模态人机交互领域起着越来越重要的作用,其潜在的应用包括窄带视频传输、音频视频联合编码、电影制作、电脑游戏等。然而,合成真实感强的人脸图像并不容易。为了获得真实感,不但要将人脸上所有细节尽可能自然地表现出来,而且要将动态纹理和非永久性特征淋漓尽致地表现出来。嘴部图像复杂多变,是人脸图像中最难合成的部分。使用传统的网格模型方法和图像变形方法难以再现出嘴部运动的各种动态特征。针对这个问题,本文提出一套新颖的解决方案,包括建立嘴部图像的参数化模型和建立从形状到灰度的关联映射两部分,最终仅用很少的几个形状参数就可以合成出非常真实的嘴部图像。引起嘴部图像复杂多变的原因很多,如各人的差异、光照强度与角度不同、说话时嘴唇运动产生的弹性形变、牙齿与舌头的时隐时现等等。为便于分析与合成,应先对嘴部图像建立参数化模型。我们将Cootes等人对人脸图像建模的方法用于嘴部图像,将嘴的整体外观分为形状和与形状无关的灰度纹理两部分独立考虑,并通过对训练样本集的统计分析建立起形状模型和灰度模型。由于模型是经主分量分析得到,各个变化模式彼此正交,它们的线性组合张成了整个变化模式空间,能够反映训练集中大部分嘴部图像的变化。这个模型建立后,给定一幅嘴部图像,可以求出相应的模型参数;相反,给出一组模型参数,也可以重构出形状纹理具备的嘴部图像。形状和与形状无关的灰度纹理是互补的两个方面,它们共同描述了嘴的整个外观。然而通过观察不难发现,嘴唇轮廓的形状和轮廓内部的灰度纹理有一定的对应关系,我们将这种关系以映射的数学形式描述,并通过嘴部图像的训练集建立起从形状参数到灰度参数的关联映射。这样,整个嘴部的外观就可以通过很少的几个形状参数来合成。虽然有一些本质上的原因和实现上的困难使得形状和灰度纹理的关系并不能构成严格的映射,但是我们得到的结果还是令人满意的。在我们的实验中,借助于前馈神经网络实现的非线性映射,用形状参数可以成功地估计出灰度参数,合成的结果已经相当接近于真实的图像。