论文部分内容阅读
随着多媒体计算机的快速发展,计算机与人进行交流日益在增加,而人的面部传递着人类最广泛的信息,如情感,精神状态等,虽然每个人脸特征很相似,但却有不同的表情特征,于是人脸成为计算机视觉与计算机图形学中重要的研究课题。本文的下作包括三个方面:基于MPEG-4标准的面部动作编码、中文文本驱动的人脸动画、连续汉语语音驱动的人脸动画,他们也一直是计算机视觉和计算机图形学中一直具有挑战性的研究课题。 首先提出了本论文的研究背景及研究内容,然后对人脸建模、人脸动画技术、嘴唇动画以及MPEG-4人脸动画标准,分别进行探讨,分别对这些方法进行分类,并比较其优点、缺点,指出研究的难点。 本文提出了一种基于MPEG-4的面部动作编码系统,该系统从高到低定义了二个层次:MPA(minimal perceptile action)层,FC(facialcoefficient)层和FAP(facial definition parameter)层。以MPEG-4定义的68个人脸动画参数FAP为基础,首先进行FAP到FC的转换,根据MPA与FC的多对多关系,获得MPA集合,建立以MPA矢量表达的人脸视位。在基于MPA的人脸表情动画中,采用B样条插值生成过渡帧,FACS(facial animation coding system)引擎会根据MPA-FC-FAP的映射关系把MPA所描述的人脸动作装化为MPEG-4规定的FAP的值,然后再驱动线框架的三维人脸模型产生动画。 为了获取作为人脸动画基础的静态视位库,提出了一种基于参数化嘴唇模型的视位分类方法。参数化的嘴唇仅用7个参数就能比较精确地描述嘴唇动作,采用参数化的嘴唇来实现聚类算法比使用与嘴唇有关的特征点更鲁棒。 在面部动作编码系统和静态视位库的基础上,提出了一套完整的文本驱动人脸动画的方法,以中文文本为数据源,提取出音素流,从嘴唇静态视位库中选取由MPA矢量表达的关键帧,采用基于权重函数的协同发音模型来拟合过渡帧,由FACS引擎来驱动三维人脸为了得到更真实的嘴唇动画效果,在协同发音模型里面还建立了汉字之间