【摘 要】
:
语音信息和面部表情是交流沟通过程中最重要的两个载体,当出现语音和口型动作不匹配的情况时,会给人很强烈的不真实感。因此,生成带有真实口型的人脸面部动画是计算机视觉领域的重要课题之一。传统的面部捕捉方法要求昂贵的动作捕捉设备且在后期生成动画时需要专业动画师的调整,因此,寻找一种平民化的带有真实口型动作的人脸动画生成方法可以更好地满足普通用户的需求。本文主要提出了通过单目视频相机来捕捉人脸运动参数并结合
论文部分内容阅读
语音信息和面部表情是交流沟通过程中最重要的两个载体,当出现语音和口型动作不匹配的情况时,会给人很强烈的不真实感。因此,生成带有真实口型的人脸面部动画是计算机视觉领域的重要课题之一。传统的面部捕捉方法要求昂贵的动作捕捉设备且在后期生成动画时需要专业动画师的调整,因此,寻找一种平民化的带有真实口型动作的人脸动画生成方法可以更好地满足普通用户的需求。本文主要提出了通过单目视频相机来捕捉人脸运动参数并结合音频信息生成匹配的口型动画,最终在骨骼蒙皮模型上生成人脸面部动画,从而提高了人脸动画生成效果的真实感。本文的生成方案主要包含以下三个部分:1.获取人脸交互动画参数。本文使用单目视频相机作为采集设备,通过方向梯度直方图(HOG)特征和支持向量机(SVM)算法来构建目标检测器,用来追踪检测视频图像中的人脸区域。然后,在获得到的人脸区域上采用基于集成回归树(ERT)的特征点定位算法获取到人脸特征点的位置信息。最终,基于三维可形变人脸模型(3DMM)根据视频帧图像中的二维信息来实现三维空间中人脸模型的重建,并计算出形状参数和表情参数。2.语音匹配的口型动画生成。本文提出了基于强化学习的演员-评论家模型(Actor-Critic),第一步将音频信息进行预处理,之后结合快速傅里叶变换(FFT)实现对梅尔频率倒谱系数(MFCC)的提取并将其作为音频信息的特征参数。然后,Actor模型将提取到的声学特征参数和面部形变参数作为输入,同时对下一时刻的形变参数进行预测。最终,Critic网络通过设置奖励函数,应用时间差分算法,使得生成的口型动画更具有真实感。3.多模态数据驱动的人脸动画合成。我们根据得到的人脸刚性运动参数和表情参数提出通过骨骼蒙皮模型来实现人脸面部表情动画的生成,在骨骼蒙皮模型的基础上,通过插入辅助骨骼的方法来优化皮肤网格的形变表现,然后通过特征点匹配的方法来将人脸面部表情动画和口型动画合成,最终生成带有真实口型的人脸面部表情动画。
其他文献
在自然语言处理任务中,对话系统是其最具有发展前景的关键应用方向之一。基于检索和基于生成是目前现有对话系统实现的主流方法。检索式的方法是从候选回复进行打分并选择,提供相对固定模式化的回复,基于检索的系统严重依赖语料库的大小和质量,导致候选回复可能会缺失上下文中的重要信息,而且基于检索的方法限制了产生回复的丰富性,输出结果比较生硬。因此,为了让对话系统更好地完成信息表述以及情感表达等任务,使用基于生成
近年来,随着虚拟现实(VR)技术越发成熟,VR头戴设备逐渐进入大众视野。然而国内现有的产品中,VR设备及其控制器的定位问题还没有十分完善的解决方案,一些基于激光雷达传感器的定位技术价格昂贵,体积较大。本文聚焦于VR领域定位问题,提出了一套体积小、成本低的实时六自由度(6DOF)手柄控制器定位方案。本文提出在手柄控制器上设计一种环状定位结构,红外LED按照一定规律均匀的分布在该结构上。通过带有红外滤
在芯片集成度越来越高的趋势下,FPGA公司开始为芯片嵌入处理器系统,So C型FPGA正是这一趋势下诞生的芯片产品。So C型FPGA又称SOPC(Systemon-a-Programmable-Chip),即可编程片上系统。通常FPGA在测试过程中必须先配置成特定功能再进行功能和参数测试,因此FPGA在测试时必须能够快速进行配置码流加载。而So C型FPGA为了在处理器系统启动的同时就将FPGA
手术导航系统是利用CT等一系列工具扫描出患者数据并重建出三维立体模型,利用配准算法将手术空间中患者模型与扫描重建出的三维立体模型进行匹配,在手术中跟踪定位手术器械,计算出手术器械空间姿态,显示在扫描重建出的三维立体模型上,让医生可实时观测当前手术器械在患者身体上的具体位置。相对于传统手术而言,手术导航系统具有便于医生对病例进行分析从而术前诊断,对患者进行手术规划、模拟手术,医学教学等诸多优势,除此
如今监控设备在智能安防、平安城市、刑事侦查领域得到广泛应用,数量众多的监控点位不断地工作,监控视频的质量也在不断地提升,随之带来监控视频数据呈现出指数倍增长趋势,并且具有非结构化、无边界性、时空连续性等特点。传统的视频监控系统在视频流传输、图像处理和离线处理等方面有着大量的研究,但在分布式处理与实时性分析方面的研究较少,设计并实现一个多路实时监控视频数据处理与分析系统的技术难题亟待解决。本文基于传
目前已有的“智慧城市”系统仅支持数据采集功能,而无法在数据感知网关侧对异常数据进行分析、处理,所有异常事件处理均需在云端完成,对于监测人员的判断和应急能力要求较高,容易出现对于异常事件判断延迟、处理缓慢的情况。为解决上述问题,本文设计并实现一种面向智慧城市的多源感知和应急联动系统,系统把气象环境数据、路灯运行状态数据、BLE广播数据、可见光视频数据、按键报警信息五种多源数据通过串口通信和网络传输进
多工器作为射频前端的重要组成部件,广泛应用在现代通信系统、雷达系统、卫星通信和实验室测量设备中。随着无线通信的研究领域向着更高的频段聚焦,当前的频谱资源变得愈发珍贵。为了有效降低基带数字处理的复杂度和采样率,达到更快的数字传输速率,实现高速率、远距离的无线通信目的,在毫米波E波段设计了多子带通信系统。与传统的E波段频分双工(FDD)通信系统不同,本文设计的E波段多工器的主要作用是把天线接收到的宽带
自从世界上第一台雷达制造出来以后,技术更新快,应用范围广泛。无论是生产生活还是军事应用,无论是航空航天还是水路运输,都与雷达息息相关。相控阵雷达作为雷达中的佼佼者,被广泛的使用在军事领域和民用领域。多通道收发组件是相控阵雷达的核心,实现微波信号收发的基本单元,所以其性能的好坏直接影响到整个相控阵雷达的功能。系统级封装(SiP)就是将各种功能的芯片集成在一个封装之内,实现一个完整的功能,使得组件具有
在现代军事技术领域,超材料吸收体正向着多功能化趋势发展,为了能够满足应用在隐身战机、军用舰船的座舱、指挥舱等方面的发展需求,吸波体在满足“厚度薄、重量轻、吸收频带宽、吸收强度大”的综合性能要求的同时,还需要具备较好在可见光频谱的透过性。更进一步地,研究发现透明吸波体的宽带吸收性能与高角度入射稳定性能存在一定的制约。随着入射角的增大,吸波体与自由空间失配程度逐渐加剧,从而引起了吸收强度减弱、吸收带宽
物联网技术的发展日新月异,加速了物联网时代的到来。而基于IEEE 802.15.4的无线个域网通信协议ZigBee,凭借着其短距离,功耗低,低速率等独有网络特性等优势被广泛地应用于智能家居、智慧农业、智慧医疗等领域。但在实际应用中,由于协议的设计,ZigBee网络的组建和通信仅能在单一信道能进行,导致大规模网络部署时的数据传输受限于信道的环境。因此,需要研究相应的策略来解决ZigBee网络实际使用