论文部分内容阅读
随着相机的不断普及,图像与视频的获取越来越简单,大量图像与视频数据的涌现也使得越来越多的研究者关注图像与视频的处理Photoshop等商业软件的成功也表示传统的图像处理已经相对成熟,但它们的操作都是非语义的,即处理图像的时候并没有考虑图像本身的内容.最近几年来,越来越多的研究者关注于基于内容的图像以及视频的处理,即针对图像或图像中特定的内容进行有语义的处理.而其中,相当多的文章利用重建出的粗糙的三维数据辅助进行二维的处理,如进行视频的多视角浏览,视频中人物的体型变形等。本文主要关注于视频编辑的操作,即通过简单地编辑一帧图像达到编辑所有视频帧的效果.传统的这种编辑操作都是通过逐帧跟踪的方法得到视频中像素点的路径,并将编辑通过视频路径进行传递.但传统的方法对于出现像素点遮挡后又出现的情况时便出现路径跟踪丢失的问题.为了得到全局一致的路径,我们第一次提出将每一帧图像都与模板帧进行注册并对应.而在进行变化较大的两帧图像之间的注册时,三维信息是必不可少的,我们利用最近微软开发出的Kinect摄像机拍摄到的三维深度数据辅助进行两帧图像之间的对应.考虑到Kinect也可以实时捕捉到人物的骨架信息,我们首先基于人体数据库以及每一帧的骨架信息从三维深度数据中重建出人体模型.然后我们基于人体模型对大变化的两帧非刚性点云进行注册得到初始对应,并基于一种改进的光流的方法利用图像信息对其进行优化,最后我再对整体的路径进行一次时空连续性的优化.文章的最后,我们给出了各种编辑结果,可以看出我们的算法对于简单纹理以及复杂姿势的视频都能给出正确的结果.本文的主要贡献在于:一,我们第一次基于人体数据库从Kinect拍摄到的深度数据中自动地快速地为每一帧重建出了三维人体模型;二,我们提出了一种基于人体模型的非刚性点云注册的方法,既不需要重建精确的模板模型也可以解决两帧点云变化很大的情况;三,我们第一次将深度点云数据与图像信息结合,解决了以往的方法无法解决的全局一致路径跟踪的问题.