基于图像处理与神经网络的头部姿态估计研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:en2113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
头部姿态估计(确定人体头部相对于摄像机视图的方向)的研究在计算机视觉领域是一项长期的研究课题,头部姿态估计在视线估计、注意力建模、三维模型与视频的拟合、人脸定位等方面有着广泛的应用。在过去的二十年中,头部姿态的研究推动了三维重建的视觉技术以及多媒体内容操作的发展,在与用户交互方面发挥了重要作用。它广泛应用于注意力检测模型,司机行驶监控,课堂智能管理与人脸识别等领域。本文研究的主要问题是对于头部姿态估计的研究,即给定包含一定头部姿态的人脸图像或者视频流,我们首先对于图像进行处理,之后经过神经网络的训练,从而给出图像中头部姿态信息,其中包含俯仰角(pitch),围绕X轴旋转;偏航角(yaw)围绕Y轴旋转;翻滚角(roll)围绕Z轴旋转。该问题可以分为两个方面,对于人像图像的处理阶段与神经网络阶段。对于人像图像的处理:通过对于图像进行一系列矩阵运算,提取出人脸图像中更多的特征数据信息。神经网络阶段:将图像与提取的特征信息送入神经网络架构中,神经网络对于提供的信息进行处理,进而训练模型,通过模型预测,从而给出三个姿态角度值。本文提出了三种新的基于图像处理和神经网络的头部姿态估计方法,我们使用了小波变换、光流与神经网络等方法,并对于神经网络的架构进行重新的分析与设计。在第一种方法中,我们将小波变换图像与神经网络相结合,经过小波处理之后的图像,可以保留图像中存在的主要信息,同时可以去除图像中的噪声与冗余信息,还可以减少计算量。我们将其与RGB图像进行拼接,将小波变换处理之后的信息作为额外的通道添加到输入中,以帮助神经网络进行更好的估计和收敛。在第二种方法中,我们设计了一个深层次与由粗到细的神经网络架构。我们首先分析了头部姿态数据库中的数据分布,针对其特点,设计了一种新的有效地网络架构,该架构在垂直和水平方向都具有较深结构,它还包含自顶向下和横向连接以进行有效的特征映射,可以将回归问题转化为分类问题。该框架首先对于图像进行粗分类,然后将粗分类的头部姿态图像送入后续细粒度网络模型中,进行更加精准的预测,该框架有助于缓解有偏样本分布的影响,并结合分段映射形成更好的全局拟合。在第三种方法中,我们在研究单帧图像的基础上,进一步向视频流进行拓展。我们研究了视频帧中的头部姿态估计方法,其中采用了光流法来提取视频帧间的关系,将光流信息与RGB图像信息进行拼接,融入神经网络训练可以得到较好的效果。虽然我们只讨论了头部姿态估计的方法,但我们相信本文所提出的方法也可以推广到其他的回归和分类问题。
其他文献
复杂网络的链路预测一直是复杂网络领域一个非常重要的研究方向。链路预测既有着对未知但已存在的边的预测,也有着对未来的可能存在的边的预测。将复杂网络从静态网络扩展到动态网络可以有效区分未知和未来的边预测,而链路的权重预测也将链路预测的链路存在有无扩展到链路的正负以及可能形成的链路的值。在交易系统中,尤其是像使用比特币进行交易的这样匿名性强,欺诈风险较大的交易系统中,提前对交易对方的可靠性有一个大致的估
树覆盖问题是一个基本的组合优化问题,在电话机房、网络机房及发电厂等规划方面有着重大的研究价值。树覆盖问题主要包括四类,包括最小最大树覆盖问题、有根的最小最大树覆盖问题、有界树覆盖问题和有根的有界树覆盖问题。对树覆盖问题的研究,不只是对问题本身关联的实际有促进作用,对其他相似的问题而言也有重要的研究价值,例如圈覆盖问题、车辆寻路问题、路径覆盖问题和集合覆盖问题等。本文中主要研究的树覆盖问题是最小最大
基于人体骨架序列的动作识别是人工智能应用范畴中一个热门且非常具备应用性的研究问题。目前,该问题在视频监管、体感游戏、病人监护、无人安防、人机互动、机器作业等领域有着大量的应用。随着人体骨架数据获取设备及动作捕获传感器的发展,传感器可以有效地获得动态人体骨架序列。因此,迫切须要设计一个能够充分且合理利用人体骨架序列的动作识别算法。人体骨架序列充分表示了人体信息的时空特征表示,但初始的人体骨架序列往往
在如核电运行维护、大飞机生产制造等工业领域中,存在大量操作流程复杂、工作强度大、灵活性要求高、难以实现机械化与自动化的工作任务,执行这些任务只能依靠人为操作。在作业执行过程中,作业人员的工作效率与人身安全难以保证。因此,能够与人协同运动,实现部分作业任务自动化的外肢体辅助机器人成为解决上述问题的新型技术手段。外肢体辅助机器人是一个多工况、多任务空间的高维系统,针对该系统的多任务运动规划与控制方法是
当今时代,随着计算机软件技术的飞速发展,人们越来越依赖于各种计算机软件来方便的处理事务,各种各样的软件也是不断地推陈出新。在软件开发过程中,开发人员经常会重复使用大量第三方库函数。对于逆向分析工作来说,准确地识别在软件中复用的库函数具有重要意义,例如检测已知漏洞、对恶意软件进行反向分析等。如果能够使用自动化的方法有效标记出各种复用的库函数,就可以显著提高软件逆向分析的效率,减轻逆向分析人员负担,并
当今社会,随着互联网的迅速发展,来自互联网、工业生产、企业内部的数据成为了一项重要资产,迸发出巨大的商业价值,而企业需要掌控这些数据来赢得机遇、抢占商机。因此,它们迫切需要运用大数据分析技术挖掘其背后的规律并加以利用,从而为企业提供更有价值的信息,以便在市场竞争中夺得先机。同时,企业对数据分析应用的多样性需求,为数据分析平台的快速开发、重构与即时运维技术带来了巨大挑战,需要针对不同数据分析的应用层
基于卷积神经网络(CNNs)的多任务学习方法在计算机视觉的各种应用中取得了显著的成功,是目前重点关注的研究方向之一。多任务卷积神经网络是在单任务模型结构保持不变的情况下,学习多个任务的共享表示,该共享表示适用于不同但相关任务的训练目标,使多任务模型更具有泛化能力。随之各任务分支拟合各自输出,从而完成多个任务的联合预测,并取得整体性能的提升。对于有效的多任务卷积神经网络方法,最近的研究均是通过自动学
为满足空间大轨道转移任务要求,基于电推进系统液氪低温推进剂在轨长期贮存的应用需求,从低温推进剂贮箱壳体材料、贮箱热防护技术、微重力环境下贮箱内气液分离和流体管理等四方面入手,聚焦于国内外相关研究进展,总结了关键技术的发展现状,结合氪工质贮存要求进行了分析,旨在为电推进系统液氪贮箱设计提供参考。
根据单张图像估计深度信息是计算机视觉领域的经典问题,也是一项具有挑战的难题。在传统的计算机视觉中,由于单目图像的尺度不确定性,导致根据单目图像无法计算深度值,仅能通过双目图像计算出稀疏深度值。目前,基于深度学习技术的单目深度估计方法成为了研究热点。基于监督学习的单目深度估计方法通常需要依赖大量的真实深度标签用于模型训练,然而获取真实深度的成本是非常高昂的。基于无监督学习的单目深度估计通常根据双目图
图像分辨率越高通常意味着图像拥有更多的细节,更高的清晰度以及更好的视觉感受。高分辨率的医学图像有助于医生的诊断;高分辨率的监控图像有利于犯罪行为的识别和追踪;高分辨率的视频可以带来良好的观影体验。但是图像的分辨率往往受到设备精度、环境、信息传输效率等因素的制约。如何在这些因素的制约下获得高分辨率图像有着重要的意义。这类通过模糊的低分辨率图像恢复高分辨率图像的算法统称为图像超分辨率算法,其难点在于图