基于深度卷积神经网络的人体解析方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:abcttf2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体解析是计算机视觉领域一种复杂而精细的人体语义分割任务,其广泛的应用价值,被越来越多的研究人员所关注。随着深度学习的发展,卷积神经网络被成功的应用于计算机视觉领域。基于卷积神经网络的人体解析获得了极大的突破,但面对多变的人体姿态、复杂的场景、多样的着装等挑战,以及网络模型本身对人体语义特征学习的不足,容易造成解析结果区域不连续、错误识别、结果不精细等问题,这些问题严重影响着解析精度。本文基于卷积神经网络方法针对上述存在的问题进行研究,具体包括以下两方面:首先,考虑单一网络模型提取特征能力有限,提出一种多阶段双路人体解析网络(Multi-stage Two-Way Combined Network,MTCnet)。MTCnet将编码解码网络与空洞卷积相结合,拥有两个特征提取子网能够融合学习不同特征信息,相比单一网络能够学习更丰富的人体语义特征信息。与以往单一阶段处理方式不同,采用多阶段学习,并应用中间监督方法进行训练,每个阶段对前一阶段的人体解析结果进行改进,最终达到最优的解析结果。实验结果表明本文提出的方法细节处理较好,能够有效的提高解析精度。其次,对编码解码网络模型Segnet和U-net进行分析研究,虽然Segnet和U-net网络对全局与局部信息有较好的学习,但该网络只是进行简单的下采样和上采样操作,忽略了特征信息之间的交换学习,本文提出一种基于多层次深度特征交换网络(Multi-level Deep Feature Exchange Network,DFEnet)的人体解析方法,DFEnet网络既兼顾不同分辨率下高维特征学习,又可以满足不同分辨率下的特征交换学习。此外设计了一种空洞沙漏池化模型,DFEnet提取完人体语义特征后,空洞沙漏池化会对提取后的特征进行多尺度学习。在LIP数据集上的实验结果表明本方法解析性能得到了明显提升,解析精度要优于其他先进方法。
其他文献
在实际的应用中,无论是科研人员还是用户,都希望能够了解模型做出判断的依据和过程,以信任模型的决策结果。当模型做出了错误判断后,了解模型判断错误的原因,也对模型的进一步改进和提升有很大帮助。人们在不断应用和创新各种模型并解决了一个又一个问题的同时,机器学习模型缺乏可解释性的矛盾日益尖锐起来。在一些对模型和精度要求较高的领域如医疗专家系统、虹膜身份识别、工业互联网等,可解释性的缺失会给任务带来严重威胁
数据分类是知识发现与数据挖掘领域的一项重要任务。然而,大多分类算法均以数据分布平衡为前提,这并不适用于非平衡数据分类问题。此外,优化模型的求解方法大多采用随机梯度下降,该方法利用单个样本梯度近似代替全梯度的计算原理,虽然减少了一定的计算量,但是单个样本梯度和全梯度之间是存在偏差的,这必然会影响算法的收敛。由上述可知,用于非平衡数据分类问题的新优化模型及其高效求解算法的研究一直是机器学习领域面临的挑
随着人们生活水平的提高,技术水平的巨大飞跃,人们越来越关注水下鱼类的智能养殖监测和水下鱼类生活习性等研究。目前水下鱼监测主要还是通过人工监测,潜水员潜水跟踪拍摄,很多水下环境危险系数高,而且潜水员跟踪可能会惊扰到鱼类,不能反映出最真实的鱼类生活规律和健康等重要数据。因此,不断探索智能化的水下鱼跟踪机器鱼,和其核心的视觉跟踪算法。本文研究应用水下机器鱼进行鱼监测的机器视觉识别和定位的技术,主要包括以
文本与数据挖掘(Text and Data Mining,简称TDM)是大数据时代特有的文本分析与数据处理技术,由于其技术特点,基于文本或者录音、录像等涉版权作品的文本与数据挖掘中涉及到对
传统磁性材料是铁基为主,以钕铁硼(Nd2Fe14B)为例,密度较铝合金大,同时Nd2Fe14B脆性明显,断裂韧性值与陶瓷近似,且加工性能差,室温导电导热性能差。现代轨道交通等用磁性器件
生物素(Biotin)又称维生素H、辅酶R,是维持有机体正常生理功能的重要辅助因子,参与机体内羧化、脱羧和转羧基的反应,现已被广泛应用到医药、食品、饲料等多个领域。本文通过
中曾根内阁成立以来,中曾根康弘提出了“战后政治总决算”的口号以及“成为政治大国”的目标。这标志着日本的国家发展路线发生了根本性的转变。中曾根康弘认为,日本不应该停留在经济大国的地位,必须朝着政治大国的地位前进。因此,中曾根康弘进行了“战后政治总决算”,对行政,财政,外交,防卫以及教育进行了一系列的改革,为成为政治大国解决过去遗留的问题。中曾根康弘的改革取得了一定的效果,为日本的政治大国化奠定了基础
多随着人工智能的快速发展以及人们对于教育的重视,创新教学方式受到越来越多的关注。大学课堂中,教师的教学方式不再是传统黑板板书,而是转变为包含文本、课件、视频、语音等多种形式的多媒体教学。然而,课程知识的大体框架在课本中主要以目录章节的形式展现,而章节中包含的细小知识点以及各知识点之间的关系却不能一目了然,不利于学生的学习。因此,如何对多种形式的课程资源进行有效的自动整合以及对知识进行更好的组织呈现
图像生成技术一直是计算机视觉、计算机图形学等专业领域的重要研究方向,同时被工业界广泛的应用。经过许多科学家的致力研究,在深度学习图像生成的问题上,表现结果依然不尽人意,最主要的困难和挑战在于图像生成结果的多样性、真实性、稳定性以及可控性。近年来由于生成对抗网络的出现使图像生成技术在多方面有了长足的进步,但是由于生成对抗网络自身存在诸多缺点,如训练不稳定、无法判断收敛状态、模式坍塌等问题,故图像生成
人脸作为人类与外界交互的最重要的窗口之一,其传达的信息具备鲜明的人物特征,因而人脸图像相关算法的研究是目前机器视觉领域里最为热门的研究课题之一。人脸图像算法拥有十分广泛的应用场景,具备很强的实用性,在社交、娱乐、安防、医疗等诸多领域的产品中都可以看到人脸相关算法的部署。随着互联网的发展和人脸图像相关算法的大规模应用,人脸图像质量的好坏成为愈发被重视的问题,破损人脸图像修复技术的应用越来越广泛。与此