【摘 要】
:
近年来,卷积神经网络成为人体姿态估计的主流方法,但是网络结构复杂,在提升精度的同时也带来了大量参数与运算量,难以支持在算力与存储能力受限的终端设备上的实时应用。因此,本文从模型设计的角度出发,以优化模型运算量与精度的平衡为导向,研究轻量且高效的人体姿态估计算法,并以此为基础实现针对健身场景的动作相似度分析系统。本文的主要工作包括:1.结合轻量级卷积神经网络的特点,对Simple Baseline网
论文部分内容阅读
近年来,卷积神经网络成为人体姿态估计的主流方法,但是网络结构复杂,在提升精度的同时也带来了大量参数与运算量,难以支持在算力与存储能力受限的终端设备上的实时应用。因此,本文从模型设计的角度出发,以优化模型运算量与精度的平衡为导向,研究轻量且高效的人体姿态估计算法,并以此为基础实现针对健身场景的动作相似度分析系统。本文的主要工作包括:1.结合轻量级卷积神经网络的特点,对Simple Baseline网络进行优化。针对Simple Baseline参数量较多的特征提取部分,使用轻量级网络对参数量较多的主干网络进行替换。针对消耗计算复杂度较高的特征还原部分,对运算量较大的转置卷积层进行通道压缩。经优化,最终得到一种轻量且高效的轻量级基线网络Baseline-Lite,该网络的参数量仅有3.8M,运算量仅有0.75GFLOPs,分别仅为Simple Baseline网络的1/9与1/15,以牺牲少量精度的代价大幅压缩了Simple Baseline运行所需的计算开销。2.探究不同上采样方法对关键点定位精度的影响,提出一种基于比例密集聚合的轻量级人体姿态网络PDFNet。该方法的创新点在于针对多层次特征融合中存在的冗余表达问题,在同一层次内使用注意力感知的方法分别增强通道与空间特征的辨识度,在多层次特征融合时基于尺度比例调整特征中通道特征与空间特征的分布,并通过像素混洗的方式增强多层次特征间的信息交流。在COCO数据集上的实验结果表明,该方法仅以0.43GFLOPs的运算量取得了65.9m AP的精度,在同样使用轻量级主干网络的情况下大幅领先于其他代表性的方法。此外,在对主干网络进行扩张的情况下该网络还能达到68.2m AP的精度,以极少的运算量与参数量达到主流方法的性能表现。3.基于PDFNet与余弦DTW算法,构建针对健身场景的实时动作教学系统。该系统可根据用户指示切换为采集模式与训练模式。在采集模式下,该系统能采集模板动作的关键点序列并进行降噪处理,最后完成关节向量序列的构建与数据的保存。在训练模式下,该系统根据用户选定的训练动作实时输出模板动作教学视频,实时获取训练者的关键点运动序列并以关节配对的形式编码成关节向量序列,然后基于关节向量间的角度偏转情况,采用余弦DTW算法分析训练者的动作与模板动作的相似度,为健身动作的学习提供科学的指引,让训练者在无需专人指导的情况下保证健身动作的规范性。
其他文献
在当今的大数据时代,个人隐私数据的丢失尤为严重,这给个人和社会产生了非常恶劣的影响。因此,研究在大数据环境下如何保护数据安全已经成为最重要的问题之一。只有处理好信息安全的瓶颈,信息技术才能讯速、广泛地发展。本文旨在研究如何快速将敏感数据从成千上万的数据中区分出来,并对敏感的私有数据进行加密以实现保护的目的。目前,对于大数据加密算法领域,普遍存在着较短的密钥长度、加密速度慢等缺点。本文在研究原有的数
在信息化时代,每个互联网用户都可以在网上发布内容。但是这导致各大应用程序上信息过载,人们难以在内容丰富的应用中很快找到自己感兴趣的内容,于是各大视频应用开始使用推荐系统。推荐系统能够主动推送用户可能会喜欢的内容,进而解决视频应用内信息过载,以及用户不知道自己想看什么的问题。推荐系统需要根据已有的用户数据进行推荐,但是一旦数据难以收集,就会出现数据稀疏的问题。传统的视频推荐算法在面对稀疏的数据时表现
商标作为知识产权中重要的一环,在社会经济发展中发挥着无可替代的作用。作为商品和厂家的重要标志,商标不仅象征着商品的质量,也代表了商家的名誉,因此受到越来越多的重视。与此同时,随着商标图像数量的爆炸性增长,如何有效且高效地对商标进行检索已然成为知识产权保护和应用领域的难题。现有的商标检索方法还存在数据标注成本高、有效特征提取难等问题,为了更好地学习商标特征信息,获得更好的检索结果,本文提出了一种基于
随着“中国制造2025”、“制造强国战略”、“再工业化战略”等制造业相关政策的提出,信息化制造成为了各个制造企业关注的重点。各企业进行信息化建设与信息化管理的目的都是为实现低成本、高效率地完成制造生产任务,实现生产计划与制造作业执行之间的高度同步。现阶段,市面上大部分的制造执行系统可以实现制造企业的制造资源管理需求。但随着全球市场经济竞争的加剧,企业在制造管理的红利已经挖掘殆尽,定制化生产的时代到
心血管疾病是导致人类死亡的首要病症,而心脏活动状况通常可以反映身体的病理信息。心音是由心脏瓣膜突然关闭或湍流而产生的,其是评估心脏功能的重要线索。目前,听诊器是心血管疾病临床上常用的诊断用具,其在采集心音时,易受环境噪声和体内伪迹(如肺音)的干扰,从而影响医生听诊有效性。由于对心脏准确听诊需要广泛持久的训练,因此利用计算机辅助心音分析是非常有必要的。对此,本文提出基于注意力机制的卷积神经网络(Co
随着同时定位与地图构建(Simultaneously Localization And Mapping,SLAM)技术的广泛应用,如何使定位的结果更加精确,这项研究逐渐成为近几年的热点内容。RGBD相机能提取到图像中的彩色信息与深度信息,在光照变化较大、快速运动、纹理缺失的场景下仍能测距,但是在复杂环境下,系统易出现误匹配、定位不准确等问题。针对上述问题,本文基于Kinect相机构建了一种融合点线
随着智能家居概念不断深入人心,智能音箱和路由器作为家居设备在人们日常家居生活场景中扮演着至关重要的角色,但是在日常使用中音箱仅作为家庭影音的娱乐服务型终端存在,路由器作为服务终端用户也大多数是仅使用其发射出的无线信号进行上网,对其剩余资源是一种浪费,并且两者在家居场景是相互独立的个体。在本文中结合校企合作项目《新一代智能无线音箱系统的研发》,将家居场景中的音箱和路由器这两个相互独立的个体整合设计成
随着我国工业技术的发展,用电需求急剧增加,加快了我国电力技术的发展。在实际应用中传统变电技术存在着众多的问题,难以满足现代工业生产的需求。智能变电站以高集成度、高智能化、信息传输的高可靠性等特点,能实现系统各单元数据交互,提高数据共享性,在现代电力系统中应用的越来越多。本文以智能电站为研究对象,依据智能电站基本特征设计了百灵220KV智能电站。本文首先从基本概念、特征以及结构三个方面详细阐述了智能
对电子听诊器采集的肺音进行异常检测,即判断其中是否含有啰音,能够大幅提升呼吸系统疾病早期筛查的效率。但是,目前肺音异常检测还存在以下挑战:(1)标注样本少,正负样本不均衡。经过专业医生人工打标的样本少,且正常肺音数据量远大于异常肺音数据量,无法为检测模型参数的学习提供充足的监督信息;(2)肺音中往往包含大量的噪声,包括:心音、说话声等,使得检测模型容易出现过拟合问题。针对以上挑战,本文的主要工作包
工业产品质量在线实时视觉检测是智能制造的一项重要工序。目前主流的检测基于人工提取特征,然而这种方法维护成本高和系统迭代慢。另外,面对复杂检测场景,往往难以有良好效果。深度学习作为一种新型人工智能技术,在视觉任务上获得优异性能。但是,深度学习模型性能严重依赖大量带标签的样本数据。在视觉检测任务中,缺陷样本是少量,而且缺陷区域的标记是困难的,耗时的。解决此问题方法主要有:标记框和像素级标记。相比前者,