【摘 要】
:
近年来,随着经济、科技、医疗等的快速发展,在世界范围内,人口数量持续上升。每逢节假日,在旅游景点、购物商场、交通枢纽等公共场所均会出现大量人群聚集的情况,一旦发生异常情况,极容易发生踩踏事故,导致人员伤亡。如果能使用架设在公共场所的监控设备进行实时的人数检测和预警,便能够有效地避免事故的发生。这使得使用监控摄像头进行人群计数成为计算机视觉领域的一个研究热点。此外,人群计数还有更多广泛的应用,例如公
论文部分内容阅读
近年来,随着经济、科技、医疗等的快速发展,在世界范围内,人口数量持续上升。每逢节假日,在旅游景点、购物商场、交通枢纽等公共场所均会出现大量人群聚集的情况,一旦发生异常情况,极容易发生踩踏事故,导致人员伤亡。如果能使用架设在公共场所的监控设备进行实时的人数检测和预警,便能够有效地避免事故的发生。这使得使用监控摄像头进行人群计数成为计算机视觉领域的一个研究热点。此外,人群计数还有更多广泛的应用,例如公共设施规划、产品导流和智慧城市建设等。目前使用深度学习的人群计数方法主要有两种,分别是基于密度估计的方法和基于检测的方法。基于密度估计的方法通过生成一张密度图来进行计数。由于监控图像中存在背景复杂、目标相互遮挡严重和尺度变化大的问题,同时在实际应用过程中,样本标注比较困难,往往只能获得少量有标注的数据,这使得密度估计网络需要有强大的拟合能力。基于检测的方法通过检测头部来计数,其较基于密度估计的方法计数精度更低,并且标注成本更高,但是可以对监控图像中的目标进行定位,有更高的应用价值。为了解决上述两种人群计数方法中的关键问题,本文提出了三种针对性的解决方法。其主要工作如下:1、为了解决图像中存在的遮挡以及尺度不一致的问题,本文设计了一个自加权多尺度融合网络来进行人群密度估计。该网络改良了特征金字塔,使其可以融合不同尺度的特征用于计数。为了减少背景的干扰,本文采用了多任务学习方式,通过添加一个注意力图生成任务来加强对人头区域的感知并忽略图像背景噪声。同时,为了提高密度图的质量,在密度估计任务中额外添加了结构相似度损失用于训练。在Shanghai Tech数据集B部分的对比显示,本文的方法能够有效提升计数的精度,和最新成果相比MAE降低了6.4%。2、针对只有少量有标签数据进行训练的情况,本文提出了一种基于Grid Mask的自监督人群计数方法。该方法使用Grid Mask擦除无标签人群图像的部分内容来减少图像中的人群数量,以此产生人群数量不同的样本对。利用这些样本可以构建一个排序辅助任务,让网络能够从无标签数据中习得和人群数量相关的特征。这使得网络仅使用少量有标签数据便能获得不错的精度。对比实验显示,在仅使用5%有标签数据的情况下,使用该自监督方法能使MAE降低20%左右。3、在无人头框标注的情况下,本文创新性地提出了一种使用人头点标注的人头检测方法。该方法可以直接使用人头点标注生成人头伪框,减小人头检测任务的标注成本,使得基于密度估计和检测的两种计数方法能够相互兼容。该方法主要通过生成用于表征检测框边长和中心点的透视图和概率图来检测人头。概率图真实值使用人头点标注直接生成,透视图真实值则通过计算中心点与其最接近的几个点的平均距离来得到。实验证明,针对比较稀疏的场景,该方法的结果表现良好,能达到和密度估计方法接近的精度。
其他文献
视频图像数据维度高、流量大、传输带宽受限,尤其在5G时代下,对高效高性能的编码提出了挑战。如何提升高清视频编码过程中图像的传输质量并确保高效压缩效率,如何尽可能地通过率-失真优化技术平衡码率与失真从而抉择更好的预测模式获得更好的编码性能,都是视频编码研究的关键问题。在问题驱动下,本文分析并建立了时域冗余模型,分别给出了图像级、块级的率-失真优化策略。具体工作分为三个方面。(1)针对编码中占比最大的
随着比特币而出现的区块链技术对传统的中心化服务理念产生了极大的冲击,导致客户更愿意青睐并非一家独大的运营模式。但是数据的去中心化和服务的可维护性却是反比的关系,位于此种关系两种极端情况下的公有区块链和私有区块链由于各自的缺点,导致其很难适应现如今的商业运行模式。联盟链的诞生结合以上两种区块链运行模式的优点,进一步克制各自的缺点,成为时下各大商业化区块链的首选。目前联盟链的日常运行完全依赖于管理员节
作为众多自然语言处理任务的基础,词语的语义表征和学习成为了近年来的研究热点。最初的大量研究成果都是针对英语,德语等符号形语言,而中文作为象形文字具有其独特的特点。于是一些中文研究者利用中文词语中字,偏旁部首,部件构造等细粒度特征对中文语义表征算法进行了优化,使得词语的语义表征在中文自然语言处理任务中效果更好。然而,这些现有中文语义表征的算法仅仅关注于词语内部原始的特征,没有深度挖掘出词语-词语之间
随着移动终端的发展,智能手机以它强大的功能吸引了非常庞大的用户,其中Android系统因为其开源、自由的特性深受开发人员的喜爱,占据了很大的市场份额,但这也为安卓恶意软件敞开了大门,所以研究一个有效的恶意软件检测方法非常有必要。目前通过流量分析来检测恶意代码的研究并不多,常见的Android恶意软件识别与分类方法多是基于静态程序分析,通过分析Android软件的API调用、权限等特征来识别和分类。
近年来,微电子和低功耗的技术发展助力了物联网系统的进步,计算密集型应用出现爆炸式增长,如无人驾驶、增强现实等,这要求网络基础设施能够提供更低的时延和更强的计算能力。多项研究表明,边缘计算是必不可少且极具前景的解决方案。边缘计算提出崭新的云-边-端架构,在离终端设备更近的地方部署服务器,从而显著减少了用户时延、网络带宽压力和云计算中心存储计算压力。在边缘计算系统架构中,有许多工作研究了静态边缘机制,
径流时间序列是一种具有代表性的时间序列,对其进行相关分析研究已有很多先例,并取得了不错的结果。然而径流时间序列受到多种复杂因素综合影响,使用传统方法不足以分析其中含有的丰富信息,而且也不能进行高效精准的预测,但是径流又对生产生活具有重大影响。所以,对于提升径流预测精度,需要引入新的预测方法、改善预测流程、提高模型预测能力迫在眉睫。本文在对某流域的河段站点上,选取有代表性的位于该流域上下游的A、B两
在新冠疫情防控期间,人脸识别在病毒流调、无接触通行、目标追踪等方面发挥出重要作用,但此类复杂的自然场景伴有诸多干扰因素,阻碍了识别性能的进一步提升。本文将研究在自然场景下如何改善跨姿态人脸识别任务的表现。该问题面临如下挑战:(1)相比于光照、表情等因素,姿态变化更容易引起自遮挡和外观扭曲等问题,使得原本处于人脸中心区域的显著特征有所缺失,进而发生一种现象:相比于类间差异(即不同对象之间的特征差异)
当前,智能医疗领域由于其旺盛的需求及庞大的发展潜力,成为了人工智能技术重点研发和应用的方向。本文拟针对三维膝关节核磁共振图像中前叉韧带疾病的诊断进行研究,算法框架包括一个前叉韧带病灶区域检测模块,以及一个前叉韧带撕裂程度病理分级模块。在病灶检测模块中,本文建立了以三维卷积核为基础的卷积神经网络,对三维图像中的空间特征和结构特征进行了充分提取;考虑到医疗图像中病灶点尺寸较为固定,因此在训练网络之前先
在云计算不断发展中,软件服务化趋势越加明显,用户通过网络即可使用应用提供的服务,服务慢慢变成应用构建基础,成为云产品的基本形态。FaaS(Function as a Service)以函数为单元提供服务,符合云发展的趋势,并且作为一种新型计算方式成为了云计算未来发展的一个方向。FaaS的出现使用户专心于编写和上传核心的业务代码,由FaaS负责创建和维护相应的计算、存储、网络等资源。用户完成编写并上
根据某篇目标论文寻找相似论文,是科研人员的常见需求,学术论文推荐系统能够帮助科研人员从快速增加的海量学术大数据中过滤提取有效信息。推荐算法是推荐系统的主要研究对象之一,不同的推荐算法适用于不同的数据。学术论文包含多属性特征,既可以使用基于文本特征的推荐算法,也可以根据引文、共引等信息构建同构网络、根据文章、作者、机构等信息构建异构网络,对网络使用基于图特征的推荐算法。现有的论文推荐方法存在许多问题