面向人体视觉感知理解的行人检测与行为识别方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:olivia2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体的视觉感知与理解在安防监控、自动驾驶、人机交互、视频内容分析等方面有诸多的应用前景,因而一直是计算机视觉领域的重要研究课题,受到工业界和学术界的广泛关注。多年来,研究员们围绕这一课题中的关键技术展开研究,并取得了丰硕成果。然而,目前的技术研究大多是聚焦于其中的主流问题,技术覆盖不够全面,将这些技术落地到实际应用场景时,尚存在一些诸如恶劣光照条件下对人体的检测定位不够理想,对人体细粒度行为的识别不够准确等问题。因此,针对实际应用场景面临的复杂挑战,研究更鲁棒的视觉感知算法,具有重要的现实意义。
  本文围绕人体的视觉感知与理解的关键技术展开研究,重点探索了基于多光谱(彩色图和热成像)的行人检测算法和基于骨架辅助的视频行为识别算法。具体来说,本文的研究成果可概括如下:
  ·提出了一种光照感知自适应的多谱行人检测方法。考虑到彩色图在恶劣光照下的成像质量差的固有缺陷,采用了包含彩色图和热成像的多光谱数据进行行人检测,重点对信息融合方法进行探索。将Faster R-CNN拓展用于多模态输入,讨论了6种不同的基础网络融合结构并分析了在实现细节上的优化方式。实验显示,即使是基础的网络融合方式,经过实现细节的优化,检测性能上已几乎赶上一些采用额外模块的复杂方法。还发现彩色图对行人的判别能力和光照条件有很强的相关性,于是进一步提出了光照感知融合模型IAF R-CNN,模型包含彩色图和热成像的两个子网络以及光照感知融合模块。引入光照感知加权融合机制,首先根据光照感知网络预测光照值,然后通过门控函数产生自适应的融合权重,并用以加权融合两个子网络的检测输出,从而得到最终的检测结果。实验表明,本文提出的IAF R-CNN在不同光照条件下都能鲁棒地检测行人,检测精度超过了之前发表的工作。
  ·提出了一种协同检测分割的多光谱行人检测方法。上一方法虽然对多光谱行人检测算法的检测精度有一定提升,但建立的人类检测基准显示,现有检测算法和人类感知能力相比还有很大差距。为了进一步缩小这个差距,又提出了MSDS—RCNN多光谱行人检测模型,该模型包含一个多光谱区域推荐网络用于提供行人包围框推荐,和一个多光谱候选框分类网络用于处理困难样本分类。在网络训练时,将包围框编码为语义分割掩码并作为额外的监督,采用多任务损失函数,联合优化检测任务和语义分割任务。还利用了不同模态分支和不同网络阶段的互补性,进行多分支集成得到最终检测结果。实验表明,MSDS—RCNN在检测精度上显著超过了其它方法,在KAIST数据集上较之前最好的结果降低了27%的相对误差。因为KAIST数据集原始的训练数据包含很多有问题的标注,还建立了一份纯净版本的训练数据标注,并基于此分析了数据噪声对训练所得模型的性能影响。将这份纯净版本的训练数据标注开放,希望这有助于多光谱行人检测问题上的后续研究。
  ·提出了一种骨架信息辅助的视频行为识别方法。骨架信息是表征人体行为的重要高级特征,有助于辨识细粒度的人体行为。现有基于骨架的方法大多是以固定格式的单人骨架(如13×2的坐标数组)作为算法输入的,但是真实视频中往往会出现多个人体,或有的人只有部分身体可见。本文提出了一种灵活的的人体骨架信息编码策略,可以将不规则的2D人体骨架输入编码为光点图像和位移图像,然后可直接作为卷积神经网络的输入,从而将骨架模块整合于行为识别网络中。还验证了骨架特征和全局特征是高度互补的,进而提出了一个结合全局特征和骨架特征的行为识别框架,通过加权融合方式集成全局和骨架特征。在公开数据集上验证了本文方法的有效性,识别准确率超过了之前的方法。
其他文献
光谱图像是一种通过捕获数个频率范围的电磁波进行成像得到的图像。光谱图像除仅有一个波段的单色图像外,还有包含三个到数十个波段、光谱分辨率较低的多光谱图像,与光谱分辨率在10nm范围内、常有数十至数百个波段的高光谱图像,这种含有丰富光谱信息的图像在科学研究种具有重要的作用。然而,由于超越可见光波长范围的波段无法被人类直接观察、且大量的波段数据本身也加重了计算负担,光谱图像的可视化与降维融合成为了十分重
随着科学技术的发展,每个人的生活都离不开各式各样的互联网服务。但是,互联网的服务系统却面临着信息爆炸带来的信息过载挑战。个性化推荐系统则是解决这一问题的核心方法。  现阶段面向大规模互联网服务系统中的个性化推荐主要面临着以下三大块棘手的问题:海量移动用户访问日志难以识别;项目受短期热点的影响激增;不同的协同过滤推荐应用很难利用同一个算法来提升效果。  第一个问题,是来源于用户层面的挑战。数据的获取
在信息化的时代,人们获取大量数据,从中提取关键信息,并据此做出决策。各个领域的从业者,包括科学家、分析师、记者、设计师,乃至普通大众,均意识到数据和数据分析的重要性。其间,数据可视化和可视分析作为发掘数据中有效信息、传达见解和交流与协作的高效工具被广泛运用于商业智能、城市规划、新闻传播等。  伴随着互联网、传感器、物联网等技术的不断发展,人们获取信息的能力和分析数据的需求不断增长。这样的趋势对于可
手势交互可以通过多种交互设备进行,如深度相机、彩色相机、数据手套、表面肌电电极等。基于表面肌电的手势交互凭借其易穿戴、对光照环境的鲁棒性以及对残疾用户运动意图较强的识别力等优点,成为人机交互领域的新型研究热点之一。  在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存
随着计算机技术的快速发展,互联网积累了海量的时序数据,如问答数据、社交网络数据和电商交易数据等。如何对这些时序数据中内隐因素之间的交互进行建模,理解个体用户或群体用户在时序数据中所蕴含的意图和行为,是当前人工智能领域研究的热点和难点。本文以问答系统中时序数据理解为研究对象,提出了若干算法模型并进行验证。  一般而言,问答时序数据中丰富的内隐交互信息可以分为结构时序交互和语义时序交互。结构时序交互表
学位
随着云计算、大数据和物联网等信息技术的飞速发展,全球数据呈现出海量集聚的特点。这些从不同来源所获取的海量数据反映着人类社会的生活和规律,如群体出行和交通流量。因此,如何对多源数据进行分析与理解,以更好地全面了解这些多源数据所蕴含的丰富信息,是一个值得研究的重要问题。  多源海量数据本质上是序列数据,这些从不同来源获得的序列数据之间相互补充、彼此交互,刻画着人类社会中群体的行为习惯和生活模式。本文针
学位
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。  视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文
学位
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。  在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标
由于影视和游戏制作等领域的需求驱动,三维人脸重建一直是计算机图形学中重要研究方向。与设计师人工建模不同,三维人脸重建主要从输入数据中自动塑造人脸几何。输入类型主要有:2D数据(图像或视频),2.5D数据(立体图像或视频、深度图),3D数据(点云、网格等)等。其中基于单张图像的三维人脸重建输入设备最简单,输入数据量最少,互联网上的素材量最大,因此在面向普通用户的消费级的应用中也最具有潜力。近年来,随
三维重建是计算机视觉中的研究内容之一。准确快速地获取场景中的三维信息(深度)在逆向工程、机器人、导航、增强现实等领域中有着重要作用。在获取场景深度信息的方式上,相比于较为昂贵的激光雷达、结构光扫描仪等仪器,被动式立体匹配方法通过较为廉价的设备(双目相机)即可获取相对较高精度的深度信息。本文借鉴深度学习、数理统计等理论和方法,深入研究了相机标定以及双目立体匹配算法,并将其用于高精度三维人体模型重建。