视频摘要和目标重识别中的关系学习

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hedayang82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的发展,计算机视觉相关技术在近些年来取得了巨大的突破,比如物体和人脸识别,物体检测以及物体分割等等。但在计算机视觉领域普遍缺乏对于关系的学习,比如物体检测当中多个物体之间的关系,人和物体交互检测时人和多个物体之间的关系,以及视频任务中帧与帧之间关系的学习。而对于特定的计算机视觉任务,关系学习可显著提升其性能。本文利用关系学习帮助视频摘要和目标重识别两个特定任务,并展示了关系学习在视频摘要和目标重识别中的重要性。视频摘要的目的是在保持原有视频故事完整性的条件下尽可能减少视频的长度。随着目前如哔哩哔哩、抖音等视频网站和短视频应用的流行,每天网络中会产生大量的视频数据。这对服务器存储、网络带宽和人工处理视频等方面带了巨大的成本,因此视频摘要技术近些年来受到了极大的关注。但目前该领域存在两个问题:1).标注视频的成本非常大;2).如何高效地学习视频中帧与帧之间的关系。这两个问题可以分别通过无监督学习和关系学习来解决。目标重识别任务是科幻电影中常见的天眼系统的核心技术之一,其目的是在跨摄像头跨视角的条件下寻找指定的人或者物。该项技术是计算机视觉技术中最先落地到实用的技术之一,并被广泛应用于城市安防摄像头中。虽然基于特征学习和度量学习的目标重识别算法近些年来取得了非常大的进步,并且算法的精度可以基本满足现实生活中安防系统的需求。但是这些方法仅考虑查询图片和单视角下单摄像头的匹配,没有利用多个摄像头之间的关系。因此,当出现特别相似的图片时,现有的算法很有可能产生错误的匹配。而关系学习可以被用来解决此种问题。虽然视频摘要和目标重识别属于计算机视觉领域中不同的问题,但两者的共性在于如何针对问题的特点设计高效的关系学习模块。本文从关系学习的角度出发提出了两种深度学习算法,分别应用于视频摘要和目标重识别。其中主要成果如下:·我们提出了一种新颖且简单的无监督视频摘要算法。该算法利用了条件生成对抗网络(GANs)实现无监督学习,并且在视频摘要领域中首次应用自注意力机制来学习视频中帧与帧之间的关系。此外,我们设计了一个条件特征选择器来引导GAN模型聚焦于整段视频帧中更重要的时间区域。·我们提出了一种新的基于深度图卷积网络(GCN)的连接特征学习(LFL)算法。底库之间的关系被用来在GCN模块中建立图的边以避免密集和无意义的连接。另外,在构建图的过程中,我们提出了一种高效且有效的困难样本采样器,在保持合理的图大小的同时,可以获得较高的正样本召回率,同时也可以减弱分类不均衡的影响,避免较高的计算复杂度。此外,我们证明了该框架是一个通用且灵活的模块。·大量实验结果表明我们的无监督视频摘要算法和目标重识别算法在多个现有的公开数据集上均达到了最优性能,进一步证明了关系学习可显著提升视频摘要和目标重识别两个任务的性能。
其他文献
随着人工智能和深度学习的兴起,推动统计学习发展的同时,知识图谱也受到了国内外广大学者的关注和研究。目前,知识图谱主要有着智能问答,推理推荐,图嵌入等方向的研究,而这些研究主要被应用在医疗、金融、企业管理以及一些大型的搜索引擎,例如谷歌Google、百度和微软Bing。同时,随着时代的进步,世界各国对科学与技术的投入与日俱增,每年有大量的年轻学者加入到科研的行列,世界范围内被发表的论文也呈指数增长。
现有的基于内存的分布式计算框架比如Spark和Tez,会使用内存去缓存中间结果。缓存为这些框架提供了很好的支持,可以大幅度地提升分布式处理引擎的处理速度。因此,分布式内存处理引擎的性能和缓存的功能息息相关,在一些场景下,缓存甚至成为了性能提升的瓶颈。然而,现有的系统中一般使用的是最为简单也最为常用的缓存策略,即最少最近缓存策略(LRU)来对缓存进行管理。虽然LRU有很多良好的性质,比如代价开销小,
视频中的行人跟踪与计数是计算机视觉方向的重要研究领域。近期,基于相关滤波(CF)方法在视觉目标跟踪任务上展示出良好的性能。然而,基于相关滤波方法的模型往往面对模型退化问题:当学习率较低时,模型的更新过程跟不上跟踪目标的巨大变化、变形,或者快速移动。而高学习率时,跟踪模型则对于如遮挡干扰不够鲁棒。为了跟踪模型能够有效地应对此类变化,必须确立一个渐进式更新机制。我们使用了一个内插模型利用原有数据中的时
近年来,计算机自动读取医学影像并辅助医生进行诊断成为热门。计算机辅助诊断系统可以极大地减轻医生读片负担,缓解医疗资源分布不均衡的问题。近年来深度学习的迅速发展和计算机视觉领域的广泛应用为进一步提升计算机读片的准确性提供了参考。由于某些疾病的特殊性,很多病灶在医学影像上的特征并不明显。患者与健康人之间的差异较小,同一种病灶在不同患者的影像中也可能展现不同的特征,这就使得自动诊断系统在区别患者与健康人
视频作为重要的信息载体,与我们生活的联系日益密切。现如今,人们可以随时随地拍摄和分享视频。然而手持摄像设备拍摄的视频会受抖动问题的困扰,从而给视频观看者带来不适。因此需要对抖动的视频进行稳定化处理,即视频稳像。另外,视频稳像技术也可以用于其他视频处理过程的预处理步骤,例如目标检测、视频压缩等等,提高这些任务的准确性和鲁棒性。目前的视频稳像算法能够在一定程度上处理抖动的视频,但仍存在一些问题。此外,
人脸表情识别作为人脸识别中的关键一环,在自动化人脸分析的研究领域中不可或缺。基于人脸表情识别技术的市场正在蓬勃发展,在人机交互、社交网络建模、智慧医疗、智能通信、自动驾驶等领域,人脸表情识别技术已经成功转化为市场认可的产品或服务。更多的应用场景也在探索中,其中,教育领域是一个尚未充分开发的潜在应用场景。对于计算机而言,人脸表情识别任务通常就是将图像或者视频帧分类到诸如生气、恶心、害怕、开心、伤心、
目标检测算法是计算机视觉中非常关键的技术,并且它作为基础算法被用在相当多的应用场景和研究领域中。在本篇论文中,我们提出了一种创新性的目标检测器训练方法。由于一阶目标检测器的训练通常是同时优化分类损失函数和位置损失函数,前者由于锚点数量大而导致了极端的前景-背景类不平衡问题。本文提出了一种新颖的框架,用排序任务代替一阶目标检测器中的分类任务,并采用平均精度损失函数(AP-loss)来作为排序任务的目
多实例多标记学习在生物医学图像领域的是广泛存在的,探索解决这一类问题的通用解决方案具有重大意义。我们选取了基于免疫组织化学图像进行亚细胞定位问题以及对果蝇胚胎发育图像自动注释问题进行了探讨,期望我们的方案能对解决其它生物医学场景的多实例多标记学习问题提供参考。人类蛋白质图谱(HPA)中的组织图谱包含免疫组织化学(IHC)图像,其通过可视化的方式展示了从组织水平到细胞水平的蛋白质分布,这为研究人类空
近年来,随着医学与计算机科学的不断发展,医疗方案的相关推荐方法得到了越来越多的的关注。将人工智能的相关算法应用于医疗方案的推荐上,势必能改善医学诊断,并辅助医生做出更好的诊断,以造福人类。文章紧密围绕医疗方案推荐算法及其应用这一话题展开讨论,研究提升推荐准确性和加快推荐速度的方法。首先,文章介绍了基于知识的医疗方案推荐方法以及基于案例的医疗方案推荐方法。这两种方法被作为文章研究的基础。针对基于知识
高职院校在生源扩招和师资扩充的背景下,针对师德师风建设过程中存在的教师党支部建设弱化、引领师德师风作用不强;教师法治意识需要完善、规则意识有待增强;师德师风建设长效机制不完善、监督引导不充分等困境,通过强化党对教师的引领,铸牢思想之魂;强化教师法治教育、纪律规范教育;建立健全师德师风建设长效机制,激发教师师德师风自我完善意识来开展高职院校师德师风建设,助力高职院校打造政治强、情怀深、思维新、视野广