基于注意力机制的视频检索技术研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:hemir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展给视频传播带来了极大的便利,抖音、B站等视频平台的出现也使得视频数量急剧增长。面对数量巨大且结构复杂的视频数据,如何高效检索出用户需要的内容成为目前检索领域研究的热点和难点,传统基于文本的视频检索方法已经难以满足人们日益增长的需要。因此,基于内容的视频检索方法随之产生并得到广泛应用,本文主要对该方法中的视频特征提取部分进行改进,主要做了以下工作:第一,视频数据相较于文本和图片携带了更加丰富的内容,视频可以理解为由视频帧按一定时间关系排列而成的集合。因此,视频数据相对于图像的检索也变得更加困难,目前大多数视频检索方法并没有对视频帧之间的时序关系进行学习。针对这一问题,本文使用卷积神经网络与双向LSTM网络相结合的方式对视频特征信息进行提取,传统的单向LSTM网络能够提取视频的时序信息但不够全面,通过改用双向LSTM网络能够获取过去和以后更为完整的特征信息。通过使用该网络不仅能获得视频的空间特征,还能对视频帧与帧之间的时序信息进行提取,使得视频内容得到充分表达。第二,对于视频而言,不同视频帧对于视频内容的表达作用是不同的,但目前大多数视频检索方法对此不加区分,这样会对视频特征提取带来大量冗余信息,进而对视频检索的效率和准确度产生影响。本文通过使用基于注意力机制的视频检索方法,在Res Net50网络基础上,将SE模块嵌入其中实现对不同通道特征进行加权计算,使能够促进视频表达的内容获得更大的权重,同时减小对视频表达作用较小内容的权重,从而减少特征信息中的冗余信息,并进一步提升视频特征的表达能力。最后,使用本文方法在公开数据集上进行相关实验,相较于之前的视频检索方法效果有所提升,同时设计并实现了基于该方法的视频检索系统,证明了本文研究的可行性和实用性。
其他文献
信用贷款是国家用有偿方式动员和分配资金的重要形式,是发展经济的有力杠杆。信贷业务在银行业务中占据重要地位,尽管欺诈发生的可能性相对较少,但欺诈产生的影响却可能很大,阻碍着国家数字经济的平稳运行。信贷欺诈现象已经成为不容忽视的问题,因此研究及时准确的信贷欺诈检测方法至关重要。信贷欺诈检测属于异常检测的范畴,异常检测的痛点在于可用数据集中缺乏足够的异常样本,即数据集为类不均衡数据。随着基于深度神经网络
学位
随着蓝色经济的发展,海上智能移动终端(如无人巡逻舰、浮标传感器、智能移动设备等)数量呈指数级增加,海上移动终端对计算资源需求不断增加。陆地通信技术的快速发展使人们适应了拥有互联网的生活,在陆地环境中对互联网的高度依赖,促使涉海人员对海洋物联网同样产生高度依赖。海洋物联网利用互联网技术,将智能设备相互联通,构造出一个覆盖海洋环境的物与物互联网络,获取大量海洋数据并进行实时分析处理,实现对海洋设备系统
学位
现今人机交互的工作场景越来越丰富,识别作业者大脑的工作负荷(脑力负荷)水平并做出及时警示,能有效减少意外事故发生率以保证生命安全,并且在一定程度上提高工作效率。心电信号(electrocardiogram,ECG)不能人为地控制和伪造,而且心电信号的采集安全、便宜、无创,并且易于使用,不会影响从事危险工种人员的日常作业。心电信号的自动分析技术是目前脑负荷分类中的一个重要课题,但是由于心电信号的个体
学位
随着大数据时代计算机技术的高速发展,每天都会有海量的数据在互联网中传输,丰富的互联网资源使用户能够获取到大量的信息支持,从而在现实生活中得到极大的便利。然而,当人们面对如此庞大的数据量时,如何迅速得到所需要的信息成为了当前亟待解决的难题。传统的思路是以关键字匹配的信息检索技术进行数据筛选,然而面对数据量的日益膨胀,性能的提升却不尽人意。自动问答系统在语言模型上对问题与答案进行建模,深层次挖掘语义信
学位
在我国总体经济中,畜牧养殖业始终占据着极其重要的位置,尤其在我国北方,畜牧养殖业更是地方经济的支柱性产业。这就势必会对我们生活的环境带来一定的影响。本文将先对畜牧养殖业作一定的概述,然后详细分析畜牧养殖业对环境的各种影响,主要包括空气污染、水污染、土壤污染等。最终,提出相应的对策,希望可以促进畜牧养殖业的可持续发展。
期刊
互联网技术的飞速发展使得电子投票的使用日渐广泛。相较于传统投票,电子投票省时省力,节约资源。然而新的技术也面临新的挑战,电子投票在数据传输、信息保护和数据完整性等方面面临的风险要远高于传统投票,投票者不仅担心自己的信息被窃取,也质疑电子投票是否公平公正。而区块链凭借其不可篡改、公开透明和去中心化等特性为电子投票技术带来了新的发展方向。利用区块链技术和零知识证明算法,实现不依赖第三方,保护投票者隐私
学位
中文文本检错是自然语言处理的一项重要任务,具有广泛的应用场景和重要价值。随着文本量的急剧增加,单纯依靠人工进行错误检查费时费力且效率低,研究者开始采用深度学习技术进行文本检错并取得了良好效果,但目前的研究多集中在针对待检错文本的特点设计高性能检错模型,通过增加模型复杂度,采用大量数据来驱动模型性能的提升,忽视了知识在提升模型性能中的潜在作用。本文针对上述问题,以拆字知识和义原知识为基础,研究外部知
学位
电能质量数据随电网运行而持续产生,对电能质量数据的聚合查询是了解电网电能质量状态的重要手段。电能质量数据具有数据量大、维度高等特点,获取精确查询结果往往时延较大,无法满足电网交互式查询的需求。为此,电能质量大数据聚合查询引入近似查询思想,通过牺牲一定查询精度换取更短的查询时延可能是一种行之有效的方法。但现有基于抽样的近似查询相关研究在面对电能质量数据聚合查询需求时存在分层抽样误差较大,样本更新不及
学位
通用视频编码标准(Versatile Video Coding,VVC)在高效视频编码标准(High Efficiency Video Coding,HEVC)的基础上,改进并引入了大量新技术。Merge技术通过周围已编码块来获得当前编码块的运动矢量,有效提升了帧间预测效率。然而该技术尚有很多不足之处,其中的帧间帧内联合预测(Combined Inter and Intra Prediction,
学位
近年来,医疗服务体系的信息化建设已得到国内外的普遍重视,大量政府机构及企业均在数字医疗领域取得了一定的进展。其中,电子健康记录已逐步成为主流的医疗数据存储形式,这既可以令医疗机构更好的统一管理患者数据,也便于医师开展后续治疗。然而,当前多数医疗机构的信息系统采用各自独立的中心化存储方式,这一方面使得医疗机构间难以进行高效的数据互联互通,给患者跨机构就诊带来不便。另一方面,此类信息系统也极易受到黑客
学位