论文部分内容阅读
近年来,随着计算机和网络通信技术不断发展,视频作为信息传播的媒介受到越来越多的关注。如何在海量视频数据中快速准确地查找出人们所需要的视频内容成为当前的研究重点。视频检索技术目前主要有基于文本的方法、基于内容的方法以及基于深度学习的方法。其中,目前检索效果最好的是基于深度学习的方法,其最具有代表性的是VGG16和Alexnet算法。但是,基于深度学习的神经网络算法都存在以下几种问题:参数过多,在训练数据有限的情况下,会产生过拟合现象;网络结构复杂,计算复杂度大,对于硬件需求过高;网络结构越深,容易出现梯度弥散的问题,导致模型的优化较为困难。针对以上问题,本论文提出一种基于图像切片的图像识别算法,采用多级KNN算法构建中心向量,利用中心向量代替卷积神经网络作为特征提取的主要方法,并将乘法运算替换为加法运算,可以有效减少神经网络参数过多以及结构复杂所带来的问题;其次采用类词袋模型的相似度比对算法进行图片识别,本论文对中心向量进行编码后,根据编码构建待检索图像和图像库中图像的标签向量,之后通过比对两者的标签向量进行图像识别的操作。本论文在特征提取部分提出了一种多级类KNN算法,算法每次从待检索图片特征向量中取出一条切片向量,用该向量与所保存的所有中心向量进行曼哈顿距离计算。若某一个中心向量与待检索图片切片向量距离接近,则可说明二者内容相似,则用中心向量替换待检索图片切片。若待检索图片切片向量距离均大于所设定的阈值,表明当前保存的切片均不和待检索图片切片相似,则自动将该切片作为新的中心向量加入所保存的切片向量集中,从而增大中心向量类别的覆盖范围。对于得到的中心向量集,本论文与基于kmeans聚类方法得到的中心向量进行对比实验,将得到的替换后的图片进行复原,与原图进行曼哈顿距离计算。经过实验证明,本论文提出的方法复原后与原图比对得到的单一像素曼哈顿距离比聚类算法得到的距离绝对值少0.0002,所需要的训练图片数量比聚类方法节省50%左右。在相似度比对部分,本论文提出一种类似于词袋模型的标签向量比对算法。该算法首先遍历所有中心向量,并以“图像名_起始行数_起始列数_终止行数_终止列数_通道号_id”的格式进行编号,使每一个中心向量切片都有唯一的id。将图像库和待检索图像的所有图像切片用与其曼哈顿距离最近的中心向量的id进行代替,得到图像的标签向量,之后利用标签向量进行比对。若待检索图像的图像切片不属于任何中心向量,则自动将该切片保存在中心向量集中,使得系统具有边训练边学习的能力。最后在系统实现方面,本论文将所提出的算法引入视频检索系统中,证明了算法的可行性,并与基于VGG16和Alexnet网络的视频检索技术进行实验比对。在相同平台下,以本文所提出算法为基础构建的系统,整体运行时间相比于目前通用的基于深度学习的视频检索算法节省了30%,并且检索准确率提升了1%。因此,本论文所提出的算法能够为后期视频检索硬件系统开发打下基础。