论文部分内容阅读
随着多媒体和网络技术的发展,图像作为人们生活状态最直观的表达方式,在人们生活中扮演着越来越重要的角色。大部分图像都包含了丰富的语义信息,如何在现实生活中找到用户需求的图像是我们所面临的一个难题和挑战。出色的特征表达不仅能够表示图像的类别信息,更应能够捕捉到图像的相关语义信息。为了解决上述问题,本文对基于图像自编码的神经网络特征学习问题进行了相关研究,通过在训练神经网络过程中加入通过图像自编码得到的空间关系信息,提升神经网络的特征表达能力。本文的主要研究工作如下:首先,本文分析了国内外图像检索发展的研究现状,指出了现在图像检索领域存在的关键问题在于特征表达。与此同时,回顾了深度学习模型的发展历程。通过分析深度神经网络模型中特征表达学习的过程,寻找结合深度神经网络表达和图像检索的切入点。本文发现深度神经网络能通过学习包含更多信息的标签信息提升神经网络的特征表达能力,并将其应用在神经网络特征学习中,从而提升图像检索效果。其次,本文提出了一种基于图像自编码的神经网络学习模型。该模型通过在训练深度神经网络时对训练目标加入图像对应的隐含变量信息,提升了神经网络的表达能力。该模型通过自编码,得到训练图像所对应的隐含变量表达,将之当作神经网络的训练目标,从而帮助神经网络学习到更加出色的特征表达。接着,在上述模型基础上,本文又提出了一种基于变分贝叶斯自编码的神经网络学习模型。基于变分贝叶斯的自编码模型通过学习真实的数据本质特征,能够更准确描述样本数据的分布特征。变分贝叶斯自编码在概率图模型的框架中将数据的分布特征形式化,通过最大化对数似然函数下限,刻画了样本数据的生成特征,代替传统自编码特征,提升整体模型的描述能力。最后,本文分别在公开多标签数据集PASCAL VOC 2012 Segmentation和Microsoft COCO上进行实验分析,将本文提出神经网络训练模型得到的特征分别进行图像检索性能分析、特征非监督学习分析、特征可视化分析、特征平均稀疏度分析,实验结果表明本文提出的神经网络模型较之传统神经网络具有更优秀的特征表达能力。