基于压缩卷积神经网络的跨媒体检索方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:punk123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体技术的飞速发展,网络上各种形式的媒体内容(文本、图像、音频、视频)大量涌现并呈爆炸式增长,如何让计算机能够快速准确地理解多媒体信息内容并挖掘不同模态媒体之间的关联信息以实现跨媒体的检索,成为人们快速从混杂而又庞大的多媒体信息中获取到自己所需有效信息的关键。近年来,深度学习在信息检索领域发展迅速,因其强大的功能,也越来越多地被人们用于跨媒体检索的研究中。由于成熟的深度神经网络模型参数数量大,计算量大,所以跨媒体检索信息的速度会受到相应限制,直接影响使用者检索信息的体验感。本文简要分析了跨媒体研究现状,对已有的跨媒体检索方法进行总结。在综合分析了已有的跨媒体检索方法的基础上,以图像和文本的双向检索为切入点,针对深度卷积神经网络模型计算量大的问题,提出将压缩卷积神经网络用于图像和文本双向检索的跨媒体检索方法并取得了较好效果。本文的主要工作如下:(1)分别采用预训练的通道剪枝的VGG-16(Channel Pruning VGG-16)压缩卷积神经网络和经过目标数据集微调的Channel Pruning VGG-16压缩卷积神经网络来提取数据集图像底层特征,采用狄利克雷(Latent Dirichlet Allocation,LDA)文本主题模型来提取数据集文本主题特征,然后在更高抽象语义层次上表示图像和文本,将“异构”的图像底层特征和文本主题特征分别送入多类逻辑回归模型进行分类训练,得到在同一语义空间的图像类别概率特征向量和文本类别概率特征向量,再利用文本类别概率特征向量对图像类别概率特征向量进行正则化,使得图像特征更有语义判别能力,最后利用去均值化的余弦相似度度量算法计算图像类别概率特征向量与文本类别概率特征向量之间的相似度,采用相似度大小矩阵计算平均准确率均值(Mean Average Precision,MAP)评估实验结果。在不同数据集上进行验证,其结果表明,将压缩卷积神经网络运用到图像和文本的双向检索中,能够在保证检索结果准确率的基础上提高了检索速度。(2)在上述算法的基础上,利用基于数量积的相似度度量方法来计算图像特征向量与文本特征向量之间的相似度,进一步提高图像和文本的双向检索结果的准确率。两个向量的数量积不仅表征两个向量之间的夹角,也表征一个向量在另一个向量方向上的投影,既考虑到了两向量之间方向上的差异,又考虑了两向量模大小的差异。因此,将数量积用于计算图像特征向量与文本特征向量之间的相似度,可以从方向和绝对数值两个方面区分图像与文本的差异。在不同数据集上的对比实验结果表明,使用数量积相似度度量算法计算图像特征向量与文本特征向量之间的相似度能够进一步提高检索的准确率。
其他文献
以人工智能、大数据等技术为基础的智慧教育是当今教育的发展方向,智慧教育的核心是个性化教育,即以学生为中心,围绕学生的学习需求开展教学工作。但是目前个性化教育在导学
聚酯纤维的适用范围日益广泛,市场需求量不断增长,生产规模急速扩大,使得聚酯纤维生产厂家之间的竞争日益激烈。随着高新技术产业的迅猛发展,聚酯纤维行业也开启了一个新的纪
由于原油性质、产品要求等因素变化,石化生产单元的实际操作常常偏离设计工况,造成能耗提高、产品分布变差等一系列问题。如何适应工况变化,在不改变流程和设备的条件下,契可
膜蒸馏技术是一种利用疏水性的微孔膜并以膜两侧温差为推动力使得热侧挥发性物质穿过膜孔在冷侧冷凝富集的一种物理分离技术,是膜技术中一种有效分离有机废水中氨氮、苯酚等
随着互联网信息技术的迅猛发展,文本数据出现爆炸式增长。面对繁杂的文本信息,如何有效地管理和分类文本数据,帮助用户快速、准确、全面地找到所需的信息,是一个很有意义的研
婚礼是中华优秀传统文化的重要组成部分,互联网时代下媒介技术的革新为中华传统文化的传承和创新式发展提出了新思路。在当今文化消费意识持续渗透背景下,大众通过何种渠道对
随着科技水平的不断提高,模数转换器(Analog-to-Digital Converter,ADC)在当代信息处理系统中得到越来越广泛的应用,但在高速信号领域仍无法满足人们对精度和采样速率的要求
政务信息化对于提高政府部门的工作效率,有效利用业务处理过程中的大量信息,降低整个过程的运营成本,提供更好、更快捷、更优质的服务,具有重要意义.本文面向缅甸海事部门的
燃料电池是一种能量转换装置,通过电化学反应将存储在燃料和氧化剂中的化学能直接转化为电能,拥有能量转化效率高、低噪音、无污染和长寿命等优点。在聚合物电解质膜燃料电池
近年来物联网的发展加速了互联网接入设备数量的提升,这些接入设备每天都会产生大量的多模态时序数据。相对于单模态数据,多模态数据能够描述更加丰富的场景,因此不同模态数