论文部分内容阅读
随着移动互联网和云存储技术的发展,以及移动媒体应用与社交网络的出现,近年来多媒体数据(文本、图像和视频等)呈现出指数级爆炸式增长的趋势。图像数据作为多媒体数据的一种重要表现形式,具有表达能力强,信息丰富的特点,受到人们的广泛关注。然而,图像数据的迅速增长给传统人工管理和分析的方式带来了巨大的机遇和挑战,成为多媒体和计算机视觉领域的研究热点之一。 本文以计算机视觉技术为基础,研究大规模图像检索的理论方法和实际应用。采用视觉码本学习,中层属性建模,语义概念学习等方法进行多层次的属性建模和知识学习,以此建立底层特征与高层语义之间的可靠关联,实现大规模图像检索。从底层特征到高层语义,一方面是对非结构化的图像数据进行量化分析,将海量的图像数据转化为丰富的底层视觉特征进行表达和存储;另一方面是建立底层视觉特征到高层语义的映射,建立索引并通过检索技术进行匹配和查询,从而为人们提供获取信息和管理数据的有效手段。 本文主要研究内容和贡献如下: 1.基于空间约束的商标图像建模与检索。针对单一底层视觉特征难以解决“语义鸿沟”的问题,本文引入不同种类特征间存在的空间关系对底层视觉特征进行约束,同时提出一种局部特征的动态融合技术,构建鲁棒的具有空间约束的特征描述子。依赖伪反馈技术,该方法能够自动地选择不同图像之间最具表达力的特征。实验表明该方法在商标图像的检索和识别任务中可有效地减少特征间的错误匹配,提高准确率。 2.基于结构学习的图像中层属性表达和分类。针对人工定义的图像属性难以充分表达图像内容中存在的视觉特性,本文提出一种数据驱动的图像中层属性建模方法。该方法结合非监督的谱聚类和结构化约束的特征选择技术构建优化目标函数,自动地学习每一类图像中特有的视觉属性,形成有效的图像中层属性表达。实验表明以中层属性为基础构建的特征描述,可在图像分类任务中取得较高的准确率。 3.基于结构属性的大规模服装商品检索。针对底层视觉特征缺少高层语义描述的问题,本文结合人体部件检测的最新研究进展,提出嵌入人体结构属性对底层特征进行有效约束,形成具有人体结构属性的视觉特征词组。依赖有效的高阶查询和具有结构约束的倒排索引,实验表明在大规模服装商品图像的检索任务中,该方法在有效地减少“语义鸿沟”提高检索准确率的同时,检索效率也得到提升。 4.基于多视角知识学习的图像标注与检索。本文提出基于模型和无模型共存的多视角语义概念建模方法。该方法利用搜索引擎中的用户点击数据建立底层视觉特征和高层语义查询之间的隐性关联,对高层语义概念建立多视角的视觉知识库,并将视觉知识嵌入到标注模型。实验表明在标准数据库上,该方法取得的标注和检索性能均有显著提升。 5.基于语义实体关系和知识传播的图像标注与检索。针对目前个人照片集缺少准确的语义描述集合和大规模训练数据的问题,本文提出通过知识学习的方法自动挖掘个人照片数据中的语义实体结构。借助已有的大规模网络训练图像,提出利用无监督的自动编码机在两个图像集合中学习共有的中层属性,并以实体关系作为高层语义知识先验对网络结构进行精调的深度学习训练框架。实验表明该方法可实现有效的跨领域的图像建模,标注和检索。