面向图像标注的张量表示与语义建模方法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:linan9348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像标注是图像分析与理解的主要研究内容之一。随着个人和网络图像资源的日益增长,图像标注在帮助用户查找感兴趣图像方面的作用也愈发突出。尽管图像标注对于人眼视觉而言几乎是一件轻而易举的事情,但在计算机视觉领域中却是一件极具挑战性的任务。这主要是因为我们从出生开始就在熟悉和理解这复杂的视觉世界,其中所涉及到的海量数据和不断进化的人脑学习机制是计算机所无法比拟的。当前,图像标注系统主要需处理好两方面问题:一是如何选择合适的图像表示方法,以能够充分表达图像内容的丰富特征信息;二是如何构建合理的语义标注模型,以实现接近人工标注结果的精确标注。针对以上问题,论文分别从图像的张量表示和语义建模两方面对图像标注进行深入研究。另外,结合网络用户对图像标注的实际需求,论文又具体研究了图像标注模型的个性化问题和网络图像数据的标签修正问题。在图像表示方面,从图像的高阶统计和结构特性出发,深入研究了图像的全局和局部张量表示方法。在图像的全局张量表示上,结合图像特征的非相关性和非负性,论文分别提出了一种正则化约束下的非负张量表示(Regularized Nonnegative Tensor Representation,RNTR)方法和一种Laplacian正则化约束下的非相关张量表示(Laplacian Regularized Uncorrelated Tensor Representation,LRUTR)方法。为了研究不同全局特征对图像语义建模的影响,论文又提出了一种图正则化约束下的非负组稀疏(Graph Regularized Nonnegative Group Sparsity,GRNGS)模型,并通过实验表明全局张量表示方法能够较好地满足语义建模对视觉特征的判别性需求。在图像的局部张量表示上,论文提出了一种基于三阶统计张量的区域描述方法,以便更好地表达图像块或分割区域的丰富内容信息。理论分析和实验测试的结果表明该描述方法比区域协方差具有更强的语义区分能力。在语义建模方面,根据图像的全局和局部特征,分别对图像标注中的主题模型、区域标记以及层次化方法展开了深入研究。在研究主题模型时,论文首先根据图像的全局特征提出了一种扩展隐Dirichlet分配(Extended Latent Dirichlet Allocation,ELDA)模型,并在此基础上结合图像语义的局部性提出了一种特定类的高斯多项式隐Dirichlet分配(Class-Specific Gaussian-Multinomial Latent Dirichlet Allocation,cs GM-LDA)模型。该模型结合了主题模型和监督学习的优点,能够兼顾模型训练的判别性与模型应用的推广性。实验结果表明这种特定类建模方法能够显著提高主题模型的标注性能。在对图像区域进行语义建模时,论文提出了一种局部高阶支持张量机(Local High-order Support Tensor Machine,LHSTM)模型。该模型直接以图像区域的高阶张量特征为输入,并采用了压缩表示的方法对不同张量特征进行相似性度量。同时,结合图像的上下文信息,论文又提出了一种基于空间能量函数的模型(Spatial Energy Based Model,SEBM),用于优化图像区域标记结果。通过实验比较不同图像表示基础上的标注方法可知,基于区域标记的方法往往能够取得更好的标注结果,这说明了区域信息对图像标注有着非常重要的作用。此外,综合考虑图像的全局和局部特征,论文提出了一种多层次图像标注方法。为了减少不同层次上的语义混淆,该方法仅考虑图像的场景层和目标层信息,并通过条件随机场(Conditional Random Field,CRF)模型实现不同语义层次的联合建模。实验结果表明这种层次化方法能够显著提高图像标注的性能,而且所学到的层次化语义信息能够更好地对图像内容进行结构性描述。在个性化图像标注方面,利用基准图像数据库与用户图像数据集的标注信息,提出了一种特定类的图像标注模型及其基础上的个性化方法。考虑到用户的标签集是相对有限的且不同用户对同一标签有着不同的理解,论文首先提出了一种特定类的加权最近邻(Class-Specific Weighted Nearest Neighbor,cs-WNN)模型,用于实现基准图像数据库的特定类语义建模。该模型结合了多核与特定类信息,显著提高了模型效率。在此基础上,论文又根据用户图像数据集的标注信息提出了一种特定类跨域学习(Class-Specific Cross-Domain Learning,cs-CDL)方法,以获得用户的个性化标注模型。实验结果表明该个性化方法能够显著提高面向用户的图像标注性能,从而为图像检索提供更加优质的个性化服务。在图像标签修正方面,分析了数据相似性和数据共现性的不同特性,并在此基础上设计了一种两步策略,以合理利用网络图像资源对图像标签进行修正。首先,论文根据数据相似性引入了一种图学习(Graph Learning,GL)模型,用于解决图像标签分布的稀疏性问题。然后,论文结合数据共现性设计了一种流形约束的非负张量分解(Nonnegative Tensor Factorization,NTF)模型,以便获取更加紧凑的用户、图像与标签间的三元关系。实验结果表明该策略能够更有效地利用网络图像数据的相似性与共现性,使得图像标签修正结果更加符合实际的检索需求。论文从图像表示与语义建模两方面开展研究,深化了对图像标注的认识,提出了一些新方法,并与现有的典型方法进行了比较与分析。实验结果表明本文的研究成果具有较好的理论意义与实用价值,提出的一些新思想对相关领域研究有着重要的参考作用。
其他文献
文章分析了目前公立医院在合同管理中存在的缺陷,强调了规范合同管理的必要性和迫切性,指出了规范合同管理的具体措施和需要关注的问题。 This article analyzes the shortc
研究统计了1949-2016年间358部少数民族电影,考察了少数民族电影不同时期的发展情况。研究发现,少数民族影片总体产量较少;题材的选取趋于保守和标签化;产业规模发展单一,进
施工测量是地铁区间隧道施工中的关键环节,在施工质量保障上发挥着至关重要的作用。文章结合厦门市轨道交通2号线二期工程矿山法区间隧道施工实例,就矿山法地铁区间隧道施工
文化自觉不只是狭义的概念,更是主体在改造对象世界的过程中所体现的精神和态度。从农民自身着手,扩展新型农民内涵,发挥农村知识分子群体和民间文化团体的作用;从外部环境着手,政
在社会经济快速发展的今天,我国对节能和环保技术的应用越来越重视,特别是近些年来,随着可持续发展战略的提出,国家已经颁布了大量的政策来对节能环保技术提出了具体的要求,
课外美术兴趣小组活动的开展,是美术课堂教学的有益补充和延续。有效的课外美术兴趣小组活动不仅是挖掘学生艺术潜能,培养美术特长生的主阵地,更是提高学生文化素养,丰富校园
农民是推动农业现代化的主体力量,他们的文化素质影响农业现代化进程。农业生产条件的现代化、生产技术优化升级、农业经济增长方式转变需要具备较高文化素质的农民,虽然农民受
伴随着变指数Lebesgue空间和Sobolev空间理论的发展,变指数函数空间中的函数找到了越来越多的具有局部"逐点异性"的物理对象与其对应,从而开创了将变指数函数空间理论应用于
为了掌握处于寒冷及夏热冬冷不同采暖矿区余废热资源状况,基于现场调研和数据计算分析结果,探讨了矿区余废热资源可提取资源量的影响因素和特征,提出了品位高低不同的余废热