图像语义标注与检索方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:da_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体技术的快速发展,可以预见在未来,图像等多媒体数据将继续爆炸性增长。迄今为止,现代化的信息采集手段已不再局限于用精炼的文本或者属性关键词来概括目标事物的特性,更有可能通过图像等多媒体手段对其进行原始而直观的描述,从而减少信息的损失。因此,面对海量的图像等媒体内容,如何有效地进行智能化管理变得尤为重要,也成为当今一个重要的研究内容。  图像自动语义标注方法是图像智能化管理的一个重要体现,它试图在图像的高层语义信息和低层特征之间建立一种映射关系,于是缓解了“语义鸿沟”的问题,进而可以把图像检索问题转化为成熟的文本检索问题。传统的标注方法考虑了如何建立图像低层视觉特征与高层语义概念之间的映射,在语义关联方面还存在诸多未得到很好解决的问题。很多方法仅在平衡的语义概念小字典上完成,然而这种约束未必能够在真实数据集上得到满足。为了克服这个局限性,文中设计了一个基于隐马尔可夫模型的图像自动标注方法IAMM,该方法把图像标注过程看作是检索有相互关联的隐藏语义概念序列的过程,通过同时考虑视觉内容和语义关联来检索出未标注图像的合理隐藏语义概念序列。在IAMM方法里,全部隐藏语义概念可以构成一条一阶马尔可夫链,两个隐藏语义概念之间的边权重代表它们的语义关联性。考虑到图像语义概念分布的不平衡特性,在计算发射概率和转移概率两个子过程中,语义概念的权重基于训练数据分别通过梯度下降方法和迭代方法获得。实验结果表明该隐藏语义序列较好反映了图像的内容。  一些图像标注方法考虑利用语义关联来提高图像语义标注的效果,其抽取的语义或者是基于本地图像数据集的局部语义,或者是基于互联网海量数据集的全局语义。但是,在真实数据环境下,语义概念的分布通常是不均衡的,存在大量的稀疏语义概念,这导致抽取的局部语义存在“失真”现象。而对于全局语义,其抽取语义的数据集通常是独立于本地图像集的外来异质数据集,所以该全局语义并未完全反映本地图像库的语义特性。为了合理地抽取语义,文中构造了一种基于局部语义 与全局语义联合学习的概念依赖网络CIN,该网络既反映了通用的语义依赖,又反映了本地图像的语义特性。对一个语义概念而言,当来自于CIN的强依赖概念集以较强的视觉证据出现于未标注图像中时,图像标注方法考虑提高该语义概念的预测概率。  体现图像数据智能化管理的另一项技术是图像的语义检索,它包含了人们对图像内容的理解,让计算机按照人们的主观意识与理解来检索图像,从而可以最大程度地满足用户的检索需求。传统的研究工作主要关注单概念图像检索方法,这部分限定了其实际可用性。为了执行多概念图像检索,传统方法使用单概念检测器来执行多概念检索,但是,语义多概念检索项所构成的视觉场景具有独有的视觉特性,仅使用传统的单概念检测器往往不大奏效,MCRM方法考虑构建并使用多概念检测器,它把一个语义多概念当做一个有语境的整体,而直接从重新整理的多概念训练集中学习出来。同时,传统的单概念检测器可以较好地检测单个语义概念,MCRM方法考虑了这两者的概率结合以提高多概念图像检索的效果。为了衡量两个语义场景多概念间的语义依赖,MCRM检索方法提出了三种估算语义依赖概率的方法,而一个语义多概念是否存在于图像中的视觉证据被贝叶斯规则转换后交由支持向量机去概率估算。  在Web 2.0/3.0时代下,Web图像数据往往伴随着相关联的社会化文本标签数据,图像与文本双模态数据可以提供互补的信息,因此文中提出了一个用于多概念图像检索任务的图像与文本双模态关联学习方法(BLMQ),该方法对于视觉模态、语义依赖以及文本模态三者建立了关联,因此,获得了更好的双模态多概念图像检索效果。此外,对于传统的单模态多概念图像检索任务,为了解决带语义标注训练图像不充足的问题,考虑把互联网上未标注的双模态Web图像数据利用起来,以提高小训练样本情况下的多概念图像检索效果,于是提出了一个基于半监督式学习的BLMQ方法,它首先依据已标注小样本双模态图像训练出双模态分类器,然后应用该分类器去标注Web样本,最后基于所有样本训练出单模态分类器。实验结果表明,基于BLMQ的多概念图像检索方法在上述两种场景下均取得了较好的效果。
其他文献
随着因特网的不断发展,组播技术变得越来越重要。由于组播技术的高的带宽利用率,组播技术已经赢得人们的青睐。MLDv2是IPv6下的组播组管理协议。但是MLDv2协议过于复杂,实现
Web服务是基于网络的自描述、自包含的模块化应用程序。现今越来越多的企业开始将部分应用程序作为Web服务来发布。随着Web服务应用的日趋深入,服务消费者对于服务功能与服务
人脸检测广泛应用于视觉目标检测,是入脸分析、定位以及人脸识别的主要组成成分之一,在众多的应用中(例如安全、新通信接口、生物鉴定和其他方面中)占有主导地位。 给出一幅图
随着科学技术的快速发展,嵌入式设备已经成为人们日常生活不可取代的一部分。人们对交互界面的追求使得嵌入式图形系统越来越需要提供清晰流畅的显示。android系统广泛的应用
自百年前伦琴发现X射线以来,医学影像及医科手术的可视化相关研究经历了革命性的发展。医学知识、物理概念、数学方法和计算机科学理论有机地融合在医学图像处理及图形计算之
将网络课程应用于播音与主持艺术类课程在现实的需求下蓬勃发展,但远未完善,在许多方面不能满足用户的需求,从总体上看就是用户体验不高。RIA是鉴于网络应用中出现的用户体验不
在企业应用系统开发上,J2EE技术占有一个十分显著的地位。从最初经典的EJB架构,到最近流行的轻量级容器架构。众多的企业和开源社区在此做出了深入的研究,并提供了许多优秀的
NAO机器人是一款多用途仿人机器人,它凭借着出色的外形以及先进的人机交互体系慢慢走进了人们的日常生活之中,但是如果希望NAO机器人在家中能够像人类一样自由的行动,完全听
随着计算机网络的发展,软件的安全性成为备受关注的一个方面。越来越多的软件因为自身存在的安全漏洞,成为黑客以及病毒攻击的对象。软件测试是验证软件正确性以及检测软件故
随着电子文本的普及和广泛应用,电子文本逐渐成为人们传递信息,记载重要文件的主要手段之一,针对电子文本的信息隐藏的研究应运而生。文本信息隐藏是指在电子文本中嵌入一些