基于语义绑定的分层视觉词汇库的图像理解算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:DragonJiang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技和多媒体技术的不断发展,数字图像的应用已经渗透到社会生活的方方面面。同时计算机科学也在飞速的发展,硬件设备和软件设备在功能和性能方面不断地进步和创新。在这样的背景下,近年来图像理解问题成为了计算机视觉领域中的研究热点之一。所谓图像理解是指通过设计和实现相关模型和算法,并基于计算机的运算对输入的图像的图像语义和图像内容进行识别,从而让计算机像人类视觉一样能够明白图像所传递和表达的意思。图像理解研究的应用领域相当广泛,在医学医疗,安全控制,军事科技等领域都能见其身影,但是由于应用需求和应用范围的不断深入和拓宽,图像理解这一研究领域正在受到更加多的关注。本文在总结分析了近年来国内外对于图像理解研究领域的相关研究成果后,首先提出了分层语义模型的概念。分层语义模型通过对于语义空间中所涉及的图像语义的分析,能够将语义空间中的图像语义构建成具有上下层关联的语义模型。论文在提出分层语义模型的同时,还给出了对于图像语义相互联系和自身属性的定义。在提出了分层语义模型的概念基础上,本文继而提出了语义绑定的分层视觉词汇库的概念,并阐述了其构建的方法和讨论了相关细节问题。语义绑定的分层视觉词汇库是在分层语义模型的模板上而建立起来的基于SIFT(Scale-Invariant Feature Transform)图像特征的视觉词汇库,它是由具有分层结构的若干子词汇库组合而成,每一个子词汇库都与一个特定的图像语义相绑定。本文在提出语义绑定的分层视觉词汇库之后会给出其与传统BOVW(Bag Of Visual Words)所产生的视觉词汇库的比较分析。本文最后把分层语义模型和语义绑定的分层视觉词汇库理论应用到两个具体的图像理解问题中去:1)基于语义的图像内容识别问题研究;2)基于内容的图像检索问题研究。本文将会具体阐述通过本文提出的模型算法生成解决上述两类研究问题的解决方案。同时本文还将通过基于上述两类研究问题的仿真实验,以及同传统算法模型性能的比较来充分说明本文提出的模型算法的创新性和有效性。
其他文献
雷达信号识别技术是电子侦察与对抗的重要研究课题。本文在高频地波雷达背景下,对高频地波雷达常用的两种信号形式,即线性调频信号和二相编码信号,进行了分析和识别,并完成了
相对于传统平面视频,立体视频包含了更多视角的数据信息,会造成数据量成倍地增长。这就给立体视频的存储和传输环节带来了极大的困难。高效的立体视频编码技术以及相应的网络
随着合成孔径雷达(Synthetic Aperture Radar,SAR)系统应用领域的拓广,要求SAR系统可以在更加灵活多样的模式下工作,具有更高的分辨率,在更为严酷的条件下仍然可以获得较为满
随着电力需求的快速增长,电能供应越来越紧张,能源也在不断的消耗。新型电网结构——智能电网,可以有效的提高能源安全与利用率,提高电网的稳定性与防灾能力。中国国家电网公
市政道路工程建设作为交通的重要内容,为了保障其安全运行,必须在市政道路工程建设过程中做好监理工作,同时为了提高市政道路工程施工质量,要对其监理合同、设计图纸、材料质
数字视频压缩技术的产生和发展具有深远的意义,它使庞大的视频数据的存储和传输成为了可能,使数字视频业务得以广泛的发展。目前,SDTV数字电视码流传输都是以MPEG-2压缩方式
在经济社会高度发达的今天,城市化进程的不断加快,极大地促进了建筑行业的繁荣,也推动着建筑工程相关技术不断进步和发展.结构设计是建筑工程的关键环节,其质量水平直接关系
图像视频中的人工文本包含了大量重要信息,是作为对图像视频内容的说明、解释及补充。由于语义鸿沟(Semantic gap)的存在,造成计算机难以对视频内容信息进行直接提取。因此在
随着无线通信技术的迅猛发展,各种新的通信业务迫切需要无线网络能够提供实时高速的数据传输。正交频分复用(OFDM,Orthogonal Frequency Division Multiplexing)技术以其优良的
随着科技发展日新月异,由二维平面显示过渡到三维立体显示的技术越来越受到专家学者的关注。本文从介绍立体视频的背景与发展开始,逐步引入当前各种最新的立体视频显示技术,