Research on Automatic Images Annotation Based on Scene Analysis

来源 :扬州大学 | 被引量 : 0次 | 上传用户:dl_smh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们如今生活在一个全球化的时代,能非常容易的访问大量信息,尤其是“图像”。如果我们能够分类所有的数据,这会使得访问变得更加容易和快速。这便是“计算机视觉”这个经典问题的起源。分类图像数据最重要的事情是重定义这些图像。有大量关于此问题的研究,即:图像分类,图像检索,以及图像标注。有大量关于“图像标注”的研究,这些研究在对图像视区和高级语意字之间的联系起着非常重要的作用。   图像标注有3种类型:手工,半手工,和自动图像标注(AIA)。此研究主要是针对AIA开发。AIA作为自动系统有效的节省了我们的时间。然而,相较于手工和半手工来说它的准确性是三种之中最低的。因此,找到一种好的办法开发此系统是很难的。   此研究主要是基于PLSA&GMM模型并对其进行改进从而得到“SC&GMM”。在自然语言处理领域,相比较于其它模型PLSA模型能够更好的标注关键字。SC&GMM是基于场景分析的原则,并包含两个阶段。第一个阶段是训练过程,目的是将训练数据集分类到特征空间。第二个阶段是对测试图像数据标注关键字。SC&GMM算法通过使用PLSA聚类从组语意场景开始运行。然后,通过计算语意特征提取来找到场景中图像标注的关键字,其中每个图像有374维。   之后,计算所有训练图像对之间的视觉特征提取距离(每张图像在每个分段区域有36D)方式Earth Mover’s Distance(EMD),创建一个距离向量。然后,把这些数据通过运用分层聚类分发到视觉场景中。当得到语意场景和视觉场景之后,对相似场景中的每个图像进行比较。如果它们相似,把语意场景和视觉场景结合在一起,结合方式是拥较少图像的场景融合到图像元素多的场景里。然后,对无相似剩余视觉场景计算注释关键字。对所有场景通过运用GMM来创建向量空间。   接下来是通过对各个特征空间图与像数据视觉特征的比较来给测试图像数据从而标注关键字。此过程是通过本征场景来找出视觉特征的秘密。如果它们相似,通过运用GMM把它们放在一起。然后,给引用场景的图像注释关键字。   在此研究中用到的图像的名字叫做“core15k”,包含5000张图像。把他们分成50组,每组100张。其中4500张是用来训练,500张是用来测试。同时,所有的5000张图像都与同现模型、翻译机器模型、CMRM、PLSA&GMM以及我们的模型SC&GMM一起进行了测试,通过recall,precision,and f-measure等标准的比较来得到各个模型的效率。
其他文献
在工程实践中,越来越多的研究者开始使用多方位、精密的微位移视觉测量技术来对物体进行全方位、多自由度的测量。例如大坝、桥梁、大型建筑物等物体微变形、微位移的检测,铁轨
在众多类型的恶意软件中,僵尸网络被认为是网络安全的最大威胁。近几年,随着僵尸网络技术的发展,其结构逐渐从中心式向分布式进行转变。P2P僵尸网络利用分布式P2P网络技术来
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web用户浏览模式挖掘是Web挖掘的一个重要研究方向。Web用户浏览模式挖掘是通过对Web站点服务器日志
随着社会的发展,软件的规模越来越庞大,设计越来越复杂,而软件的质量也越来越难以保证。软件测试是保证软件质量的重要手段,如何有效的开展测试,将各种各样的测试方法巧妙地结合起
计算几何可以应用于计算机图形学、地理信息系统和三维地质建模等生产和生活中的各个方面,本文研究了基于GPU的并行计算几何相关算法,以及相关计算几何算法在三维地质建模方面
煤炭是我国的主要能源资源,科学、合理的开采一直被煤炭企业所重视。了解井下煤炭质量(以下简称煤质)变化趋势及煤层结构分布情况对于煤炭企业进行生产计划、开采方案等的制定
信息化是充分利用计算机技术、网络技术及通信技术将过去孤立分散的信息集中形成信息网络体系的过程。信息化实现了信息的交流和共享从而极大提高了社会各种活动的功能和效率
在大数据存储研究领域中,数据存储与维护是一个具有挑战性的研究课题。由于数据量爆炸式增长,导致数据中心的数据规模庞大且冗余度高,不仅耗费巨大的存储空间和能耗,而且数据
人脸识别是指通过分析人脸视觉特征信息来判断人的身份的一种自动化计算技术。最近几十年,人脸识别随着计算机处理信息水平的提高而有了很快的发展,为身份识别的自动化发展提供