基于内容的场景和物体类别识别研究

来源 :上海交通大学 | 被引量 : 5次 | 上传用户：h565739

【摘要】

：

近年来,随着Internet的快速发展和普及,在网络上存储、传播着海量的信息和数据,尤其是图像和视频。因而,按照语义快速方便地分类和检索图像越来越重要。但是,由于光照、尺度

【作者】

：

陆福相

【出处】

：

上海交通大学

【发表日期】

：

2011年01期

【关键词】

：

场景识别物体类别识别多重特征通道特征组合词包模型概率隐语义分析金字塔单词直方图金字塔主题直方图

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着Internet的快速发展和普及,在网络上存储、传播着海量的信息和数据,尤其是图像和视频。因而,按照语义快速方便地分类和检索图像越来越重要。但是,由于光照、尺度、旋转、视角、姿态等变化,正确地识别场景和物体类别难度依然很大。此外,由于人们对图像的视觉感知不同所造成的视觉歧义,对识别算法提出了新的要求。本文主要研究如何快速准确地识别场景和物体类别。首先,本文设计了一个实用场景和物体类别识别系统并提出了一种新的多重特征通道图像表示。为了胜任不同的场景和物体类别识别任务,本系统首先从给定图像中提取多个特征“通道”,每个特征通道利用词包模型计算图像或子图像的视觉单词直方图,并通过空间金字塔引入单词之间的位置信息。各个特征通道的主要区别在于词包模型中采用哪种特征检测器/特征描述符组合,因而具有不同水平的辨识能力和不变性。这种多重特征通道图像表示为有效地组织和利用各种稀疏或稠密特征检测器、局部特征描述符提供了一个统一的框架。对于每个特征通道,该系统然后使用基于直方图交叉核或χ~2核的支持向量机计算图像属于各个可能类别的得分。最后利用逻辑推理或统计推理的方法,综合所有特征通道的识别结果得到测试图像的识别结果。基于多重特征通道的实用场景和物体类别识别方法计算复杂性低、通用性强,而且对基准场景和物体图像库的平均识别率高于大多数流行方法,表明了该方法的有效性和合理性。其次,本文研究了不同特征通道的组合问题,提出了四种规则(统称为x-max):max-max、sum-max、prod-max和classifier-max。x-max通过不同的方式组合各“单”特征通道的识别结果,进而得到图像的最终类别。其中,max-max、sum-max和prod-max分别由各单特征通道得分的极大值、算术平均值和几何平均值确定测试图像属于某个可能类别的得分;而classifier-max根据第一级分类器得到的各单特征通道的识别结果,由第二级分类器确定测试图像属于某个可能类别的得分。在x-max中,最后得分最高的类便是测试图像的识别结果。与场景和物体类别识别中两种最流行的特征组合规则(多核学习和线性规划提升)相比,x-max规则的优点有三:一是它基于分布式组合的思想,鲁棒性高,每个组合节点处理负担小,并便于并行处理;二是扩展性强,当加入新的特征通道时,只需学习与新特征通道有关的分类器,毋需重新从头开始学习所有分类器;三是计算复杂性低,适用于识别大型场景和物体图像库。对五个基准图像库的实验结果表明,与多核学习和线性规划提升相比,使用x-max组合多重特征通道,时间复杂度降低了1–2个数量级,平均识别准确率高于多核学习,并接近线性规划提升。最后,本文提出了一种新的基于金字塔主题直方图(PHOTO)和AdaBoost分类器的场景和物体类别识别算法。概率隐语义分析(pLSA)在文本语义分析和处理中用来挖掘文本文档的主题。本文在pLSA模型的基础上,通过空间金字塔引入位置信息,利用EM算法计算图像金字塔中各个单元格的主题混合系数向量,并拼接形成一个“长”向量(称为金字塔主题直方图(PHOTO))用来表征图像。然后使用AdaBoost算法的一种变形识别场景和物体类别。实际上,PHOTO相当于使用pLSA对金字塔单词直方图进行非线性降维,从而得到图像的低维语义特征。实验结果表明,PHOTO特征在大多数基准场景和物体图像库上取得了较为满意的结果,它尤其适用于识别场景图像。

其他文献

基于SWOT分析下阿拉善右旗肉苁蓉产业发展现状分析

本文在深入研究沙产业内涵的同时,对阿拉善右旗沙产业发展进行分析,以阿拉善肉苁蓉产业为切入点,采用管理学战略分析方法中的SWOT分析方法,以阿拉善右旗肉苁蓉产业发展为研究

会议

肉苁蓉产业人才培养技术创新资金投入

通用型图像隐写分析的基础问题研究

在当前网络传输的媒体数据中,可能含有使用隐写术方法隐藏的隐秘信息。隐写术通过使用正常的媒体数据对信息进行伪装,达到隐秘通信的目的。由于隐藏在媒体数据中的隐秘信息具

学位

隐写分析隐写术图像特征邻域信息特征梯度boosting分类器训练聚类

翻转课堂式教学在诊断学教学中的应用

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

翻转课堂式教学诊断学医学教育

思杰NetScaler 9将数据中心提供企业互联网应用的成本减半

近期,全球领先的应用交付基础架构解决方案提供商思杰系统公司宣布推出目前业界最先进的解决方案—Citrix Recently, Citrix Systems, the world’s leading provider of

期刊

应用交付互联网应用NetScaler 9数据中心

顺天道、行商道方是成功之道——卡柏中国区CEO林俊先生访谈录

无论是配套的设备制造商、耗材供应商还是加盟商以及消费者，在感受卡柏的特色时，都会不约而同地想到这么两个形容词“务实”“专业”，这个看似简单的评语，其含义并不简单。

期刊

成功之道使命感洗涤行业加盟商CEO

低功耗软硬件划分算法研究

面对依靠电池供电的便携嵌入式移动设备在能量使用方面受到的严格限制以及电池技术的发展速度远远落后于集成电路发展速度的现状,低功耗嵌入式系统设计已经受到学术界和工业

学位

软硬件划分低功耗禁忌搜索算法量子遗传算法多目标进化算法

PVC在户外自然环境(寒温、暖温)中老化失效规律的研究

会议

重读路遥——传承弘扬路遥的文学遗产和精神遗产

路遥对于中国当代文学改革开放四十年而言,无疑是一个重要的现实存在。重读路遥,应从苦难读起;重读路遥,需要弘扬理想主义和重新理解现实主义;重读路遥,需要继承其文学遗产和

期刊

重读路遥当代文学改革开放文学遗产精神遗产

基于内容的场景和物体类别识别研究

其他学术论文