基于机器学习的图像检索若干问题研究

被引量 : 0次 | 上传用户:sdliule
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,随着数码相机、拍照手机、带有摄像头的移动电脑的普及,数字图像得以大量涌现,而随着互联网技术的发展,特别是web 2.0技术的流行,图像的传播和扩散也变得越来越容易。如何快速、有效地组织和管理这些海量的图像信息,已经成为学术界和工业界共同关注的热点问题。近些年来,随着研究的深入,机器学习技术被广泛的应用于图像检索领域,例如图像标注、图像内容的分类、用户反馈的建模、图像搜索结果的排序、图像数据集的获取等等。本文围绕机器学习框架下的图像检索这一研究主题,主要针对图像标注(image annotation)、图像重排序(image re-ranking)和物体检测(object detection)这三个问题展开研究。论文的主要工作与创新体现在以下几个方面:1:图像标注的目的是根据图像的视觉内容来确定对应的文本语义描述。本文提出了一种把词汇间的语义关系嵌入到多类支持向量机中的图像标注方法。首先,每幅图像被分成5个固定大小的块(block),对于训练集中的图像,手工指定每个标注词对应于哪个块,词汇间的语义关系通过共现矩阵来计算。然后,利用MPEG-7视觉描述子表示每个块的视觉特征。为了减少特征维数,采用了一种名为mRMR(最小重复性最大相关性)的特征选择方法。同时针对Corel 5000数据集中的80个语义词,训练了一个多类支持向量机分类器。最后,把支持向量机分类器的后验概率输出和词汇间语义关系集成到一起,用于得到图像的标注词。在Corel 5000数据集中的实验表明此方法是有效的。2:图像重排序是指在原始搜索结果排序的基础上,通过利用图像内容、挖掘数据关联、或者借鉴领域知识和人工交互,对原始搜索结果进行重排序提升用户满意度的过程。当前的商业搜索引擎尽管在语义相关性上取得很大进步,但由于较少利用图像内容本身,造成图像排序结果缺乏视觉多样性。而一些研究者提出的纯粹基于聚类的方法,在取得视觉多样性的同时,又有把不相关图像排在前面的风险。本文提出了一种同时兼顾语义相关性和视觉多样性的图像重排序方法,本算法是一种混合方法,把Leuken等人提出的相互投票算法和Deselaers等人提出的贪心算法综合起来,以同时获得两种方法的优点。首先,每幅图像根据视觉相似度为其它图像投票,得票数最高的一些图像作为候选者。然后利用一个受限的轻量级贪心算法来找出最相关和最有新鲜感的图像作为聚类的中心。在计算视觉相似度时,混合了不同的视觉特征,包括颜色、纹理和主题特征。同时利用PLSA和LDA两种潜在主题模型作为降维手段,并在实验中比较了这两种主题模型,并讨论了综合主题特征的优点。首次引入了聚类查全率和NDCG的调和平均值作为衡量排序性能的标准。对Google和Bing的初始排序结果做了大量的重排序实验,与学术界领先的算法做了比较,通过计算聚类召回率、F1值、聚类召回率与NDCG的调和平均值表明,本文方法是可行的。3:物体检测的目的在于不仅需要判断出某图像中有无该物体,还需要指出该物体在图像中的具体位置。当前领先的物体检测技术主要采用有监督的机器学习方法并组合多种特征,这些基于有监督学习的方法需要大量的训练数据,但标注用于物体检测的训练数据非常耗时,需要大量的人力。虽然一些研究者提出可以利用web图像或者半监督学习技术来获取物体的图像库,但这些图像库中由于没有物体的具体位置信息,一般情况下只能用于物体的分类。本文首次提出可以利用Flickr中的notes数据来获取物体检测数据集,本方法的目的是希望能够以较少的人力提供用于物体检测的训练数据,并且保证训练数据的高质量,这些可以通过挖掘Flickr中的notes数据来实现。Notes数据是由用户在图像中添加的感兴趣的区域(矩形框)及其元数据,包括矩形框的位置、大小以及文本。本文的方法首先通过文本挖掘找到与物体有语义关联的初始图像集,然后从初始集中人工选择出高质量图像作为种子集,最后这个种子集通过增量式的主动学习算法来扩展。在PASCAL VOC2007和NUS-WIDE数据集中做了实验,结果表明本方法获取的数据集可以作为传统数据集的补充,甚至替代传统数据集。
其他文献
本文的研究对象是中国的仿宋体,从设计史的角度对仿宋体的起源及其发展进行探讨,总结仿宋体历史发展过程中的特点,并通过这些研究对中国平面设计史进行侧面分析,从微观的层面
住宅建设是各国政府普遍关注的社会问题,住宅质量关系人民生命财产安全和公众利益。随着我国经济社会的快速发展以及住宅体制的改革,住宅亦成为一种商品,更为直接关系到百姓
吉林省西部地区属于典型的季节性冻土地区,水分、盐分的迁移加剧了该地区土壤的盐渍化及冻胀程度。为掌握吉林省西部地区盐渍土的水分迁移和冻胀特性,从而为有效控制该区土壤
随着工业化的进程,机械系统的运行可靠性越来越受到了人们的重视。牵引电机滚动轴承是电机设备中常用的部件,并且是故障率非常高的零部件之一,所以对牵引电机滚动轴承的故障
萨德是法国的一位最具有代表性的情色文学大师。他生活在18世纪末19世纪初的法国。那个时代是一个大变革大动荡的年代,法国大革命的风暴席卷法国。在这个动荡的时代里,萨德侯
“三段六步”模式是以探究为主的教学。它是指教学过程是在教师的启发引导下,以学生独立自主学习和合作讨论为前提,以现行教材为基本探究内容,以学生周围世界和生活实际为参
在分析挤塑聚苯乙烯泡沫板(简称XPS)模型火试验的基础上,进行了针对XPS火灾蔓延的FDS模拟。用FDS软件对火灾蔓延模拟进行了分析,并将FDS模拟的火灾蔓延情况与试验情况进行了
作为中国文化意识的绘画艺术,远在原始混沌的时代就与中国古人探索宇宙奥秘的兴趣紧密相连。人们希望挣脱宇宙时空的束缚,通过借助绘画超越时空来表现宇宙万物。具体到中国花
本文的研究目的是比较中国朝鲜语与韩国标准语的词汇差异。论文把词汇差异分为形态差异和语义差异,从这两个方面比较了中国朝鲜语与韩国语标准语的词汇差异,并考察了仅在韩国
战争是人类的灾难,也是引起社会巨大变迁的主要因素。二十世纪上半叶,抗日战争、国共内战是台湾老兵产生的直接原因。由于国民党在台湾实行封锁政策,当年去台湾的那些大陆籍