大规模图像搜索中的图像表示模型

来源 :清华大学 | 被引量 : 0次 | 上传用户:z30405060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的大规模图像检索系统依赖于鲁棒的局部图像特征及Bag-of-Words(视觉单词集合)图像表示模型以获得适用于大规模数据库的可扩展性。然而,Bag-of-Words表示模型的不足在于:图像在转化为“视觉单词”的过程中,损失了许多信息;通用的图像特征无法很好的表示图中某些重要物体的特殊属性。本文针对这些不足,提出了一个包括“视觉单词”、“视觉短语”到“视觉主题”的图像表示整体框架:(1)我们通过保持更多的底层图像信息,生成更具表达力的“强视觉单词”;(2)组合多个“视觉单词”以构成稳定的“视觉短语”,并在其上定义鲁棒的匹配准则;(3)根据图像内容定义“视觉主题”,抽取更适于对应主题的图像特征。本文的主要具体研究内容及创新成果如下:1.提出了基于“多采样,多量化树”的“强视觉单词”图像表示模型。基于对从图像到“视觉单词”过程中信息损失的分析,我们对同一特征进行多尺度采样,在特征抽取时保持更多的图像信息。同时,我们提出“多量化树”方法,在各采样组成的混合特征空间中构建精细的视觉词表以降低量化误差。2.提出了一种基于Bundled特征(组合特征束)的“视觉短语”表示模型。利用鲁棒的区域检测算法,我们在图中组合局部互邻的“视觉单词”构成稳定的Bundled特征,并定义鲁棒的部分匹配准则以刻画特征点之间的局部几何位置关系。由此构成的“视觉短语”具有较高的可重复性,且较单个“视觉单词”具有更高的可区分性。3.构建了适于人脸图像搜索的图像表示模型,并提出“基于参照身份”的量化方法以及“多参照”重排序等方法以适应人脸姿态和表情的变化。我们讨论了“视觉主题”在底层图像特征抽取中的作用。针对人脸图像这一重要的“视觉主题”,我们提出了一个结合局部特征和全局人脸识别特征的大规模人脸检索系统方案。即先用局部特征高效的检索倒排表索引,获得具有高召回率的候选图像。再用全局特征对候选图像进行重排序,从而提高检索精度。综上所述,本文提出了一个新颖的图像表示框架,并针对框架中的每一部分提出具体的解决方案。我们将这些方案应用于基于内容的大规模图像检索问题上,通过实验验证它们的合理性及有效性。
其他文献
<正>中国市场依然"流淌着牛奶与蜂蜜",拥抱互联网是本土决胜的关键。2017年,我们曾聚焦消费领域跨国公司的经营状况,了解这些知名品牌在华生存状况,进而洞察中国消费趋势的潜
当代中国剧烈的社会转型迫切需要人们对人的价值有一个全面正确的理解,迫切需要树立反映时代精神和社会发展需要的人生价值观.本文把"人的价值"问题放在"主体-客体"这一理论
<正>新民宿运营法宝:品牌连锁+线下流量入口+场景式营销。高需求与低供给,使得民宿行业的投资热潮一直都在。据国家旅游部门统计,截至2016年底,全国共有民宿53852家,而在2014
期刊
目的:观察兰索拉唑、克拉霉素、阿莫西林短程三联疗法治疗幽门螺旋杆菌(HP)感染十二指肠溃疡的愈合率和根除率。方法:HP阳性的十二指肠溃疡病人135例,分为两组,观察组85例,以兰索拉
<正>永和县位于山西省西南部,临汾地区西北隅,吕梁山南端,晋陕大峡谷的黄河东岸。这里是中华民族文明的发祥地之一,相传伏羲在黄河岸边的乾坤湾观天象、察地貌,发明了太极阴
当今,商业模式创新已成为企业获得或维持竞争优势的重要手段。IBM商业研究所的全球CEO调查显示,从2006年开始,全球大企业集团的总裁已将商业模式创新作为企业创新的首要考量。20
报纸
利用光学设计软件Zemax设计了一套具有6×,10×,16×,25×与40×放大倍率的五档式数码裂隙灯显微镜光学系统.在传统体视裂隙灯显微镜光学系统结构的基础上将数码型裂隙灯显微
随着社会经济的快速发展,建筑行业也得到了迅猛发展.如今,在城市里出现了很多高层建筑,高层建筑是属于比较精密的结构型建筑.也正是由于高层建筑复杂的建筑结构,给火灾的发生