基于Hadoop的图像检索算法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:itwmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效地从海量多媒体数据中检索出用户感兴趣的数据,是当下的研究热点。对于图像检索,传统的检索方法主要是通过关键词或者描述来进行检索,实际上是文本检索,其检索准确率不尽如人意。基于内容的图像检索算法在十年前已经开始研究,目前Google等已有应用,但其准确率和速度都需要改进。位置敏感的哈希算法(LocalitySensitive Hashing,LSH)是基于图像内容的检索算法之一,也是较流行的近似最近邻检索算法。LSH是基于图像特征的算法,在处理高维特征数据的情况下,也取得较好的结果。Hadoop云平台是目前比较流行的云平台,它主要由两部分构成。一是分布式文件系统(Hadoop Distributed File System,HDFS),二是并行计算模型MapReduce框架。HDFS通过将数据分布式存储在集群的多个结点上,以此来提供高容量的存储,可以比较好的存储海量数据;MapReduce框架,将任务分割成多个子任务并分配到多个节点上进行计算,通过这样的并行计算模型,来提高计算的效率。本课题主要研究Hadoop平台下的图像检索算法。图像数据集分布式存储在Hadoop平台上,通过建立Hadoop平台上的图像数据集索引文件,实现快速地图像内容检索。本文提出了基于图像全局特征(GIST特征)的LSH图像检索优化算法,即通过相对欧式距离公式、最大相异系数函数和子向量空间上的最大相异系数、创建索引文件以及进行计算精确距离的二次检索对LSH算法进行优化,然后在Hadoop平台上通过MapReduce并行计算框架设计实现该算法。此外,还设计了基于图像尺寸不变特征(Scale-invariant feature transform,SIFT)的LSH算法和基于图像“词袋”模型(BagofWord,BoW)的倒排索引文件算法,并在Hadoop平台上实现这两个算法。本文通过大量实验,分析对比以上三个算法的查准率、查全率和时间性能。实验结果表明,将上述三个检索算法实现在Hadoop平台上可以较快地进行响应并且有较好的检索结果。其中,基于图像SIFT特征的LSH算法查准率最高,查全率最低,同时算法的运行时间最长;基于GIST特征的LSH算法的查准率较高,查全率最高,算法的运行时间最短;基于图像BoW模型的倒排索引算法查准率最低,查全率较高,算法运行时间较短。
其他文献
剧场建筑自萌芽产生之时到现在,已经有了三千多年的风雨历程。在这三千多年里,剧场从祭神场所逐渐演化成为人们文化生活中不可或缺的一部分,其中与人关系最为密切的观众厅设
广东省梅州市DP茶叶公司成立于1995年,主营业务为西岩山优质茶叶。公司成立以来,一度以高品质和精美包装取胜,迅速赢得梅州市场。1999年公司已被评为广东省农业龙头企业。但近年
WTO争端解决机制是国际贸易史上的一项创举,为WTO各成员方解决贸易争端提供了有效的途径。而在WTO争端解决机构审理的案例中,善意原则被越来越多的提及,因此对善意原则在WTO
短波通信使用频率介乎3MHz到30MHz的无线电磁波作为通信手段。短波通信具有设备便宜、性价比高、难以被摧毁等特点,被广泛用于军事通信、民间电台、天气预报等用途。短波电离
当前是一个信息和技术的时代,因此以信息技术为基础的新新产业也开始在全世界的范围内不断发酵,业务流程外包(BPO)和IT开发外包(ITO)正是在这个大的时代背景下逐步兴起和壮大
随着中国经济的高速发展,民间集资活动浮出水面且规模逐步扩大。然而,民间集资的发展与现有的对民间集资的刑事管制模式之间存在着激烈的冲突。虽然我国对非法集资案件一直贯以
页岩气分子吸附、解吸与扩散动力学研究,非线性渗流理论与数值模拟技术是有效开发页岩气藏的基础和前提。目前传统意义上经典的渗流理论忽略了页岩气吸附、滑脱与扩散机制,建
随着人们对生存环境的日益关注,农药也走向绿色发展的道路。低毒、低用量农药将进一步推广使用,使农药的用量有较大幅度下降,以降低对环境的压力。本文以烟嘧磺隆为研究载体,在筛
本文依据双醛淀粉(DAS)中醛基的高反应活性,通过C=N双键向双醛淀粉中引入一定量的芳香基团或烷基基团,同时破坏双醛淀粉中的缩醛/半缩醛结构,释放出羟基。淀粉的羟基与引入的
公证遗嘱是我国五大法定遗嘱形式之一,公证遗嘱制度应当具有继承法的私法性特征。由于公证遗嘱经过了公证这个严格的程序,遗嘱人在具有法律知识的公证人的指导下订立遗嘱,与其他