基于局部媒纹的分布式图像搜索系统研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hhww541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的快速发展,微博、微信等社交媒体的出现,每天有海量的文本、图像、音频、视频等数据在互联网上产生,其中图像的数据量已经达到PB级别。面对如此海量的图像数据,传统的图像搜索系统已不能满足实际需要,因此新型分布式图像搜索系统的研究与实现成为研究的热点。  针对该问题,研究了一种基于局部媒纹的分布式图像搜索系统,提供百万级以上规模图像的快速查询服务。平台系统主要包括索引服务器,搜索服务器,Web服务器,图片服务器和代理服务器五部分组成。系统设计充分考虑到搜索的高效性、扩展性和易存储性,采用了基于Zookeeper实现的索引自动同步和更新方法,实现了服务器的自动高效管理;通过增加代理服务器的方式,提高Web服务器和搜索服务器之间的通信效率;改进了负载均衡的策略,实现服务器更均衡地处理查询请求。在离线处理阶段,采用了基于hadoop的局部特征批量提取与索引构建方法,大幅度提高批量处理速度。  在图像局部媒纹的生成过程中,首先提取图像的SIFT特征,然后分别采用分组降维和PCA降维对特征进行转化,将长度为128的特征向量转化为32位的无符号整数,作为图像的局部媒纹。在基于媒纹的索引构建过程中,提出了基于大容量内存的索引结构,可根据查询索引快速定位到图像列表,大幅度提高查询速度;在分布式查询方面,对比了集中放置和分散放置两种不同的分布式方法,并针对不同服务器上查询时间不完全一致的问题,借鉴CPU指令流水线思想提出了改进的方法。  实验表明,采用PCA降维的方法比普通分组降维的方法在查询速度上有所提高。基于大容量内存的索引,在查询速度方面比使用Lucene构建的索引有着较大的提高。在不同的图像特征分布式方法对比中,发现分散放置的方法比集中放置的方法速度更快些。在改进分布式查询的实验中,发现借鉴CPU指令流水线实现能够有效减少图像的平均查询时间。
其他文献
近些年来,我国电子商务的飞速发展,不仅改变了人们的生活方式,也对传统的物流业造成冲击,物流问题已经成为企业发展的瓶颈,物流调度对提高物流系统运作的效率至关重要。目前物流调
随着Internet的飞速发展,人们的生活越来越依赖互联网,网络成为人们探讨问题、交流信息的主要平台。同样,学术界的交流重心也由线下转移到了线上,越来越多的研究成果以网络为载体
粗糙集理论是数据挖掘和知识发现领域的一种新型理论。它能够处理不确定、不完全的信息,不需要先验信息,可从数据中获取知识,生成决策规则,得到的知识相对客观。粗糙集合理论凭借
随着网络技术的不断发展,越来越多的信息资源可以通过网络得到更广泛的利用。XML(Extensible Makeup Language)作为应用之间的数据传递媒介,可以完全忽略应用双方的平台差异和
火灾报警系统的核心思想是对报管中发生的任何火情及时地感知,并及时的把这信息报给报管中心或联动处理。本文正是以此思想为出发点和设计目标,以计算机串口通信基本理论和接
PDM(ProductDataManagement,产品信息管理)软件系统是有效集成CAD/CAPP/CAM/CIMS的基础,PDM相关技术因此也颇受关注,各种PDM软件系统也广泛应用到各行各业中。管理各种包含产品信息
随着可扩展标记语言(Extensible Markup Language,简称XML)的提出,由于其可扩展性、灵活性、自描述性、结构性、平台无关性,XML技术已经成为异构数据集成、交换与同步的标准和规范
Web服务改变了传统的web应用模式,通过标准的接口、完善的服务描述,以最优方式帮助web用户完成特定目标。当前Web服务的研究重点是web服务发现技术。web服务发现使服务使用者能
随着大数据时代的到来,越来越多的数据正在被一些统计机构收集和发布。如何在发布数据时保护数据隐私,同时保障数据的可用性是隐私保护领域一直面临的重要挑战之一。ε-差分隐
随着网络技术应用的不断发展和普及,互联网上数据量正在呈爆炸式的增长,需要越来越大的存储设备。相对于直连存储而言,网络存储技术在可靠性、扩展性和性能等方面具有明显的优势