海量小文件的快速检索技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:jiangwei_joy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的不断扩大,分布式文件系统以其海量数据支持、高可用、大规模并发访问和并发处理能力等优势获得越来越多的关注。目前,分布式文件系统大多基于文件目录结构管理文件系统存储的文件,用户可以通过文件系统内置的命令行接口和REST(Representational State Transfer)接口,按照文件目录结构快速访问目标文件。以海量照片数据为例,每个照片往往具有“拍照时间”、“地点”、“照片内容描述”等相关属性,如果用户需要从拍照时间、地点或照片内容描述等属性检索与该属性关键字相关的照片,基于文件目录结构来管理海量照片文件就很难满足用户非文件目录结构属性的文件检索请求。本文在课题组海量小文件分布式文件系统SMDFS2.0(Small files Distributed File System 2.0)研究成果基础上,针对分布式文件系统浏览模式单一的问题,首先在文件元数据结构中添加文件特征属性字段,建立文件特征与文件索引映射关系——特征倒排索引表,提出了与文件元数据绑定分布的海量小文件特征倒排索引技术。与元数据绑定分布的特征倒排索引技术的思想为文件元数据分布在哪一个节点,就在该节点上构建文件特征倒排索引表。同时基于跳表结构对倒排索引表管理,有利于从多维度检索和定位用户关心的文件。SMDFS以元数据簇为单位对元数据进行管理和分布。随着文件的创建和删除,元数据簇会发生分裂和合并操作,并重新分布。元数据簇的重分布过程必然对文件特征倒排索引表产生影响。本文提出了文件特征倒排索引表的动态分裂与重构技术,实现了特征倒排索引表的高效重分布,保证了系统的高可用性。在SMDFS2.0的基础之上,实现了特征倒排索引表与文件元数据绑定、特征索引元数据动态分裂与重构的分布式海量小文件多维度浏览系统SMDFS3.0。本文包含三组对比测试,分别为文件读写能力测试、文件特征检索能力测试和特征索引集中式维护与分散式维护对比测试。测试结果表明,SMDFS3.0与SMDFS2.0的文件读、写性能相当,时间维度检索性能相比SMDFS2.0提升231倍,城市维度检索性能相比SMDFS2.0提升52倍,分散式索引管理技术相比集中式索引管理技术在最大文件存储性能上和文件检索性能上更具有优势。
其他文献
我国地域广阔,跨越的经度和纬度都比较大,这就使得我国的地形各种各样,区域之间的自然情况也都呈现不同的特点。由于我国的人口较多,并且淡水资源的分布不均,有些自然资源比较贫瘠
通过对四缸柴油机缸体铸件的水套芯盒,水磁砂芯及缸孔壁厚的检测,分析了缸体孔壁厚均匀性的因素,提出了解决缸孔壁厚不均问题的若干措施。
最近,南方出版社出版了金德万研究员的《沉潜中的惝怳:马克思主义中国化研究的问题和思考》,这是一本试图建构马克思主义中国化学科理论体系的著作,它凝聚寸作者对马克思主义中国
目的:探讨口服不同剂量的Vitc多长后对尿酸(UA)测定无影响.方法:选择健康自愿学生11名,随机分成两组,分别口服100mg和200mg Vitc,并测定服药前后不同时间的血尿酸浓度.结果:
为了研究全胃切除、胃及幽门重建新术式对胃癌患者免疫功能的变化,测定了胃癌患者和现人术后0.54上,1年血液中IgA,IgC,IgM,CD4,CD8,IL02,SIL-2R,INF-r水平。在新术式术中IgA,IgC,IgM#,CD4,IL01,ILF-r水平明显高于传统术式(P〈0.01),与非肿瘤手术组相比差异不显
目的:观察654-2,卡马西平联合治疗糖尿病并发周围神经病变的疗效。方法:将248例随机分为治疗组165例,对照组83例,采用654-2每日20-50mg静脉滴注,3周为1个疗程;卡马西平0.1口服,每日2-
教学目标:(1)学会复韵母ie、ue,学会特殊韵母er及其四声,读准音认清形,能在四线三格中正确书写。(2)学会整体认读音节ye、yue。教学重点:学会复韵母ie、ue和特殊韵母er的音形,并能正确
汽车座椅水平驱动器(HDM)是驱动座椅前后移动的重要部件,其主体部分是一个小型蜗轮蜗杆减速齿轮箱,由座椅水平电机驱动。传统是采用人工听音的方式来检测HDM质量,劳动强度大
介绍了生产大管径离心球墨铸铁管时使用压块球经剂的原因和方法,对比了使用和未使用压块球化剂的离心球墨铸铁管的伸长率和压扁率,分析了产生差异的原因。