面向大数据的关键字检索算法研究及优化

来源 :华北理工大学 | 被引量 : 1次 | 上传用户:xiaoppqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统检索模型在检索上存在的数据冗余、模糊匹配、检索结果差等缺点,结合当前研究热点,论述异构数据集成、冗余数据排除、高效数据分类、关键字检索等模型与方法,旨在大数据环境下,充分利用传统技术与虚拟化技术、MapReduce并行框架模型、改进向量空间检索模型等技术相结合优化存储模型、改进分类算法以及优化检索算法,进而提高算法运算效率,为用户提供一套集数据存储、数据分类、数据检索于一体的大数据检索基础平台。以关键字检索算法作为研究对象,主要研究内容为:首先,为了更好地对数据检索提供良好的数据存储基础,研究数据模型的设计与优化,并在云计算环境下研讨设计数据存储模型,文件块的数据更新算法设计,以及云存储的故障恢复机制等。第二,为了达到准确地对不同数据的检索要求,在原有分类算法的基础上提出了并行分类混合算法(PCHA算法),该算法利用邻近分类算法适合处理属性多、数据大的分类问题的优势,引入Map-Reduce并行框架与其融合设计,优化并提升原有分类算法的建模预测能力和分类识别率。第三,研讨传统检索算法并提出无序关键字检索算法(DKRA算法),该算法利用向量检索模型计算方便、复杂度低等优点,引入K-D矩阵构造及相似度等计算方法设计检索算法,并与计算关键字序列权重得到相关数据相似度的计算方法做比较,从而体现DKRA算法在计算效率上的优势。最后,在DKRA算法的基础上提出了有序关键字检索算法(OKRA算法),该算法利用检索关键字的有序性,给出了关键字检索步长、总体检索步长、相关数据检索步长、总体相关数据检索步长、位置匹配度的计算公式等的定义,在计算相似度中引入位置匹配度解决了由于检索关键字顺序组合造成的检索错误率问题,利用该算法可以过滤掉较差无关数据,降低数据集遍历所耗时长,提高了相关检索数据的返回质量。
其他文献
胃底病变是指贲门以下至胃体上部一段区域的胃内病变。胃底病变较隐蔽,胃镜检查中容易漏诊。临床上当患者出现消化道症状如上腹胀痛、上腹不适憋胀、吞咽不畅、胸骨后不适、食
非酒精性脂肪性肝病(NAFLD)是一种肝组织病理学改变,与酒精性肝病相类似,但无过量饮酒史的临床病理综合征,包括单纯性脂肪肝、脂肪性肝炎、脂肪性肝纤维化和肝硬化在内的一组临床
冰心是著名的诗人、散文家、儿童文学作家、翻译家,冰心还是一位杰出的小说家。她一生创作了《我的邻居》、《我的学生》、《我的朋友的母亲》、《张嫂》等多部中篇小说和《两
一首诗,往往因其中的一句或一个字写得精彩,而使整首诗飞动起来。古人把这一句或一个字叫做“诗眼”。宗鄂的《归帆》,前面只是平平的叙述,最后一句突然来了个异峰突起:“那只船儿
缺血性结肠炎(IC)是结肠局限性缺血所致,由于对该病认识的不足,国内报道较少。随着心血管疾病和糖尿病发生率日益增加,以及辅助检查技术的进展,缺血性结肠炎发现率日益增多。现对近
汉武帝天汉二年(公元前九十九年),司马迁四十七岁,春秋正盛,一场血腥之灾从天而降。原因很简单,司马迁为孤军作战兵败匈奴的李陵辩白,激怒了圣威,再加小人杜周的谗言,诽谤,汉武帝一怒之
每天每天,我都从一条河流上走过,一条比我的生命要长久的河流。在我没有来到这个世上的时候,它就已经诞生了。在我离开这世上时,它还要继续流淌。一条河流,从一个村庄到另一个村庄,如我简约的生命,一头一个家。每天每天,当我踏过它身上那架石板桥向外面的世界,我都无法漠视它,像无法漠视内心的欢乐与惆怅。每天每天,我都有一种冲动,我想和它对话,我想写写,和从它上面走过的自己。哲人说,人不可能两次踏进同一条河流。
说起脂肪肝,人们首先想到酒精依赖和酒精中毒,因酒精性肝病(ALD)至今仍为欧美等发达国家肝病残疾和死亡的首要病因.然而,当前日益流行的脂肪肝主要为非酒精性脂肪性肝病(NAFL
目的:研究置入可拆出机织型捆绑式食管支架能否预防和治疗碱烧伤所致的腐蚀性食管炎疤痕狭窄.方法:24例消化道碱烧伤患者,经食管扩张后置入可拆出机织型捆绑式食管支架,4周后
目的探讨肩关节镜下肩袖修复术治疗肩袖损伤的临床效果。方法 34例肩袖损伤患者通过肩关节镜下肩袖修复术治疗。术后2、4、6、8、12周,6、12个月定期门诊随访指导功能锻炼,此