一种改进型字符串相似连接算法的研究

被引量 : 3次 | 上传用户:johnlzh0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪,信息技术的快速发展,计算机的普及,互联网的广泛应用,全球信息共享日益加大,信息量爆炸式的增长。在大量的信息面前,如何准确地、快速地找到我们需要的信息。这一直是计算机科学研究的热点问题。字符串的相似连接技术是一种比较有效的解决上述问题的办法,它能从一个被查询字符串集合中找出与给定的查询字符串相似程度满足一定要求的所有字符串。字符串的相似连接技术在信息检索、学术不端检测系统、生物信息学、入侵防御、垃圾邮件过滤等领域有着巨大的应用空间。但随着计算机网络的高速发展,信息量爆炸式的增长,传统方法面临着查询速度慢的挑战。因此,本文研究提高字符串相似连接的查询速度具有一定的意义。本文主要研究字符串在采用编辑距离为相似度函数的相似连接。通过基于q-gram技术的字符串分割,分割后的字符串片段基于trie树实现倒排索引,通过索引归并算法筛选掉不可能是结果的字符串,最后对候选结果进行验证。本文采用了两种办法提高算法的查询速度。一是基于trie树实现倒排索引。trie树是树形结构,可以利用字符串的公共前缀提高索引的查找速度。利用trie树实现的倒排索引不仅能够提高现有算法的查询速度而且在具有较多公共前缀的字符串面前具有更高的效率。二是通过左向填充算法和长度过滤算法相结合的办法对现有算法进行优化。左向填充算法可在一定程度上提高公共字符串片段的数量,使更多的被查询字符串能够使用索引归并算法进行筛选,减少验证阶段需要验证的字符串数量,提高算法的查询速度。长度过滤算法因其过滤条件简单且有效,能过滤掉一些不是结果的字符串,同样减少了验证阶段需要验证的字符串数量。索引归并算法与长度过滤算法相结合可进一步提高算法的查询速度。
其他文献
随着移动互联网技术和传播科技的发展,传统纸媒正在探索与微信公众平台这一新媒体渠道的融合之道,以缓解单一纸媒在数字化时代所面临的巨大冲击和压力。文章在梳理传统纸媒微
我国汽车仪表行业发展至今已有60余年的历史,经历了几种不同的发展阶段,目前国内生产的相关产品其质量和数量能满足基本的国内各种轻、中、重车和客、农等各种类型和部分外国进
锦屏一级水电站右岸地下厂房地质条件复杂,地应力高,对围岩稳定造成较大不利影响。统计分析了厂区地下洞室群施工期的围岩变形破坏现象,归纳出高地应力条件下地应力方向、洞
在我国近期的经济发展过程中,出现了不动产的投机行为、不动产价格畸高等问题,政府为应对不同时期的不同情况出台各种政策,这些政策陆续地提高首次购房和第二套住房的首付比例和
目的:新疆常见的两种洋甘菊为母菊(Matricaria chamomilla L.)、罗马洋甘菊(Anthemis nobile L.),外形极为相似,且药材标准较低。本研究参照国外药典方法,根据两种洋甘菊国内外公认的
随着我国信息技术的发展的越来越成熟,信息获取的方式也变得越来越多。我们国家网络技术尤其是无线网络技术的发展速度很快,为人们能够获取信息带来了很大的便利。在许多公共
2,3-丁二醇(2,3-butanediol,2,3-BDO)具有广泛的工业应用,例如可以用来制备油墨、香料、熏蒸剂、增湿剂、润滑剂、软化剂、增塑剂、炸药和药物载体等。近年来,面临石油资源的
第一部分CCK-8法检测As2O3作用kasumi-1细胞株细胞增殖情况目的:筛选出作用于kasumi-1细胞株的最佳As2O3浓度,为后期实验的药物作用浓度提供依据。方法:采用浓度为0μmol/L、0.5
强化是自闭症儿童个别化教学的常用方法。但在实际教学及训练过程中,强化使用不科学,选择强化物不合理,往往影响儿童的训练效果。文中对自闭症儿童个训中强化物的使用原则、
近几年,随着各种三维模型变形算法的越来越成熟,三维模型变形技术被广泛应用于各行各业之中,而且目前仍是计算机图形学领域的一项研究热点。根据目前现有的各种三维模型变形