快速精确字符串匹配算法研究

被引量 : 0次 | 上传用户:zhshp123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配问题是在给定符号序列(称为文本)中按照一定的匹配条件,搜索给定符号序列或给定符号序列集合中元素(称为模式)出现位置的搜索问题。该问题是计算机科学的基础问题之一,被广泛的应用于各种涉及文字和符号处理的领域中,是网络安全、信息检索、计算生物学等重要领域的关键问题。随着网络安全问题凸显、海量信息检索、计算生物学高速发展,现有串匹配算法已经无法满足应用对匹配性能的需要,急需性能更高的串匹配算法出现。本文对串匹配领域中的精确单模式匹配和精确多模式匹配子领域进行研究。通过对现有算法进行改进,提出了具有更高性能的串匹配算法。在精确单模式匹配领域,本文对Q-Hash、EBOM、TVSBS算法进行了改进,先后提出了SQ-Hash、TQ-Hash、SEBOM、BOMq、BOMq’、SufOMq、Suf_SEBOM、TVSBSq、TVSBSqA、FQ-Hash共十个(系列)算法。实验表明在精确单模式匹配领域,64.3%的匹配条件下,本文所提出的算法性能高于已知算法。在精确多模式匹配领域,本文对AAC、Set BOM算法进行改进,先后提出了AACS、AACF、Set EBOM、Set SEBOM、Set BOMq、Set SufOMq共六个(系列)算法。本文所述算法在多数条件下,性能高于经典算法。在时间复杂度分析领域,本文对Q-Hash系列算法进行分析,证明Q-Hash系列算法能达到精确单模式串匹配算法平均时间复杂度的下界,并基于此结论,本文证明了Wu-Manber算法在选择合适的Hash函数时,能达到多模式匹配平均时间复杂度的下界。本文还提出了后缀匹配类研究中的一种通用方法,图例法。图例法简单清晰,可达到按后缀匹配的最大跳跃距离,并可以直接转换为算法的预处理过程,为今后后缀匹配类算法的研究提供了方便。同时,本文还提出了与AAC自动机一致的Set DFA自动机,该自动机构建时,时间复杂度和AAC一致,但无需借助失败函数,简单易懂,操作更少,而且可以方便的人工实现,Set DFA自动机的构建时间只有AAC自动机构建时间的50%左右。
其他文献
理解马克思哲学首先要克服诠释过程中的困境,正视认识上的误区,同时又要善于从"实践诠释学"的角度去理解。马克思哲学把实践作为对事物、现实、历史诠释的起点,其解释理论实
本文在巴萨效应理论的基础上对人民币实际汇率进行分解,发现一价定律偏离因素是2012年以前实际汇率波动的主导诱因;而在进入2012年以后,相对价格波动因素对实际汇率波动的影
中国与金砖国家贸易关系日趋紧密,中国对其出口贸易额呈波动上升趋势。本文选取2000-2013年贸易数据,运用恒定市场份额(CMS)模型逐年分解中国对金砖国家出口贸易额动态波动的
目的探究预见性护理模式对减少脑卒中鼻饲患者误吸发生率的影响。方法随机选取该院2015年5月—2016年5月收治的100例脑卒中患者为研究对象,随机分为实验组与对照组,两组患者
在上肢骨折手术中,如肱骨骨折、尺骨桡骨骨折,最常见的并发症是桡神经损伤[1]。本文选取我院骨科2007-05—2013-06收治的112例肱骨骨折患者及38例桡骨骨折和尺骨骨折患者为研
在市场竞争日益激烈的情况下,自主创新已成为一个企业获取竞争优势的关键所在。随着经济社会的发展,科技型中小企业已逐渐成为高新技术产业自主创新的一支重要力量。它是科技成
卫星定位实现列车运行状态的自主感知是下一代列车运行控制系统的重要发展方向。基于卫星的车载定位方式能够有效减少轨旁设备,降低建设和维护成本,提升列车定位的自主性和可
美国在冷战结束后,确立了经济、军事的世界霸主地位,但是全世界反对美国霸权主义的呼声也随之越来越高。在此国际形势下,美国哈佛大学教授约瑟夫·奈最早提出了“软实力”的
近年来,随着信息技术的快速发展,网络的应用已经渗入到社会的各个领域,逐渐改变着人们的生活和学习方式,同时也影响着人们的心理和行为的发展。网络成瘾现象已经成为国内外心理学
在全球价值链时代,中间品贸易在国际贸易中的比重日益扩大,致使传统贸易核算方法无法准确评估一个国家或一个行业在国际贸易中的实际贡献。本文利用世界投入产出数据(WIOD),