快速多模式匹配算法的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:gfdsa008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配,是指给定一个或者多个具有某种特定属性的模式,搜索这些模式在一段符号序列中的出现位置。模式匹配是计算机科学的基础性问题,它被广泛研究,又广泛地运用于信息检索、入侵检测、IP路由、数据挖掘、文本压缩、光学字符识别、语义分析等众多涉及符号与字符处理的领域。近些年来,互联网传输量爆发式增长,网络安全形势日益严峻,DNA序列比对技术快速发展,都迫切需要更高性能的模式匹配算法。本文首先介绍了经典的单模式匹配算法和Aho-Corasick算法、AC-BM算法与Wu-Manber算法这三种使用最为广泛的多模式匹配算法,分析了这些算法的优缺点。然后通过实验测试,比较了这些算法的时间与空间性能,分析了模式串长度与数量等因素对性能的影响。Aho-Corasick算法是一种经典的多模式匹配算法,有着良好的匹配速度,在众多的场景得到了广泛的应用。该算法的缺陷是随着模式串集合规模的变大,Aho-Corasick自动机的空间也急剧增大。Aho-Corasick算法空间开销大、存储效率低的问题促使前人做了大量的改进工作,主要的改进工作都着力于研究更为高效的存储结构来保存Aho-Corasick自动机的转移信息。经典的高效存储格式包括Banded-Row格式向量、Sparse-Bands格式向量和位图。为了降低Aho-Corasick算法的空间需求,在深入分析研究前人的改进工作后,本文提出了一种基于分类存储的改进算法——CAC算法。CAC算法不局限于单一的方式存储状态节点,可以灵活选择转移表、Banded-Row格式向量、Sparse-Bands格式向量、位图等方式存储状态结点。在预处理阶段,计算每一个状态的转移信息、失效信息与输出信息,将这些信息与预定义的规则进行比对,为每一个状态结点选择最合适的存储格式,尽可能少地使用空间。在搜索阶段,根据状态结点的标识符识别状态节点的存储类型,用恰当的方式读取转移信息、失效信息与输出信息,以完成搜索。实验表明,CAC算法与经典Aho-Corasick算法、位图Aho-Corasick算法相比,以搜索阶段较小的时间性能为代价,极大幅度地压缩了自动机的存储空间,适用于空间资源昂贵、模式串集合规模较大的场景。
其他文献
干细胞的内部维持机制以及其赖以生存的微环境是干细胞自我更新和分化能力得以维持的重要原因。雌性果蝇生殖干细胞的微环境(niche)是由末端纤维细胞(terminal filament)、帽细胞
研究背景和目的:分化相关基因NDRG1(N-Myc downstream-regulated gene1)属于 N-myc下游调节基因蛋白家族一成员,因在 N-myc全身性敲除的小鼠胚胎组织中高表达而得此名。NDRG1表达
自1991年,碳纳米管(carbon nanotubes,CNTs)被NEC科学家饭岛发现以来便被各国科学家所关注。经过很多年的研究,碳纳米管已经在很多领域得到应用。在有机电致发光器件(Organic Li
学位
本研究在小麦衰老叶片中发现了两种性质类似的丝氨酸蛋白酶S1和S2,我们研究分析了它们的生化特性,并对它们进行了分离纯化及质谱鉴定,根据结果确定该两个蛋白酶都来源于TaSSPl (Triticum aestivum Subtilisin-like Serine Proteasel),接着还对它的生理功能做了进一步的研究分析。本论文的具体研究工作及其结果阐述如下:1、小麦叶片中两种衰老相关蛋白酶的初步
香根草属禾本科多年生草本植物,根有香味,原产于印度和非洲大陆南部等热带地区。因其具有极强的生态适应性和全面的抗逆能力,大部分制约植物生长的逆境(旱、涝、热、瘠、酸、碱、
细胞物质转运实质上是细胞内的一个庞大而复杂的物流系统,这一系统的异常将导致各种相应疾病的发生。囊泡是这一物流系统中一种可调控的重要的运输工具,脂筏是膜脂双层内含有特
玉米作为主要的粮食作物,在经济和农业发展中占有重要地位。在环境问题日益突显、市场竞争白热化的背景下,传统玉米育种与生产已不能满足当下社会发展的需要,因此,利用遗传工程技术来改良现有玉米品质,培育新型的、具有优良性状的玉米品种有着巨大的经济效益和深刻的现实意义。类胡萝卜素在生物机体中发挥着重要作用,既参与光复合体的光捕获行为,保护植物免受光氧化损伤,又是重要植物激素脱落酸和维生素A的前体。本研究拟通
学位
THz波在成像、材料检测、环境监测、通信、天文学、生命科学、国防安全等领域均有重大的科学研究价值和广阔的应用前景。基于受激电磁耦子散射的可调谐THz波参量振荡器(TPO)
喜树碱(Camptothecin,CPT)是我国特有树种珙桐科植物喜树(CamptothecaacuminataDemce)中所含的一种生物碱,具有广谱抗肿瘤活性,是迄今为止发现的唯一一种拓扑酶Ⅰ抑制剂。喜树