快速精确字符串匹配算法研究

被引量 : 0次 | 上传用户:piliwuhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配算法是计算机应用、信息检索及计算生物学等的重要研究内容,在日常生活及科学研究中有着广阔的应用。随着计算机技术和网络技术的发展,新的应用对匹配实时性的要求不断提高。本文在对精确字符串匹配问题的研究与现状及其各种方法进行深入探讨的基础上,针对单模式精确字符串匹配及多模式字符串匹配中,被广泛使用的BM和WM两种算法进行深入系统的研究,并提出相应的改进算法并通过实验验证了新算法的优越性。全文主要内容如下:1.分析了字符串匹配算法的国内外研究现状,详细讨论了精确字符串匹配下的三种搜索方式,研究并实现了单模式字符串匹配及多模式字符串匹配下的若干典型算法,包括Shift-And及Shift-Or算法、Horspool算法、BNDM及BOM算法、AC算法、WM算法、SBOM算法。2.传统的BM算法在不匹配发生时,匹配窗口移动的最大距离较小并且匹配窗口能够移动的最大安全距离也不够大。因此,字符串匹配速度仍有提升空间。针对这种情况,本文提出了一种新的可以增加平均移动距离的改进的BM算法。该算法首先在预处理阶段使用任意的两个字符作为字符块来计算移动距离,并设置最大移动距离为模式串长度加一;然后在查找阶段通过比较连续的两个字符块来增加大距离移动的概率。实验结果表明该算法相比于原算法在速度性能上提高明显。3.传统的WM算法在发生不匹配时安全移动距离明显较小,而当与模式串匹配后的移动距离又较保守,并且存在单次匹配而整个模式串不匹配的概率较大的情况。针对这些问题,本文提出了一种新的改进的WM算法,该算法首先对SHIFT表进行改进,使得安全移动的距离有了较为明显的提高;其次改进搜索查找算法,通过增加比较字符块使得单次匹配而整个模式串不匹配的概率下降并使与模式串匹配后的移动距离不再为1。实验表明,本算法较原算法在匹配速度上具有较好的实验效果。
其他文献
以贵州大方发电有限公司#1,#3机组引风机变频改造为实例,介绍了引风机变频改造热控控制逻辑优化概况,在变频故障切换工频过程中,设计了1套自动旁路控制逻辑,热态试验和运行过程证
欧洲社会民主党已经完成了几次转型,最为明显的特征就是意识形态的右转,这固然是社会民主党在经济社会变革的压力下的必然选择,但与此同时这也是选举政治推动的结果。不同国
<正>法律的形成,并非总能按照政治家、科学家和法律学者预设的轨迹前进,历史中饱含了可预知的因素和不可预知的偶然。1906年6月30日,美国国会颁布了一部里程碑式的法律——《
<正>高速公路是公共基础设施,在提高交通运输速度和降低交通事故死亡率方面作用突出。高速公路为了达到高速行驶的要求,其造价远高于公路,但是在使用过程中大幅节省燃料、损
信息化进程的不断深入使各个行业中的相关业务均受到影响,做出对应转变。以承载业务系统的服务器展开分析,以往模式下服务器中的故障无法发现,发现后的解决亦较为困难。现阶
研究目的:观察冠心病(CHD)冠状动脉介入治疗(PCI)前后hs-CRP、IL-6及ox-LDL变化,探讨PCI对炎症反应及脂质过氧化的影响,及其与冠心病中医证型的相关性。探讨炎症指标、脂质过
目的:本文通过Meta分析,探讨高血压、糖尿病在急性心肌梗死患者再发心血管事件中的影响。方法:通过电子检索PubMed、CNKI、西文生物医学数据库、中国生物医学数据库,辅以人工
心血管疾病是危害人类健康的多发性疾病之一,心电图(electrocardiogram,ECG)的准确检测和分析对于心血管疾病的诊断起着至关重要的作用。家庭护理和户外急救对ECG检测设备的
《2014年新闻出版产业分析报告》(简称《报告》)7月15日由国家新闻出版广电总局发布。《报告》显示传统出版与新兴出版融合发展成为行业增长动力。《报告》依据《中华人民共
本文研究了以乙酰乙酸乙酯和乙酸酐为原料、氧化镁为催化剂,合成乙酰丙酮的工艺。分析了原料配比、反应温度、反应时间、搅拌速度、加热方式、催化剂种类、催化剂用量、副反