改进的LZ系列压缩文本上的搜索算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户：liedh123

【摘要】

：

随着大数据时代来临,人们越来越多地利用海量数据中所蕴含的信息来解决各种问题。由于数据量的巨大,信息处理会遇到很多困难,比如数据的存储,查询,信息的提取等等。本文研究

【作者】

：

满天星

【出处】

：

吉林大学

【发表日期】

：

2017年期

【关键词】

：

数据压缩 LZ压缩算法 BM算法 Horspool算法 Sunday算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代来临,人们越来越多地利用海量数据中所蕴含的信息来解决各种问题。由于数据量的巨大,信息处理会遇到很多困难,比如数据的存储,查询,信息的提取等等。本文研究了数据处理中的一个重要问题——压缩文本的搜索。主要目标是改进现有模式匹配算法,使其能够直接在LZ系列算法压缩的文本上进行搜索,省去了解压的过程。本文的研究针对当前最为流行的无损压缩方案:LZ78算法和LZW算法。由于这些压缩方案的存储形式类似,都是由一个明确的未压缩的字符和一个向前查找的索引构成,这使其可由某些基于后缀匹配的搜索算法直接处理,这样的结构可以不需要把文本完全解压就能够对压缩形式的字符串进行读取。根据这些特征,本文对一些模式匹配算法进行了改进,使它们能够直接在压缩文本上进行搜索。本文改进了利用BM算法直接在LZ系列压缩文本上进行搜索的方案,主要是使用由BM算法衍生出的的Sunday算法和Horspool算法。这些算法在匹配过程中,尽可能大距离地移动匹配窗口,忽略一些文本字符,从而加快匹配速度。针对LZ系列压缩文本的存储形式,摒弃BM算法的好后缀规则,简化算法执行过程。同时在LZ系列压缩文本上的字符尽管能够直接读取,但是由于存储方式不同,在读取的效率上也有所区别。因此在两个个算法的匹配顺序上针对匹配窗口内的压缩字符的不同存储形式进行调整。对Horspool算法的改进都因为匹配顺序的不同提出了两种不同的方案:Horspool-I和Horspool-II。而在Sunday算法中,用来和模式串进行匹配查找计算匹配窗口移动距离的标志字符处于匹配窗口外,所以Sunday算法的匹配顺序没有更多的选择,只有一种方案。另外,本文针对LZW算法的压缩过程进行了改进,构建一个新的查询数组。并利用查询数组的特性提出了新的搜索方案。直接在压缩文本中查找符合模式串前缀的字符串,直接在压缩文本上查找这些满足条件的索引。简化搜索过程,完全不需要进行解压过程。对于几种方案本文进行了效率分析。搜索算法的执行效率常常受限于实验文本的随机性不能充分证明。本文选取了不同领域的文本文件,同时使用长度依次递增的模式串在文本上进行查找。根据算法执行时间的长短来判断算法性能优劣。本文通过实验将三个改进的算法与先解压再搜索的方法进行了对比,结果表明新方法在执行速度上有较大优势。同时由于这种直接搜索的方法不需要对文件进行解压,也节省了大量的存储空间,便于传输和储存。而三个改进的搜索算法也各有特点。改进的Horspool算法一般情况下都能保证较高的效率,执行时间明显小于传统方法。而改进的Sunday算法并不善于处理模式串长度较短的匹配问题,但在处理长模式串的时候会获得很好的效果。利用查询数组的搜索方案针对重复率不高的文本有很好的效果。

其他文献

经椎板间入路椎间孔镜技术治疗腰椎间盘突出症的临床效果

目的探讨经椎板间入路椎间孔镜技术治疗腰椎间盘突出症的临床效果。方法选取2015年3月~2017年3月在我院收治的腰椎间盘突出症患者56例,采用数学随机列表法,分为对照组、治疗

期刊

腰椎间盘突出症经椎板间入路椎间孔镜治疗

基于IMAN平台的创成式CAPP系统的研究与开发

本文结合上海汽车齿轮总厂的CIMS应用工程项目,并与“传统的”创成式CAPP系统相比较,介绍在美国EDS公司的PDM产品IMAN集成平台下进行的创成式CAPP系统的研究和开发。

期刊

创成式CAPPCIMSPDMIMANgenerative CAPP systemCIMSPDM

利用Auto CAD 2000二次开发电气CAD

使用CAD技术进行设计,通过优化组合、模拟和精确的分析计算,使得产品质量在设计过程中就得到一定的保证。CAD技术,可以使产品在研制周期、质量、成本和服务方面提高综合竞争能力,取得投入少、见效快、产出多的效果。在众多的CAD系统中,美国Autodesk公司的Auto　CAD是较为流行的一种,从1982年首次推出至今,版本不断更新,功能逐步扩展和加强,已经成为计算机辅助设计软件的象征,并广泛应用于机械

期刊

AUTOCAD2000二次开发电气CAD

广东地区早发冠心病急性心肌梗死患者的环境危险因素及特点分析

目的：总结与广东地区早发冠心病急性心肌梗死（PCHDAMI）患者相关的环境危险因素并分析其特点。方法：收集276例急性心肌梗死患者按年龄分为早发组89例和晚发组187例，通过卡方分析、t

期刊

心肌梗死早发冠心病危险因素相关性

可编程控制器技术在过程控制中的应用

本文介绍了两段式煤气发生炉的工艺特点,以及采用可编程控制器技术构成的过程控制系统.重点介绍了该系统的硬件及软件.

期刊

可编程控制器两段炉PLC过程控制煤气发生炉gas productive process based in two stage gasifier PLC

大学生思想政治理论课教学“四真”状况调研分析——以《毛泽东思想和中国特色社会主义理论体系概论》为例

《毛泽东思想和中国特色社会主义理论体系概论》（以下简称为“《概论》”）“真学、真懂、真信、真用”调查到目前为止进行了两次，2012年12月和2013年6月，围绕大学生《概论》课程

期刊

中国特色社会主义理论体系思想政治理论课教学毛泽东思想大学生调研分析被调查人《概论》课程改革

中小型制造企业的现状分析与改造设计

我国中小型制造企业数量多，对国民经济的影响举足轻重。中小型制造企业具有机制灵活，市场响应速度快等潜在优势，但由于目前正面临诸多的问题，这些优势没有很好地发挥出来，而造成这

期刊

敏捷制造中小型企业DNPS生产模式制造企业agilemanufacturingsmall and mediumenterprisesNDPSmanuf

我国公共文化服务体系建设存在的问题及对策

党的十八届三中全会通过的《决定》提出：＂构建现代公共文化服务体系,建立公共文化服务体系建设协调机制,统筹服务设施网络建设,促进基本公共文化服务标准化、均等化.＂2014年12月

期刊

公共文化服务体系中国《决定》对策和建议

金融霸权与金融安全

<正> 在当今的国际经济金融领域,发达国家凭借自己在资本,技术和经验上的优势逐步树立起了自己的霸主地位,并以此在很大程度上主导了世界经济金融的格局,对处于劣势地位的发

期刊

金融霸权金融安全国际投机资本

会看门的机器人

<正> 日本富士通研究所开发出会看门的机器人。主人只要通过手机便可以查看家中的情况,防止歹人入侵;也可以利用机器人来遥控家有红外线装置的电器用品。机器人有一双大眼睛,

期刊

日本富士通研究所机器人看门机器人

改进的LZ系列压缩文本上的搜索算法

与本文相关的学术论文