字符串词典压缩索引算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lvyuxuan36520091
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅猛发展和移动设备的大量普及,尤其是大数据时代的到来,越来越多的数据需要处理,其中文本数据占据着越来越大的比重,如何对大规模文本数据进行高效地存储和索引成为一个新的挑战。面对这一挑战,主要有两种解决思路:一种是对数据进行空间上的压缩,使得在相同存储资源的情况下,能存储和处理更多的数据;另一种是设计更加高效的外存算法和数据结构,把数据放在外存,每次只读取需要的部分到内存中进行处理,确保高效的I/O操作。字符串词典索引作为文本索引的基础,其应用无所不在,如地理信息系统、网络搜索引擎、信息检索系统等。大数据时代大规模的文本数据同样对字符串词典索引提出了新的挑战。本文从空间压缩和外存索引两方面对字符串词典索引算法进行研究,其主要研究工作如下:(1)针对现有的字符串词典索引空间占用普遍较大的问题,提出了一种新的字符串词典压缩索引S-trie,实现了字符串词典索引的压缩,即在对原始字符串词典数据进行索引以支持快速查找的同时,实现了对原始字符串词典数据的压缩。通过实验对比,证明了S-trie在空间性能方面的优势,S-trie的压缩比达到原始数据的30%。(2)针对外存磁盘环境,对S-trie进行改进,提高数据的本地引用,使其在外存环境下具有高效的I/O操作,提出了一种字符串词典外存压缩索引SB-trie。SB-trie继承了S-trie空间占用小的优点,同时具有良好的本地引用性能,可以高效地工作在外存磁盘环境。实验表明,SB-trie在空间占用上优于现有的索引,同时在数据量较大的情况下,也具有良好的查找时间性能。
其他文献
路径规划研究是机器人技术的重要组成部分,是移动机器人实现自主移动的关键所在。蚁群算法,顾名思义即是模拟蚂蚁族群行为的算法。蚁群算法的诞生最早是由来自意大利的学者M.Do
近年来,物联网RFID技术飞速发展,越来越多的RFID应用需要一个能够全面评价RFID系统的安全检测体系作为保障和支撑。然而由于RFID在原始设计上的开放性及各种协议标准不统一的
数据库(database,简称DB)已经广泛地应用到人们的生产和生活中,它可以高效的支持结构化数据的存储和查询,然而它需要用户了解数据库底层的模式知识和掌握结构化查询语言,这对于没有
随着web2.0的兴起和社会网络的迅速发展,人们以网络为媒介发表自己对某个事件或事物的评论和看法。产品评论作为最重要的情感信息来源,一直被学术界广泛使用。如何挖掘这些产品
目前,以智能手机为代表的高能力移动终端得到了迅速发展,在不久的的将来,移动终端将成为造成Internet数据通信的主体,所以移动终端以及移动通信环境将会成为未来大量计算应用的基
本论文主要是对分布式存储技术的原理进行了深入的分析,并对分布式数据库的设计与实现过程的进行了深层次的研究,在设计出空间数据表逻辑结构的基础上,对空间数据表进行了合
随着经济的飞速发展,银行业正在受到了前所未有的改变,银行若要立于不败之地,强大的软件开发技术,是支撑银行的一个重要保证。银行由于行业的特殊性,保证软件系统的安全,才能更好的
企事业单位网络中安全防御设备产生的海量日志具有多样性、高冗余度、看似“分散独立”却存在关联性的特点,现有传统的独立集中式日志分析平台计算能力有限,无法满足日志海量、
随着科技与经济地快速发展,汽车也被越来越多的人所拥有。虽然汽车的普及能够极大地提高人们的生活质量水平,但是其带来的交通安全问题也日益严峻,对人们的生命财产安全产生了极
随着移动Web的迅速发展,移动终端上的应用开始向多元化发展,以完成更加丰富和复杂的功能。由于本地应用的局限性,移动Web应用开始普及。人们将目光转向了移动混合应用,通过中